MECANIZACIÓN DEL ESTUDIO LÉXICO-MÉTRICO
•-"-£
MECANIZACIÓN DEL ESTUDIO LEXICOMÉTRICO
INDICE
1. DESCRIPCIÓN DE LA APLICACIÓN 1,1. Ámbito
1.2o Características 1 „ 3 o Análisis Funcional
2¿ IMPLEMENTACIÓN
2o 1o Análisis Tecnológico 2o2o Picheros
2o3o Entrada de Datos
2.4» Catálogo de Productos 2o5o Programas
3. EXPLOTACIÓN
4» COLECCIÓN PRODUCTOS OBTENIDOS
1. DESCRIPCIÓN DE LA APLICACIÓN
1.1. Ámbito
La aplicación ha pretendido cubrir la mayoría de necesida- des funcionales que un estudio lexlcometrico, como el aquí presentado, comporta»
Aunque en un principio se pretendió diseñar un sistema con criterios funcionales amplios y profundos, las dificultades encontradas en el Centro de Cáluclo de esta Universidad Central hicieron abandonar, en parte, esos criterios. Hemos intentado, pues, resolver los puntos básicos del problema, dejando cier- tos aspectos que inicialmente se habían considerado pero que después se evaluaron como no fundamentales.
Pese a ello, la aplicación tiene una total coherencia funcio- nal lo que hace que sea perfectamente utilizable para otros
estudios de este tipo.
A\ grandes rasgos, las funciones que abarca la aplicación son las siguientes:
a) Despojo del corpus y actualización del corpus resultante.
b) Separación de formas gramaticales.
c) Cálculo y obtención de datos generales y estadísticos de
los fragmentos que componen el texto:
- FRECUENCIA GLOBAL Y POR FRAGMENTO DE CADA FORMA - N2 DE OCURRENCIAS TOTALES Y POR FRAGMENTO
- No DE OCURRENCIAS LÉXICAS TOTALES Y POR FRAGMENTO - N2 DE FORMAS LÉXICAS TOTALES Y POR FRAGMENTO
- FRECUENCIAS MEDIAS DEL VOCABULARIO TOTALES Y POR FRAGMENTO - MEDIAS Y DESVIACIONES TIPO DE: OCURRENCIAS, OCURRENCIAS
LÉXICAS Y FRECUENCIAS MEDIAS
- CALCULO DE LOS COEFICIENTES DE PEARSON EN LAS FRECUENCIAS MEDIAS DEL VOCABULARIO
- CÁLCULO DE LAS ECUACIONES DE LAS RECTAS DE REGRESION
d) Estudio de la especificidad. Obtención del vocabulario es- pecífico del texto y por fragmentos.
lo 2 Características
^ Características
básicas - GRAN VOLUMEN DE DATOS A TRATAR - CARGA MASIVA INICIAL
(Las entradas posteriores de datos son despreciables)
- CÁLCULOS A REALIZAR DE COMPLEJIDAD MEDIA
- PRESENTACIÓN DE RESULTADOS EN SA- LIDAS IMPRESAS, BÁSICAMENTE
- PROCESO "BATCH" O POR LOTES
Metodología La metodología de desarrollo y análisis ha sido la TOP-DOWN (de lo más general ai lo más concreto), utilizándose el dia- grama HIPO (HIERARCHICAL INPUT PROCESS OUTPUT) como herramienta básica, tanto en el desarrollo como en el apartado de documentación.
Programación
Hemos utilizado tres lenguajes de pro- gramación para codificación de programas:PL/I, COBOL y FORTRAN. Esta diversifica- ció'n, impropia totalmente en una aplica- ción de este tamaño, es debida a las cau- sas siguientes: el Centro de Cálculo de la Universidad Central nos facilitó un programa en PL/I, lenguaje que -después no ha sido utilizado ya que las personas
que habían de desarrollar los restantes programas no lo conocían suficientemente.
Hemos utilizado el COBOL para el desarro4- lio de aspectos más ligados a gestión de datos y confección de listados, y el FORTRAN para los aspectos más técnicos
Ficheros La aplicación trata, solamente, fiche- ros de tipo secuencial que hemos diseñado
en soporte de cinta magnética por dos razones:
-r no tener un entorno de trabajo estable y único con el que se hubieran podido utilizar ficheros en disco (más rápidos de acceso y recuperación y mayor comodi- dad).
- mayor adaptabilidad a distintos entornos de desarrollo.
Cabe señalar, sin embargo, que se han uti- lizado ficheros en disco para el entorno de pruebas de los programas»
Hardware
Software
Los entornos "hardware" que hemos utili- zado han sido los siguientes:
PROCESADOR IBM 3031 UNIDADES DISCO IBM 3340,
3350
" CINTA IBM 3420 PROCESADOR IBM 4341, periferia similar.
El entorno software de desarrollo, pruebas y explotación de programas que hemos utili- zado, ha sido el siguiente:
- Sistema operativo DOS/VSE con ICCF como ayuda al desarrollo, mantenimiento y prue- ba de programas.
- Sistema operativo OS/VS1, con SPM como ayu- da al desarrollo, mantenimiento y prueba
de programas.
- Sistema^ operativo VM, con CMS como entor- no de desarrollo, mantenimiento y prueba de programas.
1.3. Análisis Funcional .
Hemos hecho la carga masiva inicial de los datos en dos etapas sucesivas.
La primera comporta la perforación en ficha de 80 columnas de la totalidad de los dos discursos a tratar:
-Programas electorales de 1977 y programas electorales de • 1979.
La introducción se ha hecho teniendo en cuenta^ los crite- rios que vienen explicitades en.el punto 2.3.1 o entrada de datos.
La segunda etapa ha comportado el vaciado de todo el corpus a cinta magnética.
1.- Este proceso consiste en un análisis de los datos in- troducidos, dejándolos despojados a nivel PALABRA.
Se crea un-fichero maestro (MOTS) en el cual cada registro pertenece a una ocurrencia de un cierto vocablo, indicando el número de ficha en la que aparece.
Damos en este punto información de las ocurrencias de cada vocablo y de su situación en el corpus (número de ficha en la que aparece), (listado LIST020 - lf i punto 2.4ol<).
2.- Hemos previsto tres tipos de modificaciones:
- Eliminación de una determinada forma en el corpus general.
- Sustitución de una determinada forma por otra en todas las ocurrencias en las que aparece.(correcciones de formas introdu-
cidas con algún error)
/M
DIAGRAMA DE OPERACIONES Y ORGANIGRAMAS
EMPRESA: ...
APLICACIÓN:
OPERACIÓN':
FECHA:
AUTOn.
DIAGRAMA N.°
'- Explosionar un vocablo en dos. (Nos ha servido para sepa- rar los, vocablos con pronombres enclíticos.'
3.- Este punto resuelve la separación del vocabulario gra- matical.
Hemos introducido una tabla con todas aquellas formas con- sideradas "gramaticales".
Se desprecia el vocabulario gramatical y se crea un fiche- ro de salida (LEXIC) que contiene, solamente, .vocablos lé- xicos»
El proceso calcula asimismo los siguientes datos:
- Frecuencia de cada vocablo en el corpus total y en cada fragmento»
- Número ocurrencias del corpus y de cada fragmento.
- Número .ocurrencias léxicas del corpus y de los fragmentos, - Frecuencias léxicas del corpus total y de cada fragmento.
- Frecuencias medias del corpus y de cada fragmento.
Hemos diseñado como salida a este proceso dos listados:
- LIST040-1 Listado datos generales de los fragmentos (ordenado por número de fragmento)
- LIST050-1 Listado tabla general de frecuencias de los vocablos, (ordenado por frecuencia total en ~-
orden decreciente)
4.- Estudio estadístico.
Cálculo de las ecuaciones de las rectas de regresión y visión de la desviación de los valores reales respecto a
ellas»
' Cálculo de la media y de la desviación tipo de ocurrencias, ocurrencias léxicas, frecuencias medias y frecuencias medias léxicas.
Cálculo de los coeficientes de Pearson de la frecuencia media y la frecuencia media léxica.
Se listan los resultados según LIST040-2.
5.- Mediante los datos que hemos obtenido en el paso 3 (fichero LEXIG), se calcula, aquí, el vocabulario específi- co del corpus,
CEI criterio adoptado para averiguar si un vocablo es es- pecífico o no viene explicado en nota 12 del capítulo 2) y, posteriormente, su implementación en el programa que re-
suelve este punto.
La visualización de información se realiza en dos formatos:
- LIST060 -1
Listado total de formas específicas (tanto si la especifi- cidad es positiva como si es negativa), ordenadas de mayor a menor frecuencia total.
i
-LIST070 - 1
Listado por fragmentos de las formas específicas, ordena- das de más a menos especificidad y separando la especificidad positiva de la negativa.
2. IMPLEMENTACIÖN
2« 1 Análisis Tecnológico
2.1.1.1. El algoritmo se basa fundamentalmente en la locali- zación del separador de palabras que en este caso es el carácter
"blanco". Cada "string" entre blancos es una palabra. Hemos despreciado los caracteres que no eran ni alfabéticos, ni numé- ricos, como puntos («), comas (,), dos puntos (:)<, etc.
2o 1 o 1.2. Hemos introducido en la codificación, la frontera de los distintos fragmentos, indicado el número de ficha en la que esta se encuentra. 11 número de fragmento se incorpora al fichero de salida (MOTS). (Estos ^valores frontera" deberían adaptarse a los del hipotético usuario en caso de una explota- ción de la aplicación.
2.1.1.3. Se graba el fichero MOTS. Los movimientos para la i
confección del registro son:
«a - vocablo (según ^.1)
N spi CHA-«— contador interno del proceso
\
N2 FRAGMENTO •* - (según 1.2)
2.1.1.4. Clasificación y fusión de ficheros. Hemos aprovecha
do la necesidad de esta clasificación para pasar la información
de los dos corpus, 1977 y 1979, que hasta aquí venían en sopor-
tes separados, a uno solo.
2.1.1.5. Se confecciona el listado LIST020 - 1 que da in- formación de la ficha o fichas en las que aparece cada for- ma. Se da, además, la frecuencia de la forma en el corpus.
2.1.2.1o Se efectúa el emparejamiento del fichero MOTS con las fichas de actualización.
La clave de ambos es la forma (las fichas deben entrar clasificadas).
Hemos implementado tres tipos de actualización que,co-*' rresponden.a tres códigos distintos en la ficha de actuali- zación:'
FUNCIÓ'N CÖDIGO ACTUALIZACIÖN -ELIMINACIÓN FORMA 1
-SUSTITUCIÓN POMA 2 -EXPLOSION EN DOS 3
2.1.2.2. Se graba el fichero MOTS (MOD) cuya estructura e información es idéntica al de entrada, salvo los cambios efectuados.
2.1.2.3. Clasificación. Idéntica al paso 1.4. salvo que en este caso no se efectúa la fusión de ficheros.
El fichero MOTS de salida será utilizado en las etapas posteriores.
2.1.3.1. La separación de formas gramaticales se realiza de la siguiente manera:
Se ha introducido previamente en memoria del programa, la tabla de formas gramaticales (282, en nuestro caso), clasifi- cada alfabéticamente para facilitar la búsqueda. Por cada vocablo del fichero MOTS DEF (debe tenerse en cuenta que en este fichero existe un registro por ocurrencia del vocablo), se inicia la búsqueda en la tabla. Si se encuentra el voca- blo en la misma, se trata de una forma gramatical, en caso contrario es una forma léxica.
El posible usuario de la aplicación deberá definirse la
k
tabla con las formas que él considere gramaticales, variando a su gus|;o la longitud y tamaño de la misma.
2.1.3.2. Los acumuladores que se actualizan en el proceso nos dan la siguiente/ información:
A - NIVEL VOCABLO(FORMA) Frecuencia a nivel corpus Frecuencia de la forma en ca-
da uno de los 26 fragmentos en los que trabajamos.
B - NIVEL FRAGMENTO Número de ocurrencias
Número de ocurrencias léxicas Número de formas léxicas
C - NIVEL GLOBAL CORPUS ID.
2.1.3.3. Al final del tratamiento de un vocablo se graba un registro en el fichero LEXIC, según 2.2.3. Los movimientos de campo son:
PRET - Frecuencia vocablo a nivel corpus (cálculo) MOT - Vocablo (fichero entrada)
FREL - Tabla frecuencias por fragmento (cálculo) (26 campos)
2.1.3.4. los datos generales de los fragmentos que hemos ve- nido guardando en una tabla en memoria se listan al final del proceso, según 2.4.2. (LIST030 - 1).
2.1.3.5o Clasificación fichero LEXIC:
PRET (Frecuencia total) POS1, LONG.5 DESCENDENTE MOT (Vocablo) POS6, LONG.21 ASCENDENTE
Se crea el fichero LEXIC CLAS.
2.1¿3.6.Se lista el fichero LEXIC CLAS, según LIST050 -1 (punto 2.4.4.)
2.1.4.1. La entrada de datos a este ^proceso es un tanto pe- culiar y se debe a la coyuntura de desarrollo que hemos te- nido.
En teoría el paso anterior (punto 3) debía haber creado un pequeño fichero con estos datos y este paso los hubiera recuperado para cargarlos a memoria y tenerlos alíí duran-
te todo el proceso, ya que su tamaño así lo aconseja.
Debido al desarrollo de este paso en otro local y otro
\
entorno en el que no era posible este traspaso, se ha deci- dido anular la salida prevista en el punto 3 e introducir los datos por pantalla a partir del formularip LIST030 - 1
obtenido en el paso--3. 4.
'2.1.4.2. El listado que aquí se obtiene es igual al obteni- do en 3.4.'la duplicidad se debe también al problema explica- do en 4.1.
2.1.4«3? Los coeficientes de las dos rectas de regresión se calculan de la manera siguiente:
-i;
Cálculo de »a» y "c".
c =
T
•A -L
\Jv.X
Cálculo de »b» y »a»
b =
T f*
* 'b?°';
T
Cálculo de las diferencias entre valores teóricos y reales, (distancias verticales a las rectas "para cada vino de los fragmentos)
A
Los valores encontrados se guardan en una matriz ya que servirán para cálpulos
vposteriores.
2.1.4.4. Cálculo de medias:
<v\
T
v r - ~ " -
_
"T
*
T
2.1.4.5. -v Cálculo de las desviaciones "tipo" (<3~)
siendo las x- y x genéricas y con los siguientes valores' particulares:
cr
•u
ÖL,
4 »i
w w
2.1o4«6. Cálculo de los coeficientes de Pearson:
«T,0<- —
\/T «J - l ' v/T
2.1.4.7. ..La totalidad de resultados de los..Qálculos ante- / ' ' '
riores se listan según LIST040 -2 (punto 2.4.3)
2.1.5.1. Se entran los datos de los fragmentos obtenidos en 3.4. Nos remitimos a lo expresado en el punto 4.1» respecto a la peculiaridad de esta entrada.
2.1.5.2 El tratamiento a nivel de registro es el siguiente:
El registro contiene la frecuencia total de aparición de MOT en todo el discurso (PRET) y las frecuencias de aparición en los 26 fragmentos.
Se localiza el primer FREL (i) ^ 0 y sobre él se hace el tratamiento. Se repite para todas las demás FREL (i) 4 0 hasta agotar la tabla.
2.1.5.2.1. CÁLCULO DE LA P (x = 0):
(T- ti) lj-fci-A) , l^T-t; - ' ~ ' *
Donde: T (Ocurrencias) (se obtiene del elemento 27 de la tabla de grupos)
t. (Ocurrencias grupo i) (se obtiene del elemento i de la tabla de grupos)
entonces:
calculándose el \ ^ /- ,,\
K=
\ 2o 1.5. 2. 2. Una vez hechos los cálculos del apartado pre- cedente, estamos en condiciones de decir si él vocablo tiene algún tipo de especificidad o bien si es una forma de base.
Si P„ áz. Umbral La especificidad del vocablo es nega- tiva (-)
en caso contrario, hacemos: A - \ ^ ~ ^C^^^J
si el resultado es ^ Umbral, la especificidad es positiva ( 4- ) , en caso contrario es una forma de base.
Hemos trabajado con un umbral de 0,05«
2.1'«5o2,3o Si el vocablo es específico de un determinado grupo, se emite una línea en el listado, f al como indica el diseño ( + ó-) $abe decir que un mismo vocablo tendrá tantas líneas como fragmentos en los que sea específico.
2. 1.5. 2. 4o Se crea un registro (ver diseño en 2.4.6.) pa- ra cada fragmento donde el vocablo es específico.
Los movimientos de campos son:
N. GRUPO -* - N. GRUPO (i)
N. ORDEN -a - generado en el programa, indica el número de palabras diferente^ que hay en la entrada.
MOT -* - MOG?
PRET -a - PRET FREL -a. - FREL (i)
" -i- " si tiene especificidad positiva
»» _ «
sj_ tiene especificidad negativa
PROBu »J_ —
1 s
\ :<
! ~"
1
DIAGRAMA
Dt ürc.nAOIUiN_o
Y ORGANIGRAMAS
r M r RES A WCAC'GM
«"VEPAC O\
, i ' '
! . 1 i
, , 1 i l ' !
- i . 1
f~ _ 1 V
¡ J',1
1
!
1 1
O.AG1AMA N «
1 i
1
!
J^V
; \
u ?',
y
1 i
i
u 1_
i
1
i i !
~r~
I I
DIAGRAMA DE OPERACIONES Y ORGANIGRAMAS
EMPRESA:
APLICACIÓN OPERACIÓN:
^ _ _ _..,..-.__
L ' . . L L j
DIAG
it t
j i
1
!
" " i
t
¡
_!
i!
!
n:r
.WÇtfc
L
£.ymt
IAGRAMA
<o
i* -
EMFREÜA: APLICACIÓ OPFMCIO
ONESCI S
AGRAMAS DE OPERA • ORGANIGRAMA
DIAGRAMA DE OPERACIONES Y ORGANIGRAMAS
EMPRESA:
APLICACIÓN:
OPERACIÓN:
FECHA:
AUTOR:
DIAGRAMA N.»
/
listo! O
._._!_. i j.
,
t i
...1 !
! !
" ' ¡ "i
i
!.. 1
-ir
i
;
—
i
— -— •
!
! i
j _
i
i - i
! !
1 ¡ r~r ••
i • • •
i i i 1.
r i i
r ! 1
— 1 I
i 1
! (i 1
r ; -T"T"
¡
i i
! .L
!1
!
|
! ?
i
1
"T
- — 7 " " ' . -TT
i
T"
i 2,2. Ficheros
Se describen a continuación las características y estructura de los ficheros que se utilizan en la aplicación.
2.2.1o CORPUS -Pichero texto 2.2o2. MOTS -Pichero palabras
2.2.3. LÈXIC -Fichero formas léxicas
2c 2o4o PROB -Pichero formas léxicas espe- cíficas.
£,2.1. CORPUS
. TIPO - SECUENCIA!
. SOPORTE - CINTA MAGNÉTICA •
(EBCDIC, 1600 BPi, TIPO 2400)
. 1
R- 80
. í_ - 1 (80 BYTES)
is
. CAMPOS DEL REGISTRO
1 DIN X(80) . Texto introducido en ficha perfo- rada.
2.2.2o MOTS
, -TIPO - SECUENCIAL
\
o SOPORTE - CINTA MAGNÉTICA
(EBCDIC, 1600 BPi, TIPO 2400) . Lg - 2 6
. P_ - 100 (2600 BYTES)
13
» CAMPOS DEL REGISTRO
1 MOT X (21) Alfanumerico. Contiene las pala- bras del corpuso
CO
0 a:
1- co
(D
LU OC LU
Q
o
LU 00-
Q
?*} JA i -
otu u.
O o.— t-
LUa:
< m f °
« Z Oo
ffa.
0É Z
Z O u u .J a.
tu H Z
UJ
~ u
o
<a:
K Z Ou
— —
I o
È
•2 3
0 7^
S 2
33
y ^
T ^4• ' 1
,
Campos J
oc H_
01
__.CO 10™__-
T
"n"
CN
J.
01
"w"
r*
__.(O
__
co
_CN
-fel 01 CO ps.
to m
"co CN
¿
OI CO
r*
to ui
CN
íOï __.CO
o
í
CN"Í"
o>
09
to
U) __
CN
JL
CO Ps.
to m co
"<N~
ím co r*- to
kO
n
CN
è
OI 00^^Uï -__
fO CN
"^T"
•g"
__
00 JSu.
UI
n CN
"
~ -
~"
T
à I• -
~—
"
-
— - - -
7
fi^ -
S
ia —U-l v J4-
r
L/)^
« ÇxJ O*1 ^
1"^"" s^ II II
^V* -^-* ~ '' '
O v_^ <*^
^
?
^
UJ CC D K 0 O.
1
à
Z ,
z
JJen ___ce __
in
T t"ñ~
ÍN
Campos
ce
_
A.
Cl sa rC~
CD ___
—
™_
(N
2— O)
*"co7
PS.
(0 in
<T
co cv
*Ê-
"CET01 r*
<O
T
CN
Èai
M
to in
ÇN
3SCo
03
-£-
in
co CN
Oî
J£L
fO CN
ai
Ol 00 PS.to in
co CN
E01 co PS,
to J2_
CO ÍN_
"S"
"m"
co
"pT to tn co
CN
"
~
-
~
"
-
"
I
—
"
- -
—
- -
- _
Ulce 3H U ù.
d al z
z
Campol
c
.B.OI CO r»
~~£~
~
^ fO ÍN
~^~
_§_
00 fs.
~5~
in
~~^~
"FT CN
"8"—
OI
co
ps,
íu m
T CO CJ
¿
O)
co '"psT
' <D_
<N
í
OICO ps.
to m to
<N
è
O">
co p- u>
rT CN
f
co rs
in co
(N
í
coJP
«n
"ço"
CN
Èoi co r*
to m
(O
<N
~^_
Oi CO fs.
to tn co CN
_
-
"
-
_
"
- -
— - 5.
- .
~~
utoc s
*o
OL
•
¡à al Z ,
Z oa E Ú
K JÍ-
C»
CO p-
to
Líl
^ M ÎN ___
_s_OI CO _rs_
^to in
~^~
co CN
-C—
o>
co rs.
íO in v CO ÍM
±
OI
ta
ps.
"to~
"üí
"co CN
i
0100
i to n
«r co
CN
ÍIo*
co
Ps
to in co
CN
JÊ
01
co to in
«t ro
CN
±Cï CO
to tn
ÍO CN
È
01
co
ps.
to in
co CN ,_
IT
"ST
"cö™1
rs>
o
"1- TT
CN
J
4
^
¡
!
t
J_ _
-
_
—
- -
— - _I _
- -
—
._
IU {£ D
l~
o
CL , CU
o.' z
í
<•
CO
O oc
ff)__
_
o
LU
rr
LA»LU Q
-•'O •
«2 LU CO
Q
-
_ , V*1
^x u
UJli-
es
0.
~
UJce
< m 1 §
i z
0 cc o.
'3E
Z
O
u u a
UI
t- Z
UI
_i O
MTRATO
OU
Bjr
i
p
' Sí/y
r
[yj QJ<.
"2. <ZS
3 <3
U r|
¿—T /-v y^ r^*"\
fi
JLa>
ço
fs-
to
w»
CE:
n. Cimpoi
• cr
J.cn _._ço to in
•v
"n"
-^
í
00p*.
"lo"
__
CM
cn
09
fs.
"jo"
in
«r Cl
""CN"
i
O)"co~
ps.
to in rt
ÇM
è
o>03
to m ___
"CM"
Ho ço
PS.
to in
tñ CM
i:
O) CO rs.(O
in
CO CM
T3~Xï_
cn
CO rs.
"3~
m n
CM
^o e»
—
—
UJ in
—
CM
- - - - -
"
"
"
"
-
•
—
- - -
- - -
.
-
.
—
-
a0A33SS-
* i£.
tk ,
v '--
<.<
\
g
2
3 —
? '
f
% 1"
JIÍf
ar
X—N
f j
*"s-w»
y
CTURE
CU
rO
«J ffl
1
O
•2
^T
0
2
Z
.3.o ço r*
to tn
L2_
1 f
. Campot
ce
(N
_s_
O ÇO
"TsT to in
"^~
"rT _DL
í
CT>
00
ps.
to in
^co^^H!
±o
ço
fs.
to in ço CM
è
O)00
PS.
(0
*".
"c^"
21 3L
ço
"S"
in
D CM
¿ cn _co^
CM
Zm
00
fs.
J»,in'
± -5~^
-2- CO f*«
to m
^
» O)
ço
"^7"
to
-ü
n f^
"^~
-
— - - -
"
"
"
"
- -
— - - -
- -
—
.
• .
- '
•
-
-
"
'
-
CTURE
Z d
CL Z
z*
. Ca m p oi
DC O) 00 fs.
(0
tn
T
n
CM
18.at __ço
to in
~v"
"c*T
~fT
"cn"
CO
PS.
"w"
«r o
-£•
EO) 00 PS,
to
-^
cn CM
Zm
CO
~pT to in
«
CN
s
aCO PS.
m n
CM
¿o>
CO rs.
ÍO
CM
Zo»
CO p*>
-H.
n
CM
'
ÜI
CO p^
to J£L
(0 fM _^_
m 03
to in
cn CM
-
— - - -
- -
- - -
_[
- -
—
^
. - -
—
- -
-
-
-
—
. -
""
.
"
ICTURE
Cb
•
d Z
Z
p£
[ TO1 FS-
ti
. Campos
OC
n
CM
C) CO p- 0
in -ï
0
JX
i
cn çoPs.
Tto'"
in ço
CM
è
0>ÇO
r*.
to"
m ' ro"
CM
±01 ÇO
IV
¡ to in ço
CM
è
0>"ço
fs-
to m n
CM
Hoi
03 Ps.
<O
CM
i
O) 03
PS.
to
"in"
r)
CN
J3LUf J3L
jED_
ps.
<O UI
CN
"75*
en
"00°""
__.
JíL
™_
CM
-1
|
]
-1|
- -
- -
_
- - -
- - -
_
-
-
-
-
-
-
-
-
'
*
-
~
•
_,
-
~
"
,
¡
1
UI Œ. D K CJ t
ET O.
•2
2 NÚMERO PICHA 9(5) COMP-3
3 NUMERO GRUPO 999 COMP^ 3
Número empaquetado Número de la ficha don- de aparece la palabra.
Numérico empaquetado Fragmento al que perte- nece la ocurrencia en cuestión.
El fichero MOTS GLAS, MOTS MOD y MOTS DEF. tienen esta misma estructura.
2o2.3o LÈXIC
» TIPO - SECUENCIAL
o SOPORTE - CINTA MAGNÉTICA
(EBCDIC, 1600 BPi, TIPO 2400) R
'B
110
20 (2200 BYTES)
» CAMPOS DEL REGISTRO 1 PRET
2 MOT
9(5)
X(21) 3 PREL 999
(26 campos)
29 PIILER X(6)
Numérico
Frecuencia total del vocablo dentro del corpus
AlfanuméricOo Vocablo
Numérico. Frecuencia del" vo- cablo en cada uno de los fragmentos.
Alfanumérico. No utilizado.
El fichero LÈXIC CLAS tiene esta misma estructura.
CO
O ce
CO
LU (D ce
LU û
O
•Z
LU CO
Q
-r«
s
o oce o.
r0 UJu-
O o.
t-
Ulce
O
Z
Z O
u u _j
o.
u Z
UJ
-4 U
CONTRATO
81-
o
p (/}
Ü.I
-? q
o -^3$w
ii 38
oa E U
ce*
Ji
Oí 03 P-.
•T
n CN
s
0 __-CO
CO U»
n
(N
JL
O) ÇO
"S"
in
n
' CN
¿
DO r*
ïO
$
CN
Ç
~oòT r- to
«T to
"rT*
LJLo>
ço p-.
(O
n
Oí
SL
OI ÇO
to
Uï
o CM
ir
0) ço
to
n r-*
±0»
00
«r
m
n
IT
O) 00
-ü-
(0 sn
n CN
—
<
l/|
Ç
U)
<t
cvu.
fr_A
•5
I
ü.-5
a
r^
n
1
^J LU y
in
N -3-cJ -
00 -N
ïï J
N :
5 -
o- - 0° -
r- - S? "
in -
¿ :
í :
N j r I o tr
CD . N _ xu.
li) "I -4-
fO csl
s - -
h —
2 -
1 f
***"**•**.
etil
H- fe^1ï i'
• U fl¿ c3
> ÖJ
•^^
o-
y"
3
PICTURE
?
•
^
03
al Z
z
oa E U
• Œ
Ja.
O ÇO r«.
to m
"M"
CN
R
O 00 p*
(O m
Pí
1
O) 00
(0
in
«T
n (N
"oT ço r*
to
n ex
fO) 00 p*
to U)
ço
Pi
figi ço
Jp-
LO v o
(N
~oT
tO
m et
T
Oi
p*
J£^
in"
JTf CM
S
^L ço
JO_
in
»r (*>
(N
O
"òT ço
(0 in
n CM
—
-
-
'
-
.
—
-
-
-
-
—
-
-
—
-
.
-
-
-
-
csl -
**— ^
PICTURE
1
oT z
Z Rif. Campos
.ü.o»
ço
"to tf>
n
(N
R
0)
~co"
f«.
ÍD UI
~ÓT
~oT
00
—
in
n P*
01
ca
\n
CN
i-
"00"
tu
U)
n ts
9,
"ÔËT
fN
"ÛT
~c>r
i
Ol_co_
to
o
"W
m
in
"n"
è
_co
to in
P5
oV
00
(o in
01 .—
-
-
-
-
-
—
-
-
-
—
-
-
—
x
:
- .
- .
-
PICTURE
•
N. A. A.N. P. B.
i
Rflf. Campos
JsL
Cï ÇO p*
to m
T
•£-
S
0>
(O
n rt
i
O) 00 ps 10"in
n
(N
o>
00 fs.
to"
u>
— -.
_SL
TO 00 r«.
íO UI
«
(S
fa
"»""
ui o
i:
cu00 r*.
to ui
ço ÍN
CJ ÇO r- CD
n es
t_sa_
00 p*
U)
"T
0 cn
00
tD tr>
•«r
^
J
-
— - - - -
— - -
— - - - -
— -
— -
•-
— - -
—
- '.
* i
• PICTURE
o
o.
& -
í
o h
I
•*w<li)
O"
n
-ffi-co
JO.
E
-S2-
JL
-S.
-S.
3:
31
_a.
3T
LUL
2.2.4 PROB
. TIPO - SECUENCIA!,
. SOPORTE - CINTA MAGNÉTICA
(EBCDIC, 1600 BPi, TIPO 2400) . LR
•B
- 50
- 40 (2000 BYTES) CAMPOS DEL REGISTRO
1 NGRUP 99 2 NORDEN 9(5)
3 MOT 4 FRET
5 FREL
6 S
X(21) 9(5)
999
X
7 PROB 99V9(6)
8 FILLER X(5)
Numérico o Numero del fragmento Numérico« Numero de orden forma léxica.
Alfanumérico«, Palabra«,
Numérico,, Frecuencia total del vocablo dentro del corpus.
Numérico«, Frecuencia del vocablo en el fragmento indicado en el campo 1.
Alfanumérico. Indicador de si la especificidad es positiva o nega- tiva.
Numérico. Indicación del grado de especificidad del vocablo en el fragmento.
Alfanumérico. No utilizado.
El fichero PROB OLAS tiene esta misma estructura.
•2.3. Entrada de Datos
Se describe en esta sección el formato de los distintos DATA-ENTRY que hay en la aplicación.
2.3.1. Entrada masiva inicial del corpus a estudiar
El formato es el explicitado en las hojas de diseño al fi- nal del apartado. Un solo campo de 80 posiciones (la totalidad
de la ficha).
Han de respetarse las condiciones siguientes:
- No existe diferenciación entre mayúsculas y minúsculas.
- El carácter de separación entre vocablos es el "blanco". El proceso considerará como "palabra" todos los caracteres entre dos blancos (o el final de la ficha = columna 8o).
- Los caracteres distintos de los alfabéticos (A-Z).y numé- ricos (0-9) no son tratados (p.e: comas (,), puntos (.), etc.,) Esto implica que estos caracteres no producirán "ruptura" de vocablo y por lo tanto hay que poner un "blanco" para que ello
ocurra:
p.e. SIN EMBARGOEL TEMA =.-> SIN
EMBARGOEL TEMA
SIN EMBARGO El TEMA -=~> SIN EMBARGO EL
TEMA
- Una palabra no puede estar a caballo entre dos fichas. La
última palabra de una ficha debe acabar en ella. En caso contra-
rio, el ordenador la consideraría como dos distintas
o
o.
uo
O
\ - -
.a.
-S2_
1-3-
.£-
ÖIU-
p
?
<c.
SP
-üo-
J£L<r-
oc D
. p.e; ...o ACTUAL = ^ .ACTUAL MENTE „ .MENTE
2.3.2o Entrada modificaciones vocablos del corpus
Se utiliza en el punto 2 del análisis y nos permite tina cier- ta alteración del corpus entrado«
La modificación es a nivel forma y, por lo tanto, la indica- ción de alteración de alguna de ellas repercute en el número de ocurrencias de la misma en la totalidad T del corpus.
Explicación^del diseño:
1 CÓDIGO MODIFICACIÓN
» 1» ELIMINACIÓN DE LA FORMA
"2" SUSTITUCIÓN DE UNA FORMA EXISTENTE POR OTRA
"3" EXPLOSION DE UNA FORMA EN DOS RESULTANTES
2 FORMA INICIAL
CAMPO ALFANUMËRICO (DEBE ALINEARSE EL DATO A LA IZQUIERDA).
SE INTRODUCE LA FORMA DEL CORPUS AL QUE SE QUIERE REFERIR.
3 FORMA RESULTANTE 1 (ALFANUMÊRICO)
. SI CdDIGO MODIFICACIÓN = "1" NO DEBE RELLENARSE, SI SE HACE EL PROGRAMA DESPRECIARÁ EL CONTENIDO.
. SI CÓDIGO MODIFICACIÓN = "2" DEBE RELLENARSE CON LA FORMA NUEVA.
. SI CÓDIGO MODIFICACIÓN = "3" DEBE RELLENARSE CON LA PRIME- RA FORMA DE LA EXPLOSIÓN.
4 FORMA RESULTANTE 2 (ALFALÚMBRICO)
SI CÓDIGO MODIFICACIÓN = "1" o "2" NO DEBE RELLENARSE, SI SE HACE EL PROGRAMA DESPRECIARA EL CONTENIDO.
SI CÖDIGO MODIFICACIÓN = "3" DEBE RELLENARSE CON LA SEGUNDA FORMA DE LA EXPLOSIÓ'N.
2.3.3. Tabla de formas gramaticales
La tabla de formas gramaticales se introduce a nivel interno del programa GGMOT030 que es el encargado de realizar la función 3.1 del análisis.
Cada elemento tiene una longitud de 21 caracteres, y debe alinearse a la izquierda.
La tabla debe estar ordenada alfabéticamente.
Presentamos también, al final de este apartado 2.3. la ta- bla utilizada.
2.3.4 Entrada de datos generales fragmentos
Utilizada en las funciones 4.1 y 5.1. Los datos a entrar son los siguientes:
1 NGRUP Numérico. Número del fragmento
2 FLI Numérico. Número de formas léxicas del fragmento.
3 TI Numérico. Número de ocurrencias del fragmento.
4 OLÍ Numérico. Número de ocurrencias léxicas
del fragmento.
5 FVI Numérico. Frecuencia media
6 FVLI Numérico. Frecuencia media Léxica
N El resto de posiciones (hasta 80) no son utilizadas.
De"be tenerse en cuenta que todos los campos son numéricos y por lo tanto, el dato debe alinearse a la derecha y relle- narse con ceros por la izquierda,
En nuestro caso de"ben rellenarse 27 grupos, uno para cada fragmento estudiado y uno (el último) con los datos totales del corpus.
Recordamos que estos datos nos han sido facilitados por
las funciones 3.4. y 4.2.
r
FILE GG025001 OPINO
SABARATARLe 3ABRIRLAS 3ACEPTARLA 3ACERCARLAS 3ACHACARSËLA 3ACORTARLÜS 3ACTUALIZANDOLAS 3ACTUALPARA 3ADAPTAKDOLÛ 3AOECUARSE 3ADMIN1STRARLAS 3AFERRANDÜNOS 3AFI LIÁNDOSE 3AISLARNOS 3AJUSTANDOLA 2AMRZD 2ANOES 3APOY ANGOLAS 3APOYANDDSE 3APQYARSE 3ARREGLARSE 3ARTI CUL ANDOSE 3ASEGURARNOS 3ATENASREFORMAS 3ATENERSE 3ATRIBUIRNOS 3ATRIBUIRSE 3AUTOGÜBERNAANÜS 3AUTO GOBERNARSE 3AYUDANOS
3BASANOOLÜ 3BASANOONÜS SOASARSE 3CALIFICARLAS 3CARG ARLES
¿CELEBRARSE 2CELUCA 3CIMENTARSE
^COLOCÁNDOLAS 3CÜM8ATIENDOLA 3COMPLEMENTANDOSE 3COMPRÜH ETERNOS 3CCWCÊNTRARSÊ 3CONDICIONANDOLA 3CONDUCIRNOS 3CONOCERNUS 3CONSEGUIRLO 3r.flNSfcGUlRSE 3CONSERVARLOS 3CONSTATARLO 3CONTROLANDOLA 3CUNVERTIRLAS 3CONVERTIRLOS 3CONVERTIRSE
Al CfcNTKE PROCESSOS BARCELONA
ABARATAR ABRIR ACEPTAR ACERCAR ACHACAR ACORTAR ACTUALIZANDO ACTUAL
ADAPTANDO ADECUAR ADMINISTRAR AFERRANDO AFILIANDO AISLAR AJUSTANDO MARZO ANTES APOYANDO APOYANDO APOYAR ARREGLAR ARTICULANDO ASEGURAR ATENAS ATENER ATRIBUIR ATRIBUIR AUTDGOVERNAR AUTOGOBERNAR AYUDA
BASANDO BASANDO BASAR CALIFICAR CARGAR CELEBRAR CÉLULA CIMENTAR COLOCANDO CUHBATIENDO COMPLEMENTANDO COMPROMETER CONCENTRAR CONDICIONANDO CONDUCIR CONOCER CONSEGUIR CONSEGUIR CONSERVAR CONSTATAR CONTROLANDO CONVERTIR CONVERTIR CONVERTIR
LE LAS LA LAS LA LOS LAS PARA LO SE LAS NOS SE NOS LA
LAS SE SE SE SE NOS REFORMAS SE
ÑUS SE NOS
SE ÑUS LO NOS SE LAS LES SE SE LAS LA SE NOS SE LA NOS NOS LO SE LOS LO LA LAS LUS SE
0010 0020 0030 00^0 0050 0060 0070 0080 0090 0100 0110 0120 0130 0140 0150 0160 0170 018O 0190.
f 0200 0210 0220 0230 0240 0250 0260 0270 0280 0290 0300 0310 0320 0330 03*0 0350 0360 037O 0380 0390 0400 0410 0420 0430 0440 0450 0460 0470 0400 0490 0500 0510 0520 0530 0540
3CONVIRTIÉNDOSE CONVIRTIENDO 0550