Pese a ello, la aplicación tiene una total coherencia funcio- nal lo que hace que sea perfectamente utilizable para otros

(1)

MECANIZACIÓN DEL ESTUDIO LÉXICO-MÉTRICO

(2)

•-"-£

MECANIZACIÓN DEL ESTUDIO LEXICOMÉTRICO

(3)

INDICE

1. DESCRIPCIÓN DE LA APLICACIÓN 1,1. Ámbito

1.2o Características 1 „ 3 o Análisis Funcional

2¿ IMPLEMENTACIÓN

2o 1o Análisis Tecnológico 2o2o Picheros

2o3o Entrada de Datos

2.4» Catálogo de Productos 2o5o Programas

3. EXPLOTACIÓN

4» COLECCIÓN PRODUCTOS OBTENIDOS

(4)

1. DESCRIPCIÓN DE LA APLICACIÓN

1.1. Ámbito

La aplicación ha pretendido cubrir la mayoría de necesida- des funcionales que un estudio lexlcometrico, como el aquí presentado, comporta»

Aunque en un principio se pretendió diseñar un sistema con criterios funcionales amplios y profundos, las dificultades encontradas en el Centro de Cáluclo de esta Universidad Central hicieron abandonar, en parte, esos criterios. Hemos intentado, pues, resolver los puntos básicos del problema, dejando cier- tos aspectos que inicialmente se habían considerado pero que después se evaluaron como no fundamentales.

Pese a ello, la aplicación tiene una total coherencia funcio- nal lo que hace que sea perfectamente utilizable para otros

estudios de este tipo.

A\ grandes rasgos, las funciones que abarca la aplicación son las siguientes:

a) Despojo del corpus y actualización del corpus resultante.

b) Separación de formas gramaticales.

c) Cálculo y obtención de datos generales y estadísticos de

los fragmentos que componen el texto:

(5)

- FRECUENCIA GLOBAL Y POR FRAGMENTO DE CADA FORMA - N2 DE OCURRENCIAS TOTALES Y POR FRAGMENTO

- No DE OCURRENCIAS LÉXICAS TOTALES Y POR FRAGMENTO - N2 DE FORMAS LÉXICAS TOTALES Y POR FRAGMENTO

- FRECUENCIAS MEDIAS DEL VOCABULARIO TOTALES Y POR FRAGMENTO - MEDIAS Y DESVIACIONES TIPO DE: OCURRENCIAS, OCURRENCIAS

LÉXICAS Y FRECUENCIAS MEDIAS

- CALCULO DE LOS COEFICIENTES DE PEARSON EN LAS FRECUENCIAS MEDIAS DEL VOCABULARIO

- CÁLCULO DE LAS ECUACIONES DE LAS RECTAS DE REGRESION

d) Estudio de la especificidad. Obtención del vocabulario es- pecífico del texto y por fragmentos.

lo 2 Características

^ Características

básicas - GRAN VOLUMEN DE DATOS A TRATAR - CARGA MASIVA INICIAL

(Las entradas posteriores de datos son despreciables)

- CÁLCULOS A REALIZAR DE COMPLEJIDAD MEDIA

- PRESENTACIÓN DE RESULTADOS EN SA- LIDAS IMPRESAS, BÁSICAMENTE

- PROCESO "BATCH" O POR LOTES

(6)

Metodología La metodología de desarrollo y análisis ha sido la TOP-DOWN (de lo más general ai lo más concreto), utilizándose el diagrama HIPO (HIERARCHICAL INPUT PROCESS OUTPUT) como herramienta básica, tanto en el desarrollo como en el apartado de documentación.

Programación

Hemos utilizado tres lenguajes de pro- gramación para codificación de programas:

PL/I, COBOL y FORTRAN. Esta diversifica- ció'n, impropia totalmente en una aplica- ción de este tamaño, es debida a las cau- sas siguientes: el Centro de Cálculo de la Universidad Central nos facilitó un programa en PL/I, lenguaje que -después no ha sido utilizado ya que las personas

que habían de desarrollar los restantes programas no lo conocían suficientemente.

Hemos utilizado el COBOL para el desarro4- lio de aspectos más ligados a gestión de datos y confección de listados, y el FORTRAN para los aspectos más técnicos

Ficheros La aplicación trata, solamente, ficheros de tipo secuencial que hemos diseñado

en soporte de cinta magnética por dos razones:

(7)

-r no tener un entorno de trabajo estable y único con el que se hubieran podido utilizar ficheros en disco (más rápidos de acceso y recuperación y mayor comodi- dad).

- mayor adaptabilidad a distintos entornos de desarrollo.

Cabe señalar, sin embargo, que se han utilizado ficheros en disco para el entorno de pruebas de los programas»

Hardware

Software

Los entornos "hardware" que hemos utilizado han sido los siguientes:

PROCESADOR IBM 3031 UNIDADES DISCO IBM 3340,

3350

" CINTA IBM 3420 PROCESADOR IBM 4341, periferia similar.

El entorno software de desarrollo, pruebas y explotación de programas que hemos utilizado, ha sido el siguiente:

- Sistema operativo DOS/VSE con ICCF como ayuda al desarrollo, mantenimiento y prueba de programas.

- Sistema operativo OS/VS1, con SPM como ayuda al desarrollo, mantenimiento y prueba

de programas.

- Sistema^ operativo VM, con CMS como entorno de desarrollo, mantenimiento y prueba de programas.

(8)

1.3. Análisis Funcional .

Hemos hecho la carga masiva inicial de los datos en dos etapas sucesivas.

La primera comporta la perforación en ficha de 80 columnas de la totalidad de los dos discursos a tratar:

-Programas electorales de 1977 y programas electorales de • 1979.

La introducción se ha hecho teniendo en cuenta^ los criterios que vienen explicitades en.el punto 2.3.1 o entrada de datos.

La segunda etapa ha comportado el vaciado de todo el corpus a cinta magnética.

1.- Este proceso consiste en un análisis de los datos in- troducidos, dejándolos despojados a nivel PALABRA.

Se crea un-fichero maestro (MOTS) en el cual cada registro pertenece a una ocurrencia de un cierto vocablo, indicando el número de ficha en la que aparece.

Damos en este punto información de las ocurrencias de cada vocablo y de su situación en el corpus (número de ficha en la que aparece), (listado LIST020 - lf i punto 2.4ol<).

2.- Hemos previsto tres tipos de modificaciones:

- Eliminación de una determinada forma en el corpus general.

- Sustitución de una determinada forma por otra en todas las ocurrencias en las que aparece.(correcciones de formas introdu-

cidas con algún error)

(9)

/M

DIAGRAMA DE OPERACIONES Y ORGANIGRAMAS

EMPRESA: ...

APLICACIÓN:

OPERACIÓN':

FECHA:

AUTOn.

DIAGRAMA N.°

(10)

'- Explosionar un vocablo en dos. (Nos ha servido para sepa- rar los, vocablos con pronombres enclíticos.'

3.- Este punto resuelve la separación del vocabulario gramatical.

Hemos introducido una tabla con todas aquellas formas con- sideradas "gramaticales".

Se desprecia el vocabulario gramatical y se crea un fichero de salida (LEXIC) que contiene, solamente, .vocablos lé- xicos»

El proceso calcula asimismo los siguientes datos:

- Frecuencia de cada vocablo en el corpus total y en cada fragmento»

- Número ocurrencias del corpus y de cada fragmento.

- Número .ocurrencias léxicas del corpus y de los fragmentos, - Frecuencias léxicas del corpus total y de cada fragmento.

- Frecuencias medias del corpus y de cada fragmento.

Hemos diseñado como salida a este proceso dos listados:

- LIST040-1 Listado datos generales de los fragmentos (ordenado por número de fragmento)

- LIST050-1 Listado tabla general de frecuencias de los vocablos, (ordenado por frecuencia total en ~-

orden decreciente)

4.- Estudio estadístico.

Cálculo de las ecuaciones de las rectas de regresión y visión de la desviación de los valores reales respecto a

ellas»

(11)

' Cálculo de la media y de la desviación tipo de ocurrencias, ocurrencias léxicas, frecuencias medias y frecuencias medias léxicas.

Cálculo de los coeficientes de Pearson de la frecuencia media y la frecuencia media léxica.

Se listan los resultados según LIST040-2.

5.- Mediante los datos que hemos obtenido en el paso 3 (fichero LEXIG), se calcula, aquí, el vocabulario específi- co del corpus,

CEI criterio adoptado para averiguar si un vocablo es es- pecífico o no viene explicado en nota 12 del capítulo 2) y, posteriormente, su implementación en el programa que re-

suelve este punto.

La visualización de información se realiza en dos formatos:

- LIST060 -1

Listado total de formas específicas (tanto si la especificidad es positiva como si es negativa), ordenadas de mayor a menor frecuencia total.

i

-LIST070 - 1

Listado por fragmentos de las formas específicas, ordenadas de más a menos especificidad y separando la especificidad positiva de la negativa.

(12)

2. IMPLEMENTACIÖN

2« 1 Análisis Tecnológico

2.1.1.1. El algoritmo se basa fundamentalmente en la locali- zación del separador de palabras que en este caso es el carácter

"blanco". Cada "string" entre blancos es una palabra. Hemos despreciado los caracteres que no eran ni alfabéticos, ni numé- ricos, como puntos («), comas (,), dos puntos (:)<, etc.

2o 1 o 1.2. Hemos introducido en la codificación, la frontera de los distintos fragmentos, indicado el número de ficha en la que esta se encuentra. 11 número de fragmento se incorpora al fichero de salida (MOTS). (Estos ^valores frontera" deberían adaptarse a los del hipotético usuario en caso de una explota- ción de la aplicación.

2.1.1.3. Se graba el fichero MOTS. Los movimientos para la i

confección del registro son:

«a - vocablo (según ^.1)

N spi CHA-«— contador interno del proceso

\

N2 FRAGMENTO •* - (según 1.2)

2.1.1.4. Clasificación y fusión de ficheros. Hemos aprovecha

do la necesidad de esta clasificación para pasar la información

de los dos corpus, 1977 y 1979, que hasta aquí venían en sopor-

tes separados, a uno solo.

(13)

2.1.1.5. Se confecciona el listado LIST020 - 1 que da in- formación de la ficha o fichas en las que aparece cada forma. Se da, además, la frecuencia de la forma en el corpus.

2.1.2.1o Se efectúa el emparejamiento del fichero MOTS con las fichas de actualización.

La clave de ambos es la forma (las fichas deben entrar clasificadas).

Hemos implementado tres tipos de actualización que,co-*' rresponden.a tres códigos distintos en la ficha de actuali- zación:'

FUNCIÓ'N CÖDIGO ACTUALIZACIÖN -ELIMINACIÓN FORMA 1

-SUSTITUCIÓN POMA 2 -EXPLOSION EN DOS 3

2.1.2.2. Se graba el fichero MOTS (MOD) cuya estructura e información es idéntica al de entrada, salvo los cambios efectuados.

2.1.2.3. Clasificación. Idéntica al paso 1.4. salvo que en este caso no se efectúa la fusión de ficheros.

El fichero MOTS de salida será utilizado en las etapas posteriores.

(14)

2.1.3.1. La separación de formas gramaticales se realiza de la siguiente manera:

Se ha introducido previamente en memoria del programa, la tabla de formas gramaticales (282, en nuestro caso), clasifi- cada alfabéticamente para facilitar la búsqueda. Por cada vocablo del fichero MOTS DEF (debe tenerse en cuenta que en este fichero existe un registro por ocurrencia del vocablo), se inicia la búsqueda en la tabla. Si se encuentra el vocablo en la misma, se trata de una forma gramatical, en caso contrario es una forma léxica.

El posible usuario de la aplicación deberá definirse la

k

tabla con las formas que él considere gramaticales, variando a su gus|;o la longitud y tamaño de la misma.

2.1.3.2. Los acumuladores que se actualizan en el proceso nos dan la siguiente/ información:

A - NIVEL VOCABLO(FORMA) Frecuencia a nivel corpus Frecuencia de la forma en ca-

da uno de los 26 fragmentos en los que trabajamos.

B - NIVEL FRAGMENTO Número de ocurrencias

Número de ocurrencias léxicas Número de formas léxicas

C - NIVEL GLOBAL CORPUS ID.

2.1.3.3. Al final del tratamiento de un vocablo se graba un registro en el fichero LEXIC, según 2.2.3. Los movimientos de campo son:

(15)

PRET - Frecuencia vocablo a nivel corpus (cálculo) MOT - Vocablo (fichero entrada)

FREL - Tabla frecuencias por fragmento (cálculo) (26 campos)

2.1.3.4. los datos generales de los fragmentos que hemos ve- nido guardando en una tabla en memoria se listan al final del proceso, según 2.4.2. (LIST030 - 1).

2.1.3.5o Clasificación fichero LEXIC:

PRET (Frecuencia total) POS1, LONG.5 DESCENDENTE MOT (Vocablo) POS6, LONG.21 ASCENDENTE

Se crea el fichero LEXIC CLAS.

2.1¿3.6.Se lista el fichero LEXIC CLAS, según LIST050 -1 (punto 2.4.4.)

2.1.4.1. La entrada de datos a este ^proceso es un tanto pe- culiar y se debe a la coyuntura de desarrollo que hemos te- nido.

En teoría el paso anterior (punto 3) debía haber creado un pequeño fichero con estos datos y este paso los hubiera recuperado para cargarlos a memoria y tenerlos alíí duran-

te todo el proceso, ya que su tamaño así lo aconseja.

Debido al desarrollo de este paso en otro local y otro

\

entorno en el que no era posible este traspaso, se ha deci- dido anular la salida prevista en el punto 3 e introducir los datos por pantalla a partir del formularip LIST030 - 1

obtenido en el paso--3. 4.

(16)

'2.1.4.2. El listado que aquí se obtiene es igual al obteni- do en 3.4.'la duplicidad se debe también al problema explica- do en 4.1.

2.1.4«3? Los coeficientes de las dos rectas de regresión se calculan de la manera siguiente:

-i;

Cálculo de »a» y "c".

c =

T

•A -L

\Jv.X

Cálculo de »b» y »a»

(17)

b =

T f*

* 'b?°';

T

Cálculo de las diferencias entre valores teóricos y reales, (distancias verticales a las rectas "para cada vino de los fragmentos)

A

Los valores encontrados se guardan en una matriz ya que servirán para cálpulos

v

posteriores.

2.1.4.4. Cálculo de medias:

<v\

T

v r - ~ " -

_

"T

*

T

(18)

2.1.4.5. -v Cálculo de las desviaciones "tipo" (<3~)

siendo las x- y x genéricas y con los siguientes valores' particulares:

cr

•u

ÖL,

4 »i

w w

2.1o4«6. Cálculo de los coeficientes de Pearson:

«T,0<- —

\/T «J - l ' v/T

2.1.4.7. ..La totalidad de resultados de los..Qálculos ante- / ' ' '

riores se listan según LIST040 -2 (punto 2.4.3)

(19)

2.1.5.1. Se entran los datos de los fragmentos obtenidos en 3.4. Nos remitimos a lo expresado en el punto 4.1» respecto a la peculiaridad de esta entrada.

2.1.5.2 El tratamiento a nivel de registro es el siguiente:

El registro contiene la frecuencia total de aparición de MOT en todo el discurso (PRET) y las frecuencias de aparición en los 26 fragmentos.

Se localiza el primer FREL (i) ^ 0 y sobre él se hace el tratamiento. Se repite para todas las demás FREL (i) 4 0 hasta agotar la tabla.

2.1.5.2.1. CÁLCULO DE LA P (x = 0):

(T- ti) lj-fci-A) , l^T-t; - ' ~ ' *

Donde: T (Ocurrencias) (se obtiene del elemento 27 de la tabla de grupos)

t. (Ocurrencias grupo i) (se obtiene del elemento i de la tabla de grupos)

entonces:

calculándose el \ ^ /- ,,\

K=

(20)

\ 2o 1.5. 2. 2. Una vez hechos los cálculos del apartado pre- cedente, estamos en condiciones de decir si él vocablo tiene algún tipo de especificidad o bien si es una forma de base.

Si P„ áz. Umbral La especificidad del vocablo es nega- tiva (-)

en caso contrario, hacemos: A - \ ^ ~ ^C^^^J

si el resultado es ^ Umbral, la especificidad es positiva ( 4- ) , en caso contrario es una forma de base.

Hemos trabajado con un umbral de 0,05«

2.1'«5o2,3o Si el vocablo es específico de un determinado grupo, se emite una línea en el listado, f al como indica el diseño ( + ó-) $abe decir que un mismo vocablo tendrá tantas líneas como fragmentos en los que sea específico.

2. 1.5. 2. 4o Se crea un registro (ver diseño en 2.4.6.) para cada fragmento donde el vocablo es específico.

Los movimientos de campos son:

N. GRUPO -* - N. GRUPO (i)

N. ORDEN -a - generado en el programa, indica el número de palabras diferente^ que hay en la entrada.

MOT -* - MOG?

PRET -a - PRET FREL -a. - FREL (i)

" -i- " si tiene especificidad positiva

»» _ «

^s

j_ tiene especificidad negativa

PROB

(21)

u »J_ —

1 s

\ :<

! ~"

1

DIAGRAMA

Dt ürc.nAOIUiN_o

Y ORGANIGRAMAS

r M r RES A WCAC'GM

«"VEPAC O\

, i ' '

! . 1 i

, , 1 i l ' !

- i . 1

f~ _ 1 V

¡ J',1

1

!

1 1

O.AG1AMA N «

1 i

1

!

J^V

; \

u ?',

y

1 i

i

u 1_

i

1

i i !

~r~

I I

(22)

EMPRESA:

APLICACIÓN OPERACIÓN:

^ _ _ _..,..-.__

L ' . . L L j

(23)

DIAG

it t

j i

1 !

" " i

t

¡

_

!

i

!

n:r

(24)

(25)

.WÇtfc

L

(26)

£.ymt

(27)

IAGRAMA

<o

i* -

EMFREÜA: APLICACIÓ OPFMCIO

ONESCI S

AGRAMAS DE OPERA • ORGANIGRAMA

EMPRESA:

APLICACIÓN:

OPERACIÓN:

FECHA:

AUTOR:

DIAGRAMA N.»

/

listo! O

._._!_. i j.

,

t i

...1 !

! !

" ' ¡ "i

i

!.. 1

-ir

i

;

—

i

— -— •

!

! i

j _

i

i - i

! !

1 ¡ r~r ••

i • • •

i i i 1.

r i i

r ! 1

— 1 I

i 1

! (i 1

r ; -T"T"

¡

i _i

! .L

_!

1

!

|

! ?

i

1

"T

- — 7 " " ' . -TT

i

T"

(28)

i 2,2. Ficheros

Se describen a continuación las características y estructura de los ficheros que se utilizan en la aplicación.

2.2.1o CORPUS -Pichero texto 2.2o2. MOTS -Pichero palabras

2.2.3. LÈXIC -Fichero formas léxicas

2c 2o4o PROB -Pichero formas léxicas espe- cíficas.

£,2.1. CORPUS

. TIPO - SECUENCIA!

. SOPORTE - CINTA MAGNÉTICA •

(EBCDIC, 1600 BPi, TIPO 2400)

. 1

^R

- 80

. í_ - 1 (80 BYTES)

is

. CAMPOS DEL REGISTRO

1 DIN X(80) . Texto introducido en ficha perfo- rada.

2.2.2o MOTS

, -TIPO - SECUENCIAL

\

o SOPORTE - CINTA MAGNÉTICA

(EBCDIC, 1600 BPi, TIPO 2400) . Lg - 2 6

. P_ - 100 (2600 BYTES)

13

» CAMPOS DEL REGISTRO

1 MOT X (21) Alfanumerico. Contiene las palabras del corpuso

(29)

CO

0 a:

1- co

(D

LU OC LU

Q

o

LU 00-

Q

?*} JA i -

otu u.

O o.— t-

LUa:

< m f °

«^Z Oo

ffa.

0É Z

Z O u u .J a.

tu H Z

UJ

~ u

o

<a:

K Z Ou

— —

I o

È

•2 3

0 7^

S 2

33 y ^

_{T ^4}

• ' 1

,

Campos J

oc H_

01

__.CO 10™__-

T

"n"

CN

J.

01

"w"

r*

__.(O

__

co

_CN

-fel 01 CO ps.

to m

"co CN

¿

OI CO

r*

to ui

CN

íOï __.CO

o

í

CN

"Í"

o>

09

to

U) __

CN

JL

CO Ps.

to m co

"<N~

ím co r*- to

kO

n

CN

è

OI 00

^^_Uï -__

fO CN

"^T"

•g"

__

00 JSu.

UI

n CN

"

~ -

~"

T

à I

• -

_~

—

"

-

— - - -

7 fi^ -

S

ia —U-l v J4-

r

L/)^

« ÇxJ O*¹ ^

1"^"" s^ II II

^V* -^-* ~ '' '

O v_^ <*^

^

?

^

UJ CC D K 0 O.

1

à

Z ,

z

JJen ___ce __

in

T t"ñ~

ÍN

Campos

ce

_

A.

Cl sa rC~

CD ___

—

™_

(N

2— O)

*"co7

PS.

(0 in

<T

co cv

*Ê-

"CET01 r*

<O

T

CN

È_ai

M

to in

ÇN

3SCo

03

-£-

in

co CN

Oî

J£L

fO CN

ai

Ol 00 PS.

to in

co CN

E01 co PS,

to J2_

CO ÍN_

"S"

"m"

co

"pT to tn co

CN

"

~

-

~

"

-

"

I

—

"

- -

—

- -

- _

Ulce 3H U ù.

d al z

z

Campol

c

.B.OI CO r»

~~£~

~

^ fO ÍN

~^~

_§_

00 fs.

~5~

in

~~^~

"FT CN

"8"—

OI

co

ps,

íu m

T CO CJ

¿

O)

co '"psT

' <D_

<N

í

_OI

CO ps.

to m to

<N

è

O">

co p- u>

rT CN

f

co rs

in co

(N

í

_co

JP

«n

"ço"

CN

Èoi co r*

to m

(O

<N

~^_

Oi CO fs.

to tn co CN

_

-

"

-

_

"

- -

— - 5.

- .

~~

utoc s

*o

OL

•

¡à al Z ,

Z oa E Ú

K JÍ-

C»

CO p-

to

Líl

^ M ÎN ___

_s_OI CO _rs_

^to in

~^~

co CN

-C—

o>

co rs.

íO in v CO ÍM

±

OI

ta

ps.

"to~

"üí

"co CN

i

₀₁

00

i to n

«r co

CN

ÍIo*

co

Ps

to in co

CN

JÊ

01

co to in

«t ro

CN

±Cï CO

to tn

ÍO CN

È

01

co

ps.

to in

co CN ,_

IT

"ST

"cö™1

rs>

o

"1- TT

CN

J

4

^

¡

!

t

J_ _

-

_

—

- -

— - _I _

- -

—

._

IU {£ D

l~

o

CL , CU

o.' z

í

<

•

(30)

CO

O oc

ff)__

_

o

LU

rr

LA»

LU Q

-•'O •

«2 LU CO

Q

-

_ , V*¹

^x u

UJli-

es

0.

~

UJce

< m 1 §

i ^z

0 cc o.

'3E

Z

O

u u a

UI

t- Z

UI

_i O

MTRATO

OU

Bjr

i

p

' Sí

/y

r

[yj QJ

<.

"2. <ZS

3 <3

U r|

¿—T /-v y^ r^*"\

fi

JLa>

ço

fs-

to

w»

CE:

n

. Cimpoi

• cr

J.cn _._ço to in

•v

"n"

-^

í

₀₀

p*.

"lo"

__

CM

cn

09

fs.

"jo"

in

«r Cl

""CN"

i

_O)

"co~

ps.

to in rt

ÇM

è

o>

03

to m ___

"CM"

Ho ço

PS.

to in

tñ CM

i:

O) CO rs.

(O

in

CO CM

T3~Xï_

cn

CO rs.

"3~

m n

CM

^o e»

—

UJ in

—

CM

- - - - -

"

-

•

—

- - -

.

-

.

—

-

a0A33SS-

* i£.

tk ,

v '--

_<.

<

\

g

2

3 —

? '

f

% 1"

JIÍ

f

ar

X—N

f j

*"s-w»

y

CTURE

CU

rO

«J ffl

1

O

•2

^T

0

2

Z

.3.o ço r*

to tn

L2_

1 f

. Campot

ce

(N

_s_

O ÇO

"TsT to in

"^~

"rT _DL

í

CT>

00

ps.

to in

^co^^H!

±_o

ço

fs.

to in ço CM

è

_O)

00

PS.

(0

*".

"c^"

21 3L

ço

"S"

in

D CM

¿ cn _co^

CM

Zm

00

fs.

J»,in'

± -5~^

-2- CO f*«

to m

^

» O)

ço

"^7"

to

-ü

n f^

"^~

-

— - - -

"

- -

— - - -

- -

—

.

• .

- '

•

-

"

'

-

CTURE

Z d

CL Z

z*

. Ca m p oi

DC O) 00 fs.

(0

tn

T

n

CM

18.at __ço

to in

~v"

"c*T

~fT

"cn"

CO

PS.

"w"

«r o

-£•

EO) 00 PS,

to

-^

cn CM

Z_m

CO

~pT to in

«

CN

s

a

CO PS.

m n

CM

¿o>

CO rs.

ÍO

CM

Zo»

CO p*>

-H.

n

CM

'

ÜI

CO p^

to J£L

(0 fM _^_

m 03

to in

cn CM

-

— - - -

- -

- - -

_[

- -

—

^

. - -

—

- -

-

—

. -

""

.

"

ICTURE

Cb

•

d Z

Z

p£

[ TO

1 FS-

ti

. Campos

OC

n

CM

C) CO p- 0

in -ï

0

JX

i

cn ço

Ps.

Tto'"

in ço

CM

è

_0>

ÇO

r*.

to"

m ' ro"

CM

±01 ÇO

IV

¡ to in ço

CM

è

0>

"ço

fs-

to m n

CM

Hoi

03 Ps.

<O

CM

i

O) 03

PS.

to

"in"

r)

CN

J3LUf J3L

jED_

ps.

<O UI

CN

"75*

en

"00°""

__.

JíL

™_

CM

-1

|

]

-1_|

- -

_

- - -

_

-

'

*

-

~

•

_,

-

~

"

,

¡

1

UI Œ. D K CJ t

ET O.

•2

(31)

2 NÚMERO PICHA 9(5) COMP-3

3 NUMERO GRUPO 999 COMP^ 3

Número empaquetado Número de la ficha donde aparece la palabra.

Numérico empaquetado Fragmento al que pertenece la ocurrencia en cuestión.

El fichero MOTS GLAS, MOTS MOD y MOTS DEF. tienen esta misma estructura.

2o2.3o LÈXIC

» TIPO - SECUENCIAL

o SOPORTE - CINTA MAGNÉTICA

(EBCDIC, 1600 BPi, TIPO 2400) R

'B

110

20 (2200 BYTES)

» CAMPOS DEL REGISTRO 1 PRET

2 MOT

9(5)

X(21) 3 PREL 999

(26 campos)

29 PIILER X(6)

Numérico

Frecuencia total del vocablo dentro del corpus

AlfanuméricOo Vocablo

Numérico. Frecuencia del" vocablo en cada uno de los fragmentos.

Alfanumérico. No utilizado.

El fichero LÈXIC CLAS tiene esta misma estructura.

(32)

CO

O ce

CO

LU (D ce

LU û

O

•Z

LU CO

Q

-r«

s

o oce o.

r0 UJu-

O o.

t-

Ulce

O

Z

Z O

u u _j

o.

u Z

UJ

-4 U

CONTRATO

81-

o

p (/}

Ü.I

-? q

o -^3

$w

ii 38

oa E U

ce*

Ji

Oí 03 P-.

•T

n CN

s

0 __-CO

CO U»

n

(N

JL

O) ÇO

"S"

in

n

' CN

¿

DO r*

ïO

$

CN

Ç

~oòT r- to

«T to

"rT*

LJLo>

ço p-.

(O

n

Oí

SL

OI ÇO

to

Uï

o CM

ir

0) ço

to

n r-*

±0»

00

«r

m

n

IT

O) 00

-ü-

(0 sn

n CN

—

<

l/|

Ç

U)

<t

cvu.

fr_A

•5

I

^ü.

-5

a

r^

n

1

^J LU y

in

N -3-cJ -

00 -N

ïï J

N :

5 -

o- - 0° -

r- - S? "

in -

¿ :

í :

N j r I o tr

CD . N _ xu.

li) "I -4-

fO csl

s - -

h —

2 -

1 f

***"**•**.

etil

H- fe^

1ï i'

• U fl¿ c3

> ÖJ

•^^

o-

y"

3

PICTURE

?

•

^

03

al Z

z

oa E U

• Œ

Ja.

O ÇO r«.

to m

"M"

CN

R

O 00 p*

(O m

Pí

1

O) 00

(0

in

«T

n (N

"oT ço r*

to

n ex

fO) 00 p*

to U)

ço

Pi

figi ço

Jp-

LO v o

(N

~oT

tO

m et

T

Oi

p*

J£^

in"

JTf CM

S

^L ço

JO_

in

»r (*>

(N

O

"òT ço

(0 in

n CM

—

-

'

-

.

—

-

—

-

—

-

.

-

csl -

**— ^

PICTURE

1

oT z

Z Rif. Campos

.ü._o»

ço

"to tf>

n

(N

R

0)

~co"

f«.

ÍD UI

~ÓT

~oT

00

—

in

n P*

01

ca

\n

CN

i-

"00"

tu

U)

n ts

9,

"ÔËT

fN

"ÛT

~c>r

i

_Ol

_co_

to

o

"W

m

in

"n"

è

_co

to in

P5

oV

00

(o in

01 .—

-

—

-

—

-

—

x

:

- .

-

PICTURE

•

N. A. A.N. P. B.

i

Rflf. Campos

JsL

Cï ÇO p*

to m

T

•£-

S

0>

(O

n rt

i

O) 00 ps 10"

in

n

(N

o>

00 fs.

to"

u>

— -.

_SL

TO 00 r«.

íO UI

«

(S

fa

"»""

ui o

i:

_cu

00 r*.

to ui

ço ÍN

CJ ÇO r- CD

n es

t_sa_

00 p*

U)

"T

0 cn

00

tD tr>

•«r

^

J

-

— - - - -

— - -

— - - - -

— -

•-

— - -

—

- '.

* i

• PICTURE

(33)

o

o.

& -

í

o h

I

•*w<li)

O"

n

-ffi-

co

JO.

E

-S2-

JL

-S.

3:

31 _a.

3T

LUL

(34)

2.2.4 PROB

. TIPO - SECUENCIA!,

. SOPORTE - CINTA MAGNÉTICA

(EBCDIC, 1600 BPi, TIPO 2400) . LR

•B

- 50

- 40 (2000 BYTES) CAMPOS DEL REGISTRO

1 NGRUP 99 2 NORDEN 9(5)

3 MOT 4 FRET

5 FREL

6 S

X(21) 9(5)

999 X

7 PROB 99V9(6)

8 FILLER X(5)

Numérico o Numero del fragmento Numérico« Numero de orden forma léxica.

Alfanumérico«, Palabra«,

Numérico,, Frecuencia total del vocablo dentro del corpus.

Numérico«, Frecuencia del vocablo en el fragmento indicado en el campo 1.

Alfanumérico. Indicador de si la especificidad es positiva o negativa.

Numérico. Indicación del grado de especificidad del vocablo en el fragmento.

Alfanumérico. No utilizado.

El fichero PROB OLAS tiene esta misma estructura.

(35)

•2.3. Entrada de Datos

Se describe en esta sección el formato de los distintos DATA-ENTRY que hay en la aplicación.

2.3.1. Entrada masiva inicial del corpus a estudiar

El formato es el explicitado en las hojas de diseño al fi- nal del apartado. Un solo campo de 80 posiciones (la totalidad

de la ficha).

Han de respetarse las condiciones siguientes:

- No existe diferenciación entre mayúsculas y minúsculas.

- El carácter de separación entre vocablos es el "blanco". El proceso considerará como "palabra" todos los caracteres entre dos blancos (o el final de la ficha = columna 8o).

- Los caracteres distintos de los alfabéticos (A-Z).y numé- ricos (0-9) no son tratados (p.e: comas (,), puntos (.), etc.,) Esto implica que estos caracteres no producirán "ruptura" de vocablo y por lo tanto hay que poner un "blanco" para que ello

ocurra:

p.e. SIN EMBARGOEL TEMA =.-> SIN

EMBARGOEL TEMA

SIN EMBARGO El TEMA -=~> SIN EMBARGO EL

TEMA

- Una palabra no puede estar a caballo entre dos fichas. La

última palabra de una ficha debe acabar en ella. En caso contra-

rio, el ordenador la consideraría como dos distintas

(36)

o

o.

uo

O

\ - -

.a.

-S2_

1-3-

.£-

ÖIU-

p

?

<c.

SP

-üo-

J£L<r-

oc D

(37)

. p.e; ...o ACTUAL = ^ .ACTUAL MENTE „ .MENTE

2.3.2o Entrada modificaciones vocablos del corpus

Se utiliza en el punto 2 del análisis y nos permite tina cier- ta alteración del corpus entrado«

La modificación es a nivel forma y, por lo tanto, la indica- ción de alteración de alguna de ellas repercute en el número de ocurrencias de la misma en la totalidad T del corpus.

Explicación^del diseño:

1 CÓDIGO MODIFICACIÓN

» 1» ELIMINACIÓN DE LA FORMA

"2" SUSTITUCIÓN DE UNA FORMA EXISTENTE POR OTRA

"3" EXPLOSION DE UNA FORMA EN DOS RESULTANTES

2 FORMA INICIAL

CAMPO ALFANUMËRICO (DEBE ALINEARSE EL DATO A LA IZQUIERDA).

SE INTRODUCE LA FORMA DEL CORPUS AL QUE SE QUIERE REFERIR.

3 FORMA RESULTANTE 1 (ALFANUMÊRICO)

. SI CdDIGO MODIFICACIÓN = "1" NO DEBE RELLENARSE, SI SE HACE EL PROGRAMA DESPRECIARÁ EL CONTENIDO.

. SI CÓDIGO MODIFICACIÓN = "2" DEBE RELLENARSE CON LA FORMA NUEVA.

. SI CÓDIGO MODIFICACIÓN = "3" DEBE RELLENARSE CON LA PRIME- RA FORMA DE LA EXPLOSIÓN.

4 FORMA RESULTANTE 2 (ALFALÚMBRICO)

(38)

SI CÓDIGO MODIFICACIÓN = "1" o "2" NO DEBE RELLENARSE, SI SE HACE EL PROGRAMA DESPRECIARA EL CONTENIDO.

SI CÖDIGO MODIFICACIÓN = "3" DEBE RELLENARSE CON LA SEGUNDA FORMA DE LA EXPLOSIÓ'N.

2.3.3. Tabla de formas gramaticales

La tabla de formas gramaticales se introduce a nivel interno del programa GGMOT030 que es el encargado de realizar la función 3.1 del análisis.

Cada elemento tiene una longitud de 21 caracteres, y debe alinearse a la izquierda.

La tabla debe estar ordenada alfabéticamente.

Presentamos también, al final de este apartado 2.3. la ta- bla utilizada.

2.3.4 Entrada de datos generales fragmentos

Utilizada en las funciones 4.1 y 5.1. Los datos a entrar son los siguientes:

1 NGRUP Numérico. Número del fragmento

2 FLI Numérico. Número de formas léxicas del fragmento.

3 TI Numérico. Número de ocurrencias del fragmento.

4 OLÍ Numérico. Número de ocurrencias léxicas

del fragmento.

5 FVI Numérico. Frecuencia media

6 FVLI Numérico. Frecuencia media Léxica

(39)

N El resto de posiciones (hasta 80) no son utilizadas.

De"be tenerse en cuenta que todos los campos son numéricos y por lo tanto, el dato debe alinearse a la derecha y relle- narse con ceros por la izquierda,

En nuestro caso de"ben rellenarse 27 grupos, uno para cada fragmento estudiado y uno (el último) con los datos totales del corpus.

Recordamos que estos datos nos han sido facilitados por

las funciones 3.4. y 4.2.

(40)

r

FILE GG025001 OPINO

SABARATARLe 3ABRIRLAS 3ACEPTARLA 3ACERCARLAS 3ACHACARSËLA 3ACORTARLÜS 3ACTUALIZANDOLAS 3ACTUALPARA 3ADAPTAKDOLÛ 3AOECUARSE 3ADMIN1STRARLAS 3AFERRANDÜNOS 3AFI LIÁNDOSE 3AISLARNOS 3AJUSTANDOLA 2AMRZD 2ANOES 3APOY ANGOLAS 3APOYANDDSE 3APQYARSE 3ARREGLARSE 3ARTI CUL ANDOSE 3ASEGURARNOS 3ATENASREFORMAS 3ATENERSE 3ATRIBUIRNOS 3ATRIBUIRSE 3AUTOGÜBERNAANÜS 3AUTO GOBERNARSE 3AYUDANOS

3BASANOOLÜ 3BASANOONÜS SOASARSE 3CALIFICARLAS 3CARG ARLES

¿CELEBRARSE 2CELUCA 3CIMENTARSE

^COLOCÁNDOLAS 3CÜM8ATIENDOLA 3COMPLEMENTANDOSE 3COMPRÜH ETERNOS 3CCWCÊNTRARSÊ 3CONDICIONANDOLA 3CONDUCIRNOS 3CONOCERNUS 3CONSEGUIRLO 3r.flNSfcGUlRSE 3CONSERVARLOS 3CONSTATARLO 3CONTROLANDOLA 3CUNVERTIRLAS 3CONVERTIRLOS 3CONVERTIRSE

Al CfcNTKE PROCESSOS BARCELONA

ABARATAR ABRIR ACEPTAR ACERCAR ACHACAR ACORTAR ACTUALIZANDO ACTUAL

ADAPTANDO ADECUAR ADMINISTRAR AFERRANDO AFILIANDO AISLAR AJUSTANDO MARZO ANTES APOYANDO APOYANDO APOYAR ARREGLAR ARTICULANDO ASEGURAR ATENAS ATENER ATRIBUIR ATRIBUIR AUTDGOVERNAR AUTOGOBERNAR AYUDA

BASANDO BASANDO BASAR CALIFICAR CARGAR CELEBRAR CÉLULA CIMENTAR COLOCANDO CUHBATIENDO COMPLEMENTANDO COMPROMETER CONCENTRAR CONDICIONANDO CONDUCIR CONOCER CONSEGUIR CONSEGUIR CONSERVAR CONSTATAR CONTROLANDO CONVERTIR CONVERTIR CONVERTIR

LE LAS LA LAS LA LOS LAS PARA LO SE LAS NOS SE NOS LA

LAS SE SE SE SE NOS REFORMAS SE

ÑUS SE NOS

SE ÑUS LO NOS SE LAS LES SE SE LAS LA SE NOS SE LA NOS NOS LO SE LOS LO LA LAS LUS SE

0010 0020 0030 00^0 0050 0060 0070 0080 0090 0100 0110 0120 0130 0140 0150 0160 0170 018O 0190.

f 0200 0210 0220 0230 0240 0250 0260 0270 0280 0290 0300 0310 0320 0330 03*0 0350 0360 037O 0380 0390 0400 0410 0420 0430 0440 0450 0460 0470 0400 0490 0500 0510 0520 0530 0540

3CONVIRTIÉNDOSE CONVIRTIENDO 0550