• Non ci sono risultati.

Análisis cuantitativo y cualitativo de acuerdo entre anotadores en el desarrollo de corpus interpretados lingüísticamente

N/A
N/A
Protected

Academic year: 2021

Condividi "Análisis cuantitativo y cualitativo de acuerdo entre anotadores en el desarrollo de corpus interpretados lingüísticamente"

Copied!
8
0
0

Testo completo

(1)

en el desarrollo de orpus interpretados lingusti amente 

M. Civity, A. Agenoz, B. Navarroy, N. Bufy, M.A. Marty

yCLiC Centre de Llenguatge i Computa io

Adolf Florensa s/n (Torre Florensa)08028 Bar elona

f ivit,nuriag li . l.ub.es;amarti l.ub.es

zTALP Resear h Centre (UPC)

Jordi Gironan o

3 08034 Bar elona

agenolsi.up .es

y Departamentode Lenguajes y Sistemas Informati os

Universidadde Ali anteCampus de San Vi entedel Raspeig

Apartado 99.03080 Ali ante

borjadlsi.ua.es

Resumen: El objetivo de este trabajo espresentar un analisis ualitativo y

uan-titativo de las dis repan iasentre anotadores enel etiquetadosinta ti o del orpus

Cast3LB. Paraelloseha de nidoun orpusdeprueba demilora ionesquehasido

etiquetado paralelamente por in o anotadores. Se han realizado su esivas

evalua- iones de los resultados que han dado lugar a otras tantas mejoras de la gua de

anota ion hasta su version de nitiva. En una ultima fase, se analizan

ualitativa-menteyse lasi an lasdis repan iasentre anotadores.

Palabras lave:Anota ion sinta ti a, orpus,a uerdo entre anotadores.

Abstra t: The maingoal of this work is to present a qualitative and quantitative

analysis of disagreements among annotators during the synta ti labeling of the

Cast3LB orpus. To do so, a one-thousand-senten e orpus has been established

and ithasbeenannotatedby veannotators.Conse utiveevaluationsoftheresults

havebeendoneandhave ledtosu esiveimprovementsoftheguidelines.Inthelast

phase, we present the qualitative analysis and the lassi ation of the di eren es

among annotators.

Keywords: Synta ti annotation, orpus,annotators' agreement.

1. Introdu ion

Elobjetivodeestetrabajoespresentarun

analisis ualitativo y uantitativo de las

dis- repan ias entre anotadores en el etiquetado

sinta ti o del orpus Cast3LB. Este orpus,

que a tualmente esta en fase de desarrollo

dentro del proye to general 3LB, onsta de

100 000 palabras en espa~nol,de las ualesse

haetiquetadoyaanivelsinta ti omasdeun

25 por iento.

El desarrollo de orpus interpretados

lingusti amente(Treebanks) valigado atres

elementos: el desarrollo de sistemas

au-tomati os para el analisis sinta ti o; la

es-pe i a ion de esquemas de anota ion,

da-do que debe imponerse un analisis

on-sistente de los datos; y la rea ion de

metri as para uanti ar la pre ision en



Este trabajo ha sido par ialmente nan iado por

losproye tosPROFIT(FIT-150500-2002-244) y

X-el analisis. Por lo general, estas metri as,

uyas primeras de ni iones apare ieron en

los workshops Parseval, uanti an el

gra-do de pre ision de un ierto analisis

respe -to de un gold-estandard preestable ido y se

han utilizado prin ipalmente para omparar

distintos sistemas de analisis sobre un

mis-mo orpus de referen ia. El objetivo de

es-tas metri as es propor ionar datos sobre la

similitud entre los analisis, pero en ningun

aso propor ionan informa ion sobre la

lo aliza ion de los desa uerdos ni sobre la

naturaleza delos mismos.

La problemati a deletiquetado de orpus

es ompleja. Por una parte, porque las

expresiones lingusti as que apare en en los

orpus(re ejodelusodelalengua)plantean

problemasquemu hasve esnoseven

re eja-dosenlasgramati asoqueapare entratados

(2)

orre tas. Por ultimo, ada individuo tiene

su propia on ep ion del lenguaje y lo

interpreta de una forma determinada.

Dadoque lalabordeanota ion de orpus

esuntrabajode equipoesimportante poder

evaluarelgradode onsisten iaenlosanalisis

propor ionados pordistintos anotadores. La

onsisten iaenlaanota ionesne esariapara

queaumentela alidaddel orpusas omosu

utilidadtantoparaelentrenamientoytestde

sistemasdeanalisisautomati o, omoparala

investiga ion lingusti a.

Porotra parte,hasta ahora, seha

presta-do po a aten ion a otro elemento que

inter-viene en eldesarrollo de los Treebanks yque

ha e referen ia a la apa idad de los

anota-dores paraelanalisissinta ti o: how

pre ise-ly an human beings analyse language

stru -ture? (SampsonyBabar zy,2003).

Hasta la fe ha, no hay estudios en

pro-fundidad sobre la onsisten ia entre

anota-doresanivelsinta ti o 1

,aunquepuede

men- ionarse el trabajo de Brants (2000) sobre

el a uerdo entre anotadores en el proye to

NEGRA (Brants, Skut, y Uszkoreit, 2003).

En laa tualidadG. SampsonyA.Babar zy

estan llevando a abo un experimento para

valorar ualitativementelasdis repan ias

en-treanotadores,sobre unfragmentodelBNC,

utilizando elesquema de anota ion dise~nado

para el orpus SUSANNE (vease, para mas

detalles, SampsonyBabar zy (2003)).

Como indi an Sampson y Babar zy

(2003), existe un lmite en la apa idad

hu-mana para analizar on pre ision su propia

lengua y, por onsiguiente, existe un lmite

en la pre ision de la anota ion humana.

As, en la onstru ion de un orpus

anota-do lingusti amente,elobjetivoesminimizar

este margen de desa uerdo entre anotadores

y a er arse a este lmite todo lo posible.No

debe olvidarse que el modo en que los

hu-manosresolvemosestas uestiones onstituye

el riterio de referen ia para el analisis

au-tomati o del lenguaje.

Eneste trabajosepresenta unestudio

so-breela uerdoentrelosanotadoresdel orpus

Cast3LBa nivelsinta ti o.

Para poder llevar a abo este estudio,

se han analizado 1000 ora iones por parte

1

S hay trabajos sobre la onsisten ia en la

anota ionsemanti a(Veronis,2000)ylamorfologi a

vas ( f. se ion 3). Se ha desarrollado en

paralelo una gua de anota ion (Civit,2002)

que in luye una des rip ion del etiquetario

utilizado as omo una detallada asusti a

de los problemas que pueden surgir y de las

solu ionesquedebenadoptarseen ada aso.

El primer objetivo de este trabajo es

es-tudiar, desde un punto de vista

uantitati-vo, el a uerdo que existe entre anotadores

en el etiquetado sinta ti o a nivel de

onsti-tuyentessiguiendolaapli a ionde laguade

anota ion. Conello seobtienenmedidasque

uanti anelgrado de a uerdo y,portanto,

la onsisten iaenlaanota ion.Consideramos

que unos resultados superiores al 90% son

a eptables para onsiderar que la anota ion

quepropor ionamosesunaanota ion

onsis-tenteyque,portanto, lautilidaddel orpus

queda onsolidada(vease lase ion 3).

Elsegundo objetivo de estetrabajo es

es-tudiar el a uerdo entre anotadores desde un

punto de vista ualitativo, on la nalidad

de lasi aryanalizarlos asos on retos de

dis repan ias.Seguimosparaellola

propues-ta de Sampson y Babar zy (2003) (vease la

se ion 4).

Antesdeentrarenlas ompara ionesyde

presentar los resultados, presentamos

breve-mente el proye to en el que se enmar a el

trabajoas omo los riteriosbasi osde

ano-ta ion (se ion 2).

2. El proye to Cast3LB

El proye to Cast3LB forma parte de un

proye to mas amplio, 3LB, uyo objetivo

es onstruir tres orpus anotados on

in-forma ion lingusti a, uno para el euskera

(Eus3LB), otro para el atalan (Cat3LB) y

otro parael astellano(Cast3LB).

Por lo que respe ta a Cast3LB, la

infor-ma ion que se esta etiquetando orresponde

a los siguientes uatro nivelesde des rip ion

lingusti a 2

:

Nivel de forma sinta ti a, en el que se

parentizanyetiquetanlos onstituyentes

sinta ti os;

Nivel de fun ion sinta ti a, en el que

se etiqueta la fun ion de los prin ipales

onstituyentesde adaora ion;

2

(3)

ta el sentido desambiguado de las

pal-abras (nombres, adjetivos, verbos y

al-gunosadverbios) a partirde

EuroWord-Net;

Nivelpragmati o, enelqueseetiquetan

lasprin ipalesanaforasyelementos

or-referen ialesdel orpus,as omosus

an-te edentes( adenas de orreferen ia).

El orpus de Cast3LB esta formado por

75.000 palabras extradas del orpus

CLIC-TALP(Civit,Castellon,yMart,2001){que,

a suvez,es unfragmento del orpusLexEsp

(Sebastian et al., 2000){, y 25.000 palabras

pro edentes de un orpus de noti ias edido

porlaAgen iaEfe.

El fragmento orrespondiente al orpus

CLiC-TALP onsta de textos de

pro eden- iamuyheterogenea(periodsti os,literarios,

ient os,et .),extradosdediferenteszonas

de habla hispana(tanto de Espa~na omo de

Hispanoameri a), lo que lo onvierte en un

orpus representativo de la situa ion a tual

delespa~nol.Este orpus,ademas,esta

anota-do on informa ion morfologi a (PoS) 3

y ha

sido validado manualmente, lo que nos

per-mite partir ya de un analisis lingusti o

or-re to.Noo urrelomismo on lasnoti iasde

la Agen iaEfe, porqueel pro eso de

desam-bigua ion morfologi a ha sido automati o y

no se ha validado. Esta parte del orpus es

omparable, en uanto al ontenido, on los

orpusqueseestan utilizandoenelproye to

parael atalan yeleuskera.

2.1. Anota ion sinta ti a de

Cast3LB

La anota ion sinta ti a del orpus

Cast3LB se lleva a abo en dos fases: en

la primera se parentizan y etiquetan los

prin ipales onstituyentes de la ora ion,

mientras que en la segunda se asignaa ada

uno de los onstituyentes prin ipales una

etiquetade fun ion sinta ti a.

Losprin ipiosbasi osparalaprimerafase

de esta anota ion sonlos siguientes 4

:

Solo se etiquetan los elementos

ex-pl itosde las ora iones.Sin embargo, y

3

Vease(Civit, Castellon,yMart,2001)

4

Estosprin ipiosgeneralesdeanota ionsinta ti a

apare en ondetalleen(CivityMart,2002)y(Civit

etal.,2003)ysonlosmismosqueseapli anal orpus

anota ion de adenas de orreferen ia 5

hemos optado por introdu ir un nodo

espe ialpara los sujetos elpti osde las

ora iones nitas.Enloreferenteala

elip-sisverbal,lamar amosa~nadiendoun

su- jo (*)a las etiquetasde las ora iones.

El orden de apari ion de los elementos

en la ora ion no se altera. El espa~nol

es una lengua de orden libre porlo que

respe ta a los onstituyentes de la

ora ion, de tal manera que el orden

es-pe  o enelqueapare enen laora ion

responde a motiva iones diversas de

ara ter fun ional o omuni ativo. Por

ello,alterarelordendeloselementos

sig-ni aralaperdidade esta informa ion.

Se ha seguidoun esquema de anota ion

basadoen onstituyentes, frenteala

op- ion de anota ion de dependen ias.

Se ha tratado que el etiquetado sea lo

mas neutro posible, sin seguir ninguna

teora lingusti a niningun mar ote

ori- o on reto. Esta de ision se tomo on

el proposito de que el orpus anotado

fuera apto para llevar a abo

investiga- ioneslingusti asy omputa ionalessin

ningun tipo de restri ion.

Para realizar la anota ion sinta ti a

par-timos del orpus previamente analizado y

desambiguado morfologi amente y on

ano-ta ionde hunks ,de modoqueeltrabajode

los anotadoresseha entrado enla

onstru - ion de los onstituyentes de las ora iones

(parentiza ion) y en la asigna ion de la

eti-queta sinta ti a orre ta. Para fa ilitar esta

labor, utilizamos una interfaz de anota ion

(Cotton yBird, 2000)quepermitelaadi ion

y borrado de nodos, el ambio de etiquetas,

nuevosnivelesde anidamiento,et .

El numero de etiquetas que utilizamos

para los onstituyentes es de 91, algunas de

las ualesapare enenelanexo1delart ulo.

3. Compara ion: analisis

uantitativo

No existiendo medidas espe  as para

la ompara ion uantitativa del a uerdo

en-tre anotadores, se ha de idido usar

al-guna de las metri as utilizadas para la

evalua ion de gramati as y/o metodos de

(4)

rigurosaalahoradedesarrollaranalizadores

de amplia oberturaes laramente

re ono i-da. Queda fuera del al an e de este art

 u-lo entrar a des ribir en detalle los

difer-entessistemas de evalua ion(se pueden

on-sultar por ejemplo dos ex elentes revisiones

de los diferentes metodos de nidos a

par-tir de 1991, (Carroll, Bris oe, y

San lip-po, 1998) y (Bangalore et al., 1998)). En

nuestro aso,sehade ididoutilizarlasquese

pueden onsiderarlasprimerasmedidas

obje-tivas,lasde nidasenlos workshopsParseval

(Bla k et al., 1991), para evaluar sint

a ti a-menteanalizadoresdeamplia oberturapara

el ingles. Aun no siendo ex lusivo, su uso

esta bastante estandarizado para la

evalu-a ion de gramati as y/o metodos de an

ali-sis, omparandolasimilituddelosresultados

obtenidos on los arboles de analisis de

ref-eren ia(lospreviamente onsiderados

orre -tos,queen inglesse ono en omogold

stan-dard). Estas medidas de similitud se basan

en la ompara ion de los onstituyentes de

ambosarboles de analisis,tanto enlo quese

re ere a sus lmites (punto de ini io y nal

enlafrase), omoasuetiqueta.Lasmedidas

on retas que se han utilizado se de nen a

ontinua ion:

Ratio de Pre ision Etiquetada

(Labelled Pre ision Rate): Numero de

onstituyentes del arbol de analisis

evaluado que oin iden ompletamente

(tanto suslmites omosuetiqueta) on

algun onstituyentedelarbolde analisis

dereferen ia,divididoporelnumero

to-talde onstituyentesdelarboldeanalisis

evaluado.

Ratio de Pre ision Parentizada

(Bra keted Pre ision Rate): Numero de

onstituyentes del arbol de analisis

evaluado uyos lmites oin iden on

los de algun onstituyente del arbol de

analisis de referen ia, dividido por el

numerototalde onstituyentesdelarbol

de analisisevaluado.

Ratio de Cobertura Etiquetada

(Labelled Re all Rate): Numero de

onstituyentes del arbol de analisis

evaluado que oin iden ompletamente

(tanto suslmites omosuetiqueta) on

algun onstituyente delarbolde analisis

de referen ia.

Ratio de Cobertura Parentizada

(Bra ketedRe allRate):Numerode

on-stituyentesdelarboldeanalisisevaluado

uyoslmites oin iden on los de algun

onstituyentedelarboldeanalisisde

ref-eren ia,dividido porelnumero total de

onstituyentes del arbol de analisis de

referen ia.

Ratio de Cobertura de Parentesis

Consistentes(Consistent Bra kets

Re- allRate):Numerode onstituyentesdel



arbol de analisis evaluado uyos lmites

no se ruzan on los lmitesde ninguno

delos onstituyentesdelarboldeanalisis

dereferen ia, divididoporelnumero

to-tal de onstituyentes delarbolde an

ali-sis de referen ia. Se onsidera que un

onstituyente on lmites [i;j℄ se ruza

on otro onstituyente on lmites[i 0 ;j 0 ℄ si i < i 0 <= j < j 0 , es de ir, si los

lmites se solapan pero ningun

onsti-tuyenteesta in luido ompletamente en

elotro.

En otras palabras, la obertura indi a la

propor ion de onstituyentes orre tos que

son planteados omo hipotesis,mientras que

la pre ision evalua la propor ion de

onsti-tuyentes planteados omo hipotesis que son

orre tos. A su vez, las dos medidas

paren-tizadas son menosestri tas, pues onsideran



uni amentelas palabrasde lafraseque

abar- an los onstituyentes, ignorandola etiqueta

quetienenasignada. En uanto ala

obertu-ra de parentesis onsistentes, es aun menos

estri ta, pues tieneen uenta solo la

propor- ionde onstituyentesdelarbolevaluadoque

son in onsistentes on elarbolde referen ia,

esde ir,quenun apodranestarenelmismo



arbolde analisis.

Se ha de tener en uenta que, en

nuestro aso, no estamos evaluando la

ano-ta ion propor ionada por un ierto metodo

de analisis,sino omparando lasanota iones

realizadas por dos linguistas. Por lo tanto,

ninguno de los dos analisis que se omparan

se pueden onsiderar de referen ia, no

ex-iste un gold standard. Por ello hemos

de i-dido omparar los analisis en los dos

senti-dos(analisisdelprimerlinguista onanalisis

del segundo, y vi eversa), y onsiderar

(5)

medidasdes ritasanteriormente,esto

provo- a que, de alguna forma, los on eptos de

pre ision y obertura dejen de tener

senti-do, y se uni quen en una sola medida de

ompara ion,quedenominaremos

indistinta-mentepre isionetiquetadao parentizada.

La evalua ion uantitativa del a uerdo se

ha efe tuado durante in o fases, a lo largo

de las ualessehanidoresolviendolos

prob-lemasdedesa uerdodes ritosenlase ion4:

1. En laprimera fasese anotaron100

ora- iones y se estable ieron los prin ipios

basi osde laanota ion.

2. Enlasegundafaseseanotaronotras220

ora iones.Delasdis usionessobre el

es-quemade anota ion surgio una primera

version de la gua de anota ion que ya

presentabamasdetallessobreelsistema

adoptado.

3. En la ter era fase se revisaron y

om-pararontodaslasanota ionesanteriores

onelobjetivode omprobarquelagua

no presentaba ambiguedades y que los

anotadores se haban familiarizado ya

on elesquema de trabajo.

4. En la uarta fase se anotaron 670

ora- iones.

5. Laquintafase orrespondealos

resulta-dosdel experimento de evalua ion de la

anota ion des ritoen lase ion 4.

La gura 1 muestra la evolu ion de las

me-didas a lo largo de estas in o fases. L

ogi- amenteel in remento de todas las metri as

es menos a usado a medida que se avanza

en las fases, ex eptuando signi ativamente

el paso de la uarta a la ultima fase. Se

observa ademas que la pre ision etiquetada

llega a mejorar er a de un 27% desde la

faseini ialala nal,lapre isionparentizada

en mas de un 20%, y la onsisten ia en el

parentizado en asi un 15% (obviamente,

uanto menos estri ta es la medida, menor

ha deser lamejoraposible).

Una de las prin ipales dis repan ias

en-tre anotadores que apare io en las primeras

fases de analisis fue la onsidera ion omo

lo u iones o no de estru turas omplejas del

tipo desde que, dar lugar a, a lo largo de,

et ., lo ual afe taba a la longitud de las

frases 6

. Como nuestras medidas toman en

6

Si tales expresiones se onsideraban lo u iones

0

0.2

0.4

0.6

0.8

1

0

1

2

3

4

Medidas obtenidas

Fase de anotacion

Precision etiquetada

Precision parentizada

Parentesis consistentes

Figura 1:Evolu ion de lasmedidas

onsidera ion los puntos de omienzo y

-naliza ionde ada onstituyente, elhe hode

que la longitud de la frase vare impli a un

des enso substan ial de las medidas (mas

a usado uanto mas proximas al prin ipio

de lafraseeste(n)la(s)palabra(s)

onsidera-da(s) diferentemente). Porello,hemos

queri-do evaluar tambien las medidas de a uerdo

obtenidassoloparaaquellasfrases uyas

lon-gitudes soniguales. El uadro 1 muestra

to-dos los resultados obtenidos, in luyendo la

evalua ion de las medidas para el

sub on-junto men ionado (solo a partir de la la 3 a

fase, en la ual se ha dete tado el

desa uer-do en uestion). Considerandosoloeste

sub- onjunto de arboles de analisis, la pre ision

etiquetada llega a mejorar por en ima del

30%, la pre ision parentizada asi un 23%,

y el ratio de parentesis onsistentes en mas

de un16%.Ademas,todoslosvalores nales

superan holgadamente el 90% de a uerdo,

aproximandonosquizaa eselmiteen la

pre- isiondelaanota iondelquehablabamosen

la introdu ion. P. e. P. p. P. . Fase 1 0.63359 0.72611 0.81072 Fase 2 0.71166 0.80454 0.87124 Fase 3 0.76537 0.84762 0.90487 Fase 4 0.79222 0.85979 0.90821 Fase 5 0.86927 0.90889 0.94958

Frases de igual longitud

Fase 3 0.85672 0.91683 0.95485

Fase 4 0.90155 0.93323 0.96034

Fase 5 0.91529 0.94036 0.96985

(6)

dis repan ias

4.1. Tipologa de desavenen ias

Para estudiar y evaluar las

dis repan- ias produ idas entre los anotadores, hemos

seguido la tipologa que presentan Sampson

y Babar zy (2003) segun los uales estas

puedendeberse a uatro motivos:

1. Desa uerdos produ idos por la propia

ambiguedadovaguedaddellenguaje.En

este tipo se in luyen las ambiguedades

deanidamientodelossintagmas

preposi- ionales y de las relativas. Un ejemplo

es el que apare e en el siguiente

sintag-ma, en el que el adjetivo puede

om-plementar al segundo nombre o a los

dos: brillas o part ulas metali as. La

gua de anota ion propor ionaun

rite-rio para etiquetar estas estru turas que

esel de anidarlas en el nodo mas alto a

la izquierda. El desa uerdo surge

uan-dounoomasanotadoresnovenesta

am-biguedad, uandonointerpretanesta

se- uen ia omo unase uen ia ambigua.

2. Desa uerdosprodu idosporaspe tosv

a-gos, por ontradi iones o aren ias de

la gua de anota ion. En este aso, la

estru tura lingusti a esta lara pero la

gua de anota ion no indi a omo debe

etiquetarse.Unejemplodeproblemaque

no estaba in luido en la gua es el del

tratamiento de expresiones omo: ( g.

2); otro era la ubi a ion de los signos

de puntua ion que pre eden y siguen a

expresiones omo es de ir, esto es.

3. Desa uerdosprodu idosporaspe tosv

a-gos, ontradi iones o simples aren ias

de la gua de anota ion, pero que no

se pueden subsanar a priori en la gua.

Esteaspe tosere ere afenomenos

par-ti ulares que apare en on

determina-dostiposdetextos, ondeterminadas

es-tru turas que por ser po o fre uentes o

muy espe  as no pueden apare er en

las guas de anota ion mas que al nal,

uandoelpro esode anota ionya ha

-nalizado.Unejemplolopropor ionanlas

formulasmatemati asoalgunas

onven- iones dependientes del dominio al que

pertene e eltexto.

4. Desa uerdosprodu idosporunerrordel

pueden ir desde el olvido de una

eti-queta hasta lainterpreta ion erroneade

una estru tura sinta ti a. Un ejemplo

del primer aso es el olvido del su jo

. oparalaetiquetade un onstituyente

sintagmati o oordinado;unejemplodel

segundo,lainterpreta ionerroneade

es-tru turas similares, omo las

ompleti-vasylas relativas.

Esta tipologa de errores tiene tambien que

ver on la segmenta ion y la etiqueta ion

de los onstituyentes, ya que mientras el

er-ror debido a la ambiguedad de la lengua

esta estre hamenterela ionado on la

paren-tiza ion, los tres asos restantes estan

rela- ionados on laetiqueta ion.

4.2. Resultados

Parallevara aboelestudio ualitativode

las dis repan ias entre anotadores se pidioa

los in o anotadores del proye to que

ano-taran 33 frases orrespondientes a 1038

pal-abras (31.45 palabras/frase) de un texto de

dominio ient oyque onstituyen el

mate-rial on que se ha evaluado la quinta fase 7

.

Las frases anotadas se ompararonde modo

manual de dos en dos para pro eder a una

lasi a ion de las dis repa ias halladas. El

uadro 2 muestralos resultados:

Tipo 1 Tipo 2 Tipo 3 Tipo 4

25.74% 12.17% 2.39% 59.86%

Cuadro2: Clasi a ionde las dis repan ias

Comosepuedeobservar,elmayornumero

de dis repan ias son debidas a errores de

algun anotador al apli ar los riterios de

la gua (tipo 4) o bien son debidas a

am-biguedadespropiasdelalengua(tipo1).

Am-bos asos son los mas dif iles de ontrolar.

Si bien siempre se puede intentar minimizar

estos errores, nun a se podra llegar a una

anota ion en la que no exista error humano

alguno, y mu ho menos habra un orpus de

lengua real sin ora iones ambiguas. El error

humano, elde mayor por entaje, esta

deter-minado porgran antidad de fa tores

exter-nos:estadodeanimodelanotador, ansan io,

metodologa, et .

7

(7)

onsti-dis repan ias del tipo 2, debidas a un error,

omision o ontradi ion en la gua de

ano-ta ion,sonfa ilmente subsanables,ya quela

gua de anota ion de va enrique iendo

on-stantemente.

Porultimo, existenpo osdesa uerdostipo

3,debidosaerroresdelaguadif ilesde

sub-sanar. Su por entaje es bajo porque se dan

po os asosen el orpus.

5. Con lusiones

En este art ulo se ha presentado una

de ni ion depautas o modelostanto de

pro- edimiento omo de ontenido para la

ano-ta ion sinta ti a de orpus. Se han

evalua-do los resultadosdelpro esode etiqueta ion

tanto desde un punto de vista uantitativo

omo ualitativo. Este ultimo aspe to es

es-pe ialmenterelevante,yaquehastaahorano

ha re ibido una aten ion espe ial y sin

em-bargoresultaesen ialparagarantizarla

on-sisten ia en la anota ion, que es lo que

pro-por iona alidadal orpusanotado.

Bibliografa

Babar zy,A.,J.Carroll,yG.Sampson. 2001.

Annotator error rates for part-of-spee h

tagging. EnLINC2001,at34thSLE,

Leu-ven.

Bangalore, S., A. Sarkar, C. Doran, y B.A.

Ho key. 1998. Grammar &

Pars-er Evaluation in the XTAG Proje t.

En Pro eedings of the First Conferen e

on Language Resour es and Avaluation.

LREC'98, Granada.

Bla k, E., S. Abney, D. Fli kinger,

C. Gdanie , R. Grishman, P.

Harri-son, D. Hindle, R. Ingria, F. Jelinek,

J. Klavans, M. Liberman, M. Mar us,

S. Roukos, B. Santorini, yT.

Strzalkows-ki. 1991. A Pro edure forQuantitatively

Comparing the Synta ti Coverage of

EnglishGrammars. EnPro eedings of the

Spee h and Natural Language Workshop,

paginas 306{311, Pa i Grove, CA.

DARPA.

Brants, T. 2000. Inter Annotator

Agree-ment for a German Newspaper Corpus.

EnPro eedingsof theSe ond

Internation-al Conferen e on Language and

Evalua-tion LREC-2000,Athens, Gree e.

Brants, T., W. Skut, y H. Uszkoreit. 2003.

editor, Building and Using

synta ti- ally annotated orpora, Language and

Spee h. Kluwer, Dordre ht. disponible:

http://treebank.linguist.jussieu.fr/to .html.

Carroll,J.,T.Bris oe,yA.San lippo. 1998.

Parser Evaluation: a Survey and a New

proposal. En Pro eedings of the First

Conferen e on Language Resour es and

Avaluation. LREC'98, paginas 447{454,

Granada.

Civit, M. 2002. Gua para la

ano-ta ion sinta ti a de Cast3LB: un

or-pus del espa~nol on anota ion sint

a ti- a, semanti a y pragmati a.

In-formeTe ni oX-Tra t-IIWP-02/01,3LB

WP 02-01, Universitat de Bar elona.

disponible: http://www.lsi.up .es/

iv-it/publi a ions.html.

Civit, M., I. Castellon, y M.A. Mart.

2001. Crea ion, etiqueta ion y

de-sambigua ion de un orpus de

refer-en ia del espa~nol. Pro esamiento del

LenguajeNatural,(27):21{28,Septiembre.

disponible: http://www.lsi.up .es/

iv-it/publi a ions.html.

Civit, M. y M.A. Mart. 2002.

De-sign Prin iples for a Spanish Treebank.

En Pro eedings of the First Workshop

on Treebanks and Linguisti s Theories

(TLT2002), paginas61{77, September.

Civit, M., M.A. Mart, B.Navarro, N. Buf,

B. Fernandez, y R.Mar os. 2003. Issues

in the Synta ti Annotation of Cast3LB.

EnPro eedings of the LINC03 Workshop,

Budapest.

Cotton, S. y S. Bird. 2000. An

in-tegrated Framework for Treebanks and

Multilayer Annotations. En Pro eedings

of the Se ond International Conferen e

on Language and EvaluationLREC-2000,

Athens, Gree e.

Navarro, B., M. Civit, M.A. Mart,

B. Fernandez, y R. Mar os. 2003.

Synta ti , semanti and pragmati

anno-tationin Cast3LB. En Pro eedings of the

CorpusLinguisti s, Lan aster.

Sampson, G. y A. Babar zy. 2003. Limits

to annotation pre ision. En Pro eedings

(8)

Lin-paginas61{68, Budapest.

Sebastian, N., M.A. Mart, M.F. Carreiras,

y F. Cuetos. 2000. LEXESP: Lexi o

In-formatizado del Espa~nol. Edi ions de la

Universitatde Bar elona.

Veronis, J. 2000. Sense Tagging: don't

look for the meaning but for the use.

En Computational Lexi ography and

Mul-timedia Di tionaries, COMLEX, paginas

1{9, Kato A hia, Gree e. disponible:

http://www.up.univ-mrs.fr/veronis/.

onstituyentes

ora ion S

subord. ompletiva S.F.C

subord.adjetiva S.F.R

subord.adverbial S.F.A

subord.adv. omparativa S.F.AComp

subord.adv. ondi ional S.F.ACond

subord.adv. on esiva S.F.ACon

subord.adv. onse utiva S.F.ACons

Cuadro3:Etiquetasparalasora iones nitas

subor. ompletiva S.NF.C

subor.adjetiva S.NF.P

subor.absoluta S.NF.PA

subor.relativa S.NF.R

subor.adverbial S.NF.A

Cuadro 4: Etiquetas para las ora iones no

nitas

Lasetiquetas paralas ora iones puede

ll-evar ademas los su jos * si tienen el verbo

elpti oy. o sisonestru turas oordinadas.

sn sintagmanominal

gv grupoverbal

sp sintagmapreposi ional

sadv sintagmaadverbial

sa sintagmaadjetivo

onj.subord onjun ionsubordinante

oord onjun ion oordinante

in nitiu verboenin nitivo

gerundi verboengerundio

interje io interje ion

neg adverbiodenega ion

morfema.verbal SE(impers./pasivo)

morf.pron otrosusos

Cuadro 5: Etiquetas para los prin ipales

onstituyentesora ionales

Las in o primerasetiquetas del uadro 5

pueden apare er tambien on el su jo. o si

Figura

Figura 1: Evolu
i on de las medidas
Cuadro 4: Etiquetas para las ora
iones no

Riferimenti

Documenti correlati

In case of Riemannian symmetric space, the Levi-Civita connection associated with the Riemannian symmetric metric is torsion-free and the curvature tensor R satisfies ∇R = 0, where ∇

– Sum of Q-value spectra of B ∗∗0,+ candidates in all considered decay channels with fit results for the broad structure overlaid and the deviations of these from the fit

We tested our algorithm on 140 subjects with Chronic Obstructive Pulmonary Disease (COPD) and found four distinct, biologically and clinically meaningful combinations of

locationID: C2; continent: Europe; country: Spain; countryCode: ES; stateProvince: Castilla-La Mancha; county: Ciudad Real; locality: Valle Brezoso;

Algunos de los signos clínicos más frecuentemente encontrados en estos síndromes son, el fenómeno de la extremidad ajena, inestabilidad postural inicial con caídas, signos

Confluent HUVECs monolayer in hypoxic conditions was scratched and cells were treated with TR-764, which impairs cell motility.. The ability to move into the wound was measured at

È infatti preferibile, in presenza di un forte apporto immateriale al valore dell’azienda in crisi, una risoluzione privatistica che comporta la rinegoziazione informale