en el desarrollo de orpus interpretados lingusti amente
M. Civity, A. Agenoz, B. Navarroy, N. Bufy, M.A. Marty
yCLiC Centre de Llenguatge i Computa io
Adolf Florensa s/n (Torre Florensa)08028 Bar elona
f ivit,nuriag li .l.ub.es;amartil.ub.es
zTALP Resear h Centre (UPC)
Jordi Gironan o
3 08034 Bar elona
agenolsi.up .es
y Departamentode Lenguajes y Sistemas Informati os
Universidadde Ali anteCampus de San Vi entedel Raspeig
Apartado 99.03080 Ali ante
borjadlsi.ua.es
Resumen: El objetivo de este trabajo espresentar un analisis ualitativo y
uan-titativo de las dis repan iasentre anotadores enel etiquetadosinta ti o del orpus
Cast3LB. Paraelloseha denidoun orpusdeprueba demilora ionesquehasido
etiquetado paralelamente por in o anotadores. Se han realizado su esivas
evalua- iones de los resultados que han dado lugar a otras tantas mejoras de la gua de
anota ion hasta su version denitiva. En una ultima fase, se analizan
ualitativa-menteyse lasi an lasdis repan iasentre anotadores.
Palabras lave:Anota ion sinta ti a, orpus,a uerdo entre anotadores.
Abstra t: The maingoal of this work is to present a qualitative and quantitative
analysis of disagreements among annotators during the synta ti labeling of the
Cast3LB orpus. To do so, a one-thousand-senten e orpus has been established
and ithasbeenannotatedbyveannotators.Conse utiveevaluationsoftheresults
havebeendoneandhave ledtosu esiveimprovementsoftheguidelines.Inthelast
phase, we present the qualitative analysis and the lassi ation of the dieren es
among annotators.
Keywords: Synta ti annotation, orpus,annotators' agreement.
1. Introdu ion
Elobjetivodeestetrabajoespresentarun
analisis ualitativo y uantitativo de las
dis- repan ias entre anotadores en el etiquetado
sinta ti o del orpus Cast3LB. Este orpus,
que a tualmente esta en fase de desarrollo
dentro del proye to general 3LB, onsta de
100 000 palabras en espa~nol,de las ualesse
haetiquetadoyaanivelsinta ti omasdeun
25 por iento.
El desarrollo de orpus interpretados
lingusti amente(Treebanks) valigado atres
elementos: el desarrollo de sistemas
au-tomati os para el analisis sinta ti o; la
es-pe i a ion de esquemas de anota ion,
da-do que debe imponerse un analisis
on-sistente de los datos; y la rea ion de
metri as para uanti ar la pre ision en
Este trabajo ha sido par ialmente nan iado por
losproye tosPROFIT(FIT-150500-2002-244) y
X-el analisis. Por lo general, estas metri as,
uyas primeras deni iones apare ieron en
los workshops Parseval, uanti an el
gra-do de pre ision de un ierto analisis
respe -to de un gold-estandard preestable ido y se
han utilizado prin ipalmente para omparar
distintos sistemas de analisis sobre un
mis-mo orpus de referen ia. El objetivo de
es-tas metri as es propor ionar datos sobre la
similitud entre los analisis, pero en ningun
aso propor ionan informa ion sobre la
lo aliza ion de los desa uerdos ni sobre la
naturaleza delos mismos.
La problemati a deletiquetado de orpus
es ompleja. Por una parte, porque las
expresiones lingusti as que apare en en los
orpus(re ejodelusodelalengua)plantean
problemasquemu hasve esnoseven
re eja-dosenlasgramati asoqueapare entratados
orre tas. Por ultimo, ada individuo tiene
su propia on ep ion del lenguaje y lo
interpreta de una forma determinada.
Dadoque lalabordeanota ion de orpus
esuntrabajode equipoesimportante poder
evaluarelgradode onsisten iaenlosanalisis
propor ionados pordistintos anotadores. La
onsisten iaenlaanota ionesne esariapara
queaumentela alidaddel orpusas omosu
utilidadtantoparaelentrenamientoytestde
sistemasdeanalisisautomati o, omoparala
investiga ion lingusti a.
Porotra parte,hasta ahora, seha
presta-do po a aten ion a otro elemento que
inter-viene en eldesarrollo de los Treebanks yque
ha e referen ia a la apa idad de los
anota-dores paraelanalisissinta ti o: how
pre ise-ly an human beings analyse language
stru -ture? (SampsonyBabar zy,2003).
Hasta la fe ha, no hay estudios en
pro-fundidad sobre la onsisten ia entre
anota-doresanivelsinta ti o 1
,aunquepuede
men- ionarse el trabajo de Brants (2000) sobre
el a uerdo entre anotadores en el proye to
NEGRA (Brants, Skut, y Uszkoreit, 2003).
En laa tualidadG. SampsonyA.Babar zy
estan llevando a abo un experimento para
valorar ualitativementelasdis repan ias
en-treanotadores,sobre unfragmentodelBNC,
utilizando elesquema de anota ion dise~nado
para el orpus SUSANNE (vease, para mas
detalles, SampsonyBabar zy (2003)).
Como indi an Sampson y Babar zy
(2003), existe un lmite en la apa idad
hu-mana para analizar on pre ision su propia
lengua y, por onsiguiente, existe un lmite
en la pre ision de la anota ion humana.
As, en la onstru ion de un orpus
anota-do lingusti amente,elobjetivoesminimizar
este margen de desa uerdo entre anotadores
y a er arse a este lmite todo lo posible.No
debe olvidarse que el modo en que los
hu-manosresolvemosestas uestiones onstituye
el riterio de referen ia para el analisis
au-tomati o del lenguaje.
Eneste trabajosepresenta unestudio
so-breela uerdoentrelosanotadoresdel orpus
Cast3LBa nivelsinta ti o.
Para poder llevar a abo este estudio,
se han analizado 1000 ora iones por parte
1
S hay trabajos sobre la onsisten ia en la
anota ionsemanti a(Veronis,2000)ylamorfologi a
vas ( f. se ion 3). Se ha desarrollado en
paralelo una gua de anota ion (Civit,2002)
que in luye una des rip ion del etiquetario
utilizado as omo una detallada asusti a
de los problemas que pueden surgir y de las
solu ionesquedebenadoptarseen ada aso.
El primer objetivo de este trabajo es
es-tudiar, desde un punto de vista
uantitati-vo, el a uerdo que existe entre anotadores
en el etiquetado sinta ti o a nivel de
onsti-tuyentessiguiendolaapli a ionde laguade
anota ion. Conello seobtienenmedidasque
uanti anelgrado de a uerdo y,portanto,
la onsisten iaenlaanota ion.Consideramos
que unos resultados superiores al 90% son
a eptables para onsiderar que la anota ion
quepropor ionamosesunaanota ion
onsis-tenteyque,portanto, lautilidaddel orpus
queda onsolidada(vease lase ion 3).
Elsegundo objetivo de estetrabajo es
es-tudiar el a uerdo entre anotadores desde un
punto de vista ualitativo, on la nalidad
de lasi aryanalizarlos asos on retos de
dis repan ias.Seguimosparaellola
propues-ta de Sampson y Babar zy (2003) (vease la
se ion 4).
Antesdeentrarenlas ompara ionesyde
presentar los resultados, presentamos
breve-mente el proye to en el que se enmar a el
trabajoas omo los riteriosbasi osde
ano-ta ion (se ion 2).
2. El proye to Cast3LB
El proye to Cast3LB forma parte de un
proye to mas amplio, 3LB, uyo objetivo
es onstruir tres orpus anotados on
in-forma ion lingusti a, uno para el euskera
(Eus3LB), otro para el atalan (Cat3LB) y
otro parael astellano(Cast3LB).
Por lo que respe ta a Cast3LB, la
infor-ma ion que se esta etiquetando orresponde
a los siguientes uatro nivelesde des rip ion
lingusti a 2
:
Nivel de forma sinta ti a, en el que se
parentizanyetiquetanlos onstituyentes
sinta ti os;
Nivel de fun ion sinta ti a, en el que
se etiqueta la fun ion de los prin ipales
onstituyentesde adaora ion;
2
ta el sentido desambiguado de las
pal-abras (nombres, adjetivos, verbos y
al-gunosadverbios) a partirde
EuroWord-Net;
Nivelpragmati o, enelqueseetiquetan
lasprin ipalesanaforasyelementos
or-referen ialesdel orpus,as omosus
an-te edentes( adenas de orreferen ia).
El orpus de Cast3LB esta formado por
75.000 palabras extradas del orpus
CLIC-TALP(Civit,Castellon,yMart,2001){que,
a suvez,es unfragmento del orpusLexEsp
(Sebastian et al., 2000){, y 25.000 palabras
pro edentes de un orpus de noti ias edido
porlaAgen iaEfe.
El fragmento orrespondiente al orpus
CLiC-TALP onsta de textos de
pro eden- iamuyheterogenea(periodsti os,literarios,
ient os,et .),extradosdediferenteszonas
de habla hispana(tanto de Espa~na omo de
Hispanoameri a), lo que lo onvierte en un
orpus representativo de la situa ion a tual
delespa~nol.Este orpus,ademas,esta
anota-do on informa ion morfologi a (PoS) 3
y ha
sido validado manualmente, lo que nos
per-mite partir ya de un analisis lingusti o
or-re to.Noo urrelomismo on lasnoti iasde
la Agen iaEfe, porqueel pro eso de
desam-bigua ion morfologi a ha sido automati o y
no se ha validado. Esta parte del orpus es
omparable, en uanto al ontenido, on los
orpusqueseestan utilizandoenelproye to
parael atalan yeleuskera.
2.1. Anota ion sinta ti a de
Cast3LB
La anota ion sinta ti a del orpus
Cast3LB se lleva a abo en dos fases: en
la primera se parentizan y etiquetan los
prin ipales onstituyentes de la ora ion,
mientras que en la segunda se asignaa ada
uno de los onstituyentes prin ipales una
etiquetade fun ion sinta ti a.
Losprin ipiosbasi osparalaprimerafase
de esta anota ion sonlos siguientes 4
:
Solo se etiquetan los elementos
ex-pl itosde las ora iones.Sin embargo, y
3
Vease(Civit, Castellon,yMart,2001)
4
Estosprin ipiosgeneralesdeanota ionsinta ti a
apare en ondetalleen(CivityMart,2002)y(Civit
etal.,2003)ysonlosmismosqueseapli anal orpus
anota ion de adenas de orreferen ia 5
hemos optado por introdu ir un nodo
espe ialpara los sujetos elpti osde las
ora ionesnitas.Enloreferenteala
elip-sisverbal,lamar amosa~nadiendoun
su-jo (*)a las etiquetasde las ora iones.
El orden de apari ion de los elementos
en la ora ion no se altera. El espa~nol
es una lengua de orden libre porlo que
respe ta a los onstituyentes de la
ora ion, de tal manera que el orden
es-pe o enelqueapare enen laora ion
responde a motiva iones diversas de
ara ter fun ional o omuni ativo. Por
ello,alterarelordendeloselementos
sig-ni aralaperdidade esta informa ion.
Se ha seguidoun esquema de anota ion
basadoen onstituyentes, frenteala
op- ion de anota ion de dependen ias.
Se ha tratado que el etiquetado sea lo
mas neutro posible, sin seguir ninguna
teora lingusti a niningun mar ote
ori- o on reto. Esta de ision se tomo on
el proposito de que el orpus anotado
fuera apto para llevar a abo
investiga- ioneslingusti asy omputa ionalessin
ningun tipo de restri ion.
Para realizar la anota ion sinta ti a
par-timos del orpus previamente analizado y
desambiguado morfologi amente y on
ano-ta ionde hunks ,de modoqueeltrabajode
los anotadoresseha entrado enla
onstru - ion de los onstituyentes de las ora iones
(parentiza ion) y en la asigna ion de la
eti-queta sinta ti a orre ta. Para fa ilitar esta
labor, utilizamos una interfaz de anota ion
(Cotton yBird, 2000)quepermitelaadi ion
y borrado de nodos, el ambio de etiquetas,
nuevosnivelesde anidamiento,et .
El numero de etiquetas que utilizamos
para los onstituyentes es de 91, algunas de
las ualesapare enenelanexo1delart ulo.
3. Compara ion: analisis
uantitativo
No existiendo medidas espe as para
la ompara ion uantitativa del a uerdo
en-tre anotadores, se ha de idido usar
al-guna de las metri as utilizadas para la
evalua ion de gramati as y/o metodos de
rigurosaalahoradedesarrollaranalizadores
de amplia oberturaes laramente
re ono i-da. Queda fuera del al an e de este art
u-lo entrar a des ribir en detalle los
difer-entessistemas de evalua ion(se pueden
on-sultar por ejemplo dos ex elentes revisiones
de los diferentes metodos denidos a
par-tir de 1991, (Carroll, Bris oe, y
Sanlip-po, 1998) y (Bangalore et al., 1998)). En
nuestro aso,sehade ididoutilizarlasquese
pueden onsiderarlasprimerasmedidas
obje-tivas,lasdenidasenlos workshopsParseval
(Bla k et al., 1991), para evaluar sint
a ti a-menteanalizadoresdeamplia oberturapara
el ingles. Aun no siendo ex lusivo, su uso
esta bastante estandarizado para la
evalu-a ion de gramati as y/o metodos de an
ali-sis, omparandolasimilituddelosresultados
obtenidos on los arboles de analisis de
ref-eren ia(lospreviamente onsiderados
orre -tos,queen inglesse ono en omogold
stan-dard). Estas medidas de similitud se basan
en la ompara ion de los onstituyentes de
ambosarboles de analisis,tanto enlo quese
reere a sus lmites (punto de ini io y nal
enlafrase), omoasuetiqueta.Lasmedidas
on retas que se han utilizado se denen a
ontinua ion:
Ratio de Pre ision Etiquetada
(Labelled Pre ision Rate): Numero de
onstituyentes del arbol de analisis
evaluado que oin iden ompletamente
(tanto suslmites omosuetiqueta) on
algun onstituyentedelarbolde analisis
dereferen ia,divididoporelnumero
to-talde onstituyentesdelarboldeanalisis
evaluado.
Ratio de Pre ision Parentizada
(Bra keted Pre ision Rate): Numero de
onstituyentes del arbol de analisis
evaluado uyos lmites oin iden on
los de algun onstituyente del arbol de
analisis de referen ia, dividido por el
numerototalde onstituyentesdelarbol
de analisisevaluado.
Ratio de Cobertura Etiquetada
(Labelled Re all Rate): Numero de
onstituyentes del arbol de analisis
evaluado que oin iden ompletamente
(tanto suslmites omosuetiqueta) on
algun onstituyente delarbolde analisis
de referen ia.
Ratio de Cobertura Parentizada
(Bra ketedRe allRate):Numerode
on-stituyentesdelarboldeanalisisevaluado
uyoslmites oin iden on los de algun
onstituyentedelarboldeanalisisde
ref-eren ia,dividido porelnumero total de
onstituyentes del arbol de analisis de
referen ia.
Ratio de Cobertura de Parentesis
Consistentes(Consistent Bra kets
Re- allRate):Numerode onstituyentesdel
arbol de analisis evaluado uyos lmites
no se ruzan on los lmitesde ninguno
delos onstituyentesdelarboldeanalisis
dereferen ia, divididoporelnumero
to-tal de onstituyentes delarbolde an
ali-sis de referen ia. Se onsidera que un
onstituyente on lmites [i;j℄ se ruza
on otro onstituyente on lmites[i 0 ;j 0 ℄ si i < i 0 <= j < j 0 , es de ir, si los
lmites se solapan pero ningun
onsti-tuyenteesta in luido ompletamente en
elotro.
En otras palabras, la obertura indi a la
propor ion de onstituyentes orre tos que
son planteados omo hipotesis,mientras que
la pre ision evalua la propor ion de
onsti-tuyentes planteados omo hipotesis que son
orre tos. A su vez, las dos medidas
paren-tizadas son menosestri tas, pues onsideran
uni amentelas palabrasde lafraseque
abar- an los onstituyentes, ignorandola etiqueta
quetienenasignada. En uanto ala
obertu-ra de parentesis onsistentes, es aun menos
estri ta, pues tieneen uenta solo la
propor- ionde onstituyentesdelarbolevaluadoque
son in onsistentes on elarbolde referen ia,
esde ir,quenun apodranestarenelmismo
arbolde analisis.
Se ha de tener en uenta que, en
nuestro aso, no estamos evaluando la
ano-ta ion propor ionada por un ierto metodo
de analisis,sino omparando lasanota iones
realizadas por dos linguistas. Por lo tanto,
ninguno de los dos analisis que se omparan
se pueden onsiderar de referen ia, no
ex-iste un gold standard. Por ello hemos
de i-dido omparar los analisis en los dos
senti-dos(analisisdelprimerlinguista onanalisis
del segundo, y vi eversa), y onsiderar
medidasdes ritasanteriormente,esto
provo- a que, de alguna forma, los on eptos de
pre ision y obertura dejen de tener
senti-do, y se uniquen en una sola medida de
ompara ion,quedenominaremos
indistinta-mentepre isionetiquetadao parentizada.
La evalua ion uantitativa del a uerdo se
ha efe tuado durante in o fases, a lo largo
de las ualessehanidoresolviendolos
prob-lemasdedesa uerdodes ritosenlase ion4:
1. En laprimera fasese anotaron100
ora- iones y se estable ieron los prin ipios
basi osde laanota ion.
2. Enlasegundafaseseanotaronotras220
ora iones.Delasdis usionessobre el
es-quemade anota ion surgio una primera
version de la gua de anota ion que ya
presentabamasdetallessobreelsistema
adoptado.
3. En la ter era fase se revisaron y
om-pararontodaslasanota ionesanteriores
onelobjetivode omprobarquelagua
no presentaba ambiguedades y que los
anotadores se haban familiarizado ya
on elesquema de trabajo.
4. En la uarta fase se anotaron 670
ora- iones.
5. Laquintafase orrespondealos
resulta-dosdel experimento de evalua ion de la
anota ion des ritoen lase ion 4.
La gura 1 muestra la evolu ion de las
me-didas a lo largo de estas in o fases. L
ogi- amenteel in remento de todas las metri as
es menos a usado a medida que se avanza
en las fases, ex eptuando signi ativamente
el paso de la uarta a la ultima fase. Se
observa ademas que la pre ision etiquetada
llega a mejorar er a de un 27% desde la
faseini ialalanal,lapre isionparentizada
en mas de un 20%, y la onsisten ia en el
parentizado en asi un 15% (obviamente,
uanto menos estri ta es la medida, menor
ha deser lamejoraposible).
Una de las prin ipales dis repan ias
en-tre anotadores que apare io en las primeras
fases de analisis fue la onsidera ion omo
lo u iones o no de estru turas omplejas del
tipo desde que, dar lugar a, a lo largo de,
et ., lo ual afe taba a la longitud de las
frases 6
. Como nuestras medidas toman en
6
Si tales expresiones se onsideraban lo u iones
0
0.2
0.4
0.6
0.8
1
0
1
2
3
4
Medidas obtenidas
Fase de anotacion
Precision etiquetada
Precision parentizada
Parentesis consistentes
Figura 1:Evolu ion de lasmedidas
onsidera ion los puntos de omienzo y
-naliza ionde ada onstituyente, elhe hode
que la longitud de la frase vare impli a un
des enso substan ial de las medidas (mas
a usado uanto mas proximas al prin ipio
de lafraseeste(n)la(s)palabra(s)
onsidera-da(s) diferentemente). Porello,hemos
queri-do evaluar tambien las medidas de a uerdo
obtenidassoloparaaquellasfrases uyas
lon-gitudes soniguales. El uadro 1 muestra
to-dos los resultados obtenidos, in luyendo la
evalua ion de las medidas para el
sub on-junto men ionado (solo a partir de la la 3 a
fase, en la ual se ha dete tado el
desa uer-do en uestion). Considerandosoloeste
sub- onjunto de arboles de analisis, la pre ision
etiquetada llega a mejorar por en ima del
30%, la pre ision parentizada asi un 23%,
y el ratio de parentesis onsistentes en mas
de un16%.Ademas,todoslosvaloresnales
superan holgadamente el 90% de a uerdo,
aproximandonosquizaa eselmiteen la
pre- isiondelaanota iondelquehablabamosen
la introdu ion. P. e. P. p. P. . Fase 1 0.63359 0.72611 0.81072 Fase 2 0.71166 0.80454 0.87124 Fase 3 0.76537 0.84762 0.90487 Fase 4 0.79222 0.85979 0.90821 Fase 5 0.86927 0.90889 0.94958
Frases de igual longitud
Fase 3 0.85672 0.91683 0.95485
Fase 4 0.90155 0.93323 0.96034
Fase 5 0.91529 0.94036 0.96985
dis repan ias
4.1. Tipologa de desavenen ias
Para estudiar y evaluar las
dis repan- ias produ idas entre los anotadores, hemos
seguido la tipologa que presentan Sampson
y Babar zy (2003) segun los uales estas
puedendeberse a uatro motivos:
1. Desa uerdos produ idos por la propia
ambiguedadovaguedaddellenguaje.En
este tipo se in luyen las ambiguedades
deanidamientodelossintagmas
preposi- ionales y de las relativas. Un ejemplo
es el que apare e en el siguiente
sintag-ma, en el que el adjetivo puede
om-plementar al segundo nombre o a los
dos: brillas o part ulas metali as. La
gua de anota ion propor ionaun
rite-rio para etiquetar estas estru turas que
esel de anidarlas en el nodo mas alto a
la izquierda. El desa uerdo surge
uan-dounoomasanotadoresnovenesta
am-biguedad, uandonointerpretanesta
se- uen ia omo unase uen ia ambigua.
2. Desa uerdosprodu idosporaspe tosv
a-gos, por ontradi iones o aren ias de
la gua de anota ion. En este aso, la
estru tura lingusti a esta lara pero la
gua de anota ion no indi a omo debe
etiquetarse.Unejemplodeproblemaque
no estaba in luido en la gua es el del
tratamiento de expresiones omo: (g.
2); otro era la ubi a ion de los signos
de puntua ion que pre eden y siguen a
expresiones omo es de ir, esto es.
3. Desa uerdosprodu idosporaspe tosv
a-gos, ontradi iones o simples aren ias
de la gua de anota ion, pero que no
se pueden subsanar a priori en la gua.
Esteaspe tosereere afenomenos
par-ti ulares que apare en on
determina-dostiposdetextos, ondeterminadas
es-tru turas que por ser po o fre uentes o
muy espe as no pueden apare er en
las guas de anota ion mas que al nal,
uandoelpro esode anota ionya ha
-nalizado.Unejemplolopropor ionanlas
formulasmatemati asoalgunas
onven- iones dependientes del dominio al que
pertene e eltexto.
4. Desa uerdosprodu idosporunerrordel
pueden ir desde el olvido de una
eti-queta hasta lainterpreta ion erroneade
una estru tura sinta ti a. Un ejemplo
del primer aso es el olvido del sujo
. oparalaetiquetade un onstituyente
sintagmati o oordinado;unejemplodel
segundo,lainterpreta ionerroneade
es-tru turas similares, omo las
ompleti-vasylas relativas.
Esta tipologa de errores tiene tambien que
ver on la segmenta ion y la etiqueta ion
de los onstituyentes, ya que mientras el
er-ror debido a la ambiguedad de la lengua
esta estre hamenterela ionado on la
paren-tiza ion, los tres asos restantes estan
rela- ionados on laetiqueta ion.
4.2. Resultados
Parallevara aboelestudio ualitativode
las dis repan ias entre anotadores se pidioa
los in o anotadores del proye to que
ano-taran 33 frases orrespondientes a 1038
pal-abras (31.45 palabras/frase) de un texto de
dominio ient oyque onstituyen el
mate-rial on que se ha evaluado la quinta fase 7
.
Las frases anotadas se ompararonde modo
manual de dos en dos para pro eder a una
lasi a ion de las dis repa ias halladas. El
uadro 2 muestralos resultados:
Tipo 1 Tipo 2 Tipo 3 Tipo 4
25.74% 12.17% 2.39% 59.86%
Cuadro2: Clasi a ionde las dis repan ias
Comosepuedeobservar,elmayornumero
de dis repan ias son debidas a errores de
algun anotador al apli ar los riterios de
la gua (tipo 4) o bien son debidas a
am-biguedadespropiasdelalengua(tipo1).
Am-bos asos son los mas dif iles de ontrolar.
Si bien siempre se puede intentar minimizar
estos errores, nun a se podra llegar a una
anota ion en la que no exista error humano
alguno, y mu ho menos habra un orpus de
lengua real sin ora iones ambiguas. El error
humano, elde mayor por entaje, esta
deter-minado porgran antidad de fa tores
exter-nos:estadodeanimodelanotador, ansan io,
metodologa, et .
7
onsti-dis repan ias del tipo 2, debidas a un error,
omision o ontradi ion en la gua de
ano-ta ion,sonfa ilmente subsanables,ya quela
gua de anota ion de va enrique iendo
on-stantemente.
Porultimo, existenpo osdesa uerdostipo
3,debidosaerroresdelaguadif ilesde
sub-sanar. Su por entaje es bajo porque se dan
po os asosen el orpus.
5. Con lusiones
En este art ulo se ha presentado una
deni ion depautas o modelostanto de
pro- edimiento omo de ontenido para la
ano-ta ion sinta ti a de orpus. Se han
evalua-do los resultadosdelpro esode etiqueta ion
tanto desde un punto de vista uantitativo
omo ualitativo. Este ultimo aspe to es
es-pe ialmenterelevante,yaquehastaahorano
ha re ibido una aten ion espe ial y sin
em-bargoresultaesen ialparagarantizarla
on-sisten ia en la anota ion, que es lo que
pro-por iona alidadal orpusanotado.
Bibliografa
Babar zy,A.,J.Carroll,yG.Sampson. 2001.
Annotator error rates for part-of-spee h
tagging. EnLINC2001,at34thSLE,
Leu-ven.
Bangalore, S., A. Sarkar, C. Doran, y B.A.
Ho key. 1998. Grammar &
Pars-er Evaluation in the XTAG Proje t.
En Pro eedings of the First Conferen e
on Language Resour es and Avaluation.
LREC'98, Granada.
Bla k, E., S. Abney, D. Fli kinger,
C. Gdanie , R. Grishman, P.
Harri-son, D. Hindle, R. Ingria, F. Jelinek,
J. Klavans, M. Liberman, M. Mar us,
S. Roukos, B. Santorini, yT.
Strzalkows-ki. 1991. A Pro edure forQuantitatively
Comparing the Synta ti Coverage of
EnglishGrammars. EnPro eedings of the
Spee h and Natural Language Workshop,
paginas 306{311, Pa i Grove, CA.
DARPA.
Brants, T. 2000. Inter Annotator
Agree-ment for a German Newspaper Corpus.
EnPro eedingsof theSe ond
Internation-al Conferen e on Language and
Evalua-tion LREC-2000,Athens, Gree e.
Brants, T., W. Skut, y H. Uszkoreit. 2003.
editor, Building and Using
synta ti- ally annotated orpora, Language and
Spee h. Kluwer, Dordre ht. disponible:
http://treebank.linguist.jussieu.fr/to .html.
Carroll,J.,T.Bris oe,yA.Sanlippo. 1998.
Parser Evaluation: a Survey and a New
proposal. En Pro eedings of the First
Conferen e on Language Resour es and
Avaluation. LREC'98, paginas 447{454,
Granada.
Civit, M. 2002. Gua para la
ano-ta ion sinta ti a de Cast3LB: un
or-pus del espa~nol on anota ion sint
a ti- a, semanti a y pragmati a.
In-formeTe ni oX-Tra t-IIWP-02/01,3LB
WP 02-01, Universitat de Bar elona.
disponible: http://www.lsi.up .es/
iv-it/publi a ions.html.
Civit, M., I. Castellon, y M.A. Mart.
2001. Crea ion, etiqueta ion y
de-sambigua ion de un orpus de
refer-en ia del espa~nol. Pro esamiento del
LenguajeNatural,(27):21{28,Septiembre.
disponible: http://www.lsi.up .es/
iv-it/publi a ions.html.
Civit, M. y M.A. Mart. 2002.
De-sign Prin iples for a Spanish Treebank.
En Pro eedings of the First Workshop
on Treebanks and Linguisti s Theories
(TLT2002), paginas61{77, September.
Civit, M., M.A. Mart, B.Navarro, N. Buf,
B. Fernandez, y R.Mar os. 2003. Issues
in the Synta ti Annotation of Cast3LB.
EnPro eedings of the LINC03 Workshop,
Budapest.
Cotton, S. y S. Bird. 2000. An
in-tegrated Framework for Treebanks and
Multilayer Annotations. En Pro eedings
of the Se ond International Conferen e
on Language and EvaluationLREC-2000,
Athens, Gree e.
Navarro, B., M. Civit, M.A. Mart,
B. Fernandez, y R. Mar os. 2003.
Synta ti , semanti and pragmati
anno-tationin Cast3LB. En Pro eedings of the
CorpusLinguisti s, Lan aster.
Sampson, G. y A. Babar zy. 2003. Limits
to annotation pre ision. En Pro eedings
Lin-paginas61{68, Budapest.
Sebastian, N., M.A. Mart, M.F. Carreiras,
y F. Cuetos. 2000. LEXESP: Lexi o
In-formatizado del Espa~nol. Edi ions de la
Universitatde Bar elona.
Veronis, J. 2000. Sense Tagging: don't
look for the meaning but for the use.
En Computational Lexi ography and
Mul-timedia Di tionaries, COMLEX, paginas
1{9, Kato A hia, Gree e. disponible:
http://www.up.univ-mrs.fr/veronis/.
onstituyentes
ora ion S
subord. ompletiva S.F.C
subord.adjetiva S.F.R
subord.adverbial S.F.A
subord.adv. omparativa S.F.AComp
subord.adv. ondi ional S.F.ACond
subord.adv. on esiva S.F.ACon
subord.adv. onse utiva S.F.ACons
Cuadro3:Etiquetasparalasora ionesnitas
subor. ompletiva S.NF.C
subor.adjetiva S.NF.P
subor.absoluta S.NF.PA
subor.relativa S.NF.R
subor.adverbial S.NF.A
Cuadro 4: Etiquetas para las ora iones no
nitas
Lasetiquetas paralas ora iones puede
ll-evar ademas los sujos * si tienen el verbo
elpti oy. o sisonestru turas oordinadas.
sn sintagmanominal
gv grupoverbal
sp sintagmapreposi ional
sadv sintagmaadverbial
sa sintagmaadjetivo
onj.subord onjun ionsubordinante
oord onjun ion oordinante
innitiu verboeninnitivo
gerundi verboengerundio
interje io interje ion
neg adverbiodenega ion
morfema.verbal SE(impers./pasivo)
morf.pron otrosusos
Cuadro 5: Etiquetas para los prin ipales
onstituyentesora ionales
Las in o primerasetiquetas del uadro 5
pueden apare er tambien on el sujo. o si