Linguis'ca computazionale e treebank
Cris%na Bosco
Corso di Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
Il proge=o Turin University Treebank
• ObieFvo:
sviluppare una risorsa linguis%ca,
una banca di alberi sintaFci per
l’italiano
Fasi di sviluppo del proge=o
• Selezione dei tes% da annotare
• Definizione dello schema di annotazione
• Applicazione dello schema al corpus di
tes% (validità e consistenza)
Selezione di tes' in TUT
• Giornali quo%diani (1.100 frasi = 18,044 tokens)
• Codice civile (1.100 frasi = 28,048 tokens)
• Acquis (201 frasi = 7,455 tokens)
• Wikipedia (459 frasi = 14,746 tokens)
• Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)
• Totale 3.452 frasi = 102.000 token
TEXTS from
PRAGUE newspapers, scientific and economic
journals
NEGRA newspaper Frankfurter Rundschau
PENN IBM manuals, nursing notes,
newspapers (Wall Street Journal), telephone conversations
Selezione in altri treebank
Definizione dello schema di annotazione
• Scelta del formalismo
• Scelta delle informazioni e
stru=ure da rappresentare
Stru=ura sintaFca: scelta tra 2 aspeF
• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)
• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal
structure)
Rela%onal structure
• Le parole della frase svolgono funzioni diverse
• Le funzioni sono espresse in
termini di relazioni gramma%cali
Cons%tuent structure
Le parole della frase sono organizzate
in unità (cos%tuen%) che a loro volta
sono ogge=o di una organizzazione
(cons%tuent structure) in unità più
grandi
Cons%tuent structure
Le relazioni tra le parole non sono tu=e uguali:
“Maria leggeva un libro in biblioteca”
ES: Penn annota'on
( S
( NP -‐ SBJ (PRP I) )
( ADVP -‐ TMP ( RB never) ) ( VP (VBD had)
( NP (JJ many) (NNS clients) ) ( NP -‐ ADV (DT a) ( NN day) )) ))
NP
VP
NP ADVP
NP S
SBJ
TMP
PRP
RB VBD
NNS DT
NN DT
ADV
ES: NEGRA annota'on
S VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
Cos%tuen% e relazioni
• La stru=ura relazionale include le informazioni rela%ve all’
organizzazione della frase in unità
• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole
• La stru=ura relazionale è più compa=a
• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle
diverse lingue
• La stru=ura relazionale include la stru=ura argomentale
Cos%tuen% e relazioni
La stru=ura argomentale
• relazioni gramma%cali
• ruoli seman%ci
• uguali o dis%n%?
Le relazioni gramma%cali
• Le relazioni sono realizzate
diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni
give someone something
dare a qualcuno qualcosa
MORPHO SYNT SEM
PRAGUE semi-
automatic semi-
automatic semi-
automatic
NEGRA automatic interactive
(probabilistic)
PENN automatic automatic
(skeletal)
Processo di annotazione
Processo di annotazione in TUT
• Part Of Speech tagging automa%co
• Correzione manuale del tagging
• Parsing interaFvo
• Verifica e revisione
Costruire un treebank
Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.
InfaF è dimostrato che i sistemi di NLP
che o=engono i migliori risulta% sono
quelli che prendono le informazioni da
treebank)
Costruire un treebank
Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.
È impossibile costruire treebank in modo esclusivamente manuale per mo%vi di
tempo e di corre=ezza.
Costruire un treebank
In pra%ca l’annotazione dei treebank è prodo=a da
sistemi automa%ci di analisi morfologica (-‐4% errore) e sintaFca (-‐10% errore)
+
annotatori umani che correggono le analisi
prodo=e in modo automa%co
Ogni relazione di TUT può essere composta di 3 elemen%:
• Morfo-‐sintaFco: features che esprimono la categoria gramma%cale Verb, Noun, …
• Funzionale-‐sintaFco: relazioni sintaFche come Subject, Object
• Seman%co: relazioni seman%che come Loca%on, Time, Cause
Le dipendenze nel TUT
1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐
ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET +DEF-‐ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]
8 il (IL ART DEF F SING) [7;VERB-‐OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING
FALLIRE INTRANS) [8;DET+DEF-‐ARG]
La nazione sogna ricchezza