Linguistica computazionale e treebank
Cristina Bosco
Corso di Informatica applicata alla comunicazione multimediale
2016-2017
Il progetto Turin University Treebank
• Obiettivo:
sviluppare una risorsa linguistica,
una banca di alberi sintattici per
l’italiano
Fasi di sviluppo del progetto
• Selezione dei testi da annotare
• Definizione dello schema di annotazione
• Applicazione dello schema al corpus di
testi (validità e consistenza)
Selezione di testi in TUT
• Giornali quotidiani (1.100 frasi = 18,044 tokens)
• Codice civile (1.100 frasi = 28,048 tokens)
• Acquis (201 frasi = 7,455 tokens)
• Wikipedia (459 frasi = 14,746 tokens)
• Costituzione Italiana, intera (682 frasi = 13,178 tokens)
• Totale 3.452 frasi = 102.000 token
TEXTS from PRAGUE
newspapers, scientific andeconomic journals
NEGRA
newspaper Frankfurter RundschauPENN
IBM manuals, nursing notes,newspapers (Wall Street Journal), telephone conversations
Selezione in altri treebank
Definizione dello schema di annotazione
• Scelta del formalismo
• Scelta delle informazioni e
strutture da rappresentare
Struttura sintattica: scelta tra 2 aspetti
• L’organizzazione delle unitá della frase (sintagmi e constituent structure)
• La funzione degli elementi della frase (relazioni grammaticali e relational
structure)
Relational structure
• Le parole della frase svolgono funzioni diverse
• Le funzioni sono espresse in
termini di relazioni grammaticali
Constituent structure
Le parole della frase sono organizzate
in unità (costituenti) che a loro volta
sono oggetto di una organizzazione
(constituent structure) in unità più
grandi
Constituent structure
Le relazioni tra le parole non sono tutte uguali:
“Maria leggeva un libro in biblioteca”
ES: Penn annotation
( S
( NP - SBJ (PRP I) )
( ADVP - TMP ( RB never) ) ( VP (VBD had)
( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) ))
NP
VP
NP ADVP
NP S
SBJ
TMP
PRP
RB VBD
NNS DT
NN DT
ADV
ES: NEGRA annotation
S VP
HD SB NG
MO HD OA
OC
ADV VVPP VAFIN NE NE ADV
Costituenti e relazioni
•La struttura relazionale include le informazioni relative all’
organizzazione della frase in unità
•La struttura a costituenti non include le informazioni relative alla funzione delle parole
•La struttura relazionale è più compatta
• Sia le relazioni che i costituenti sono realizzati in modo diverso nelle
diverse lingue
• La struttura relazionale include la struttura argomentale
Costituenti e relazioni
La struttura argomentale
• relazioni grammaticali
• ruoli semantici
• uguali o distinti?
Le relazioni grammaticali
• Le relazioni sono realizzate
diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni
give someone something
dare a qualcuno qualcosa
MORPHO SYNT SEM PRAGUE
semi-automat ic
semi-
automatic semi-
automatic
NEGRA
automatic interactive (probabilisti c)PENN
automatic automatic (skeletal)Processo di annotazione
Processo di annotazione in TUT
• Part Of Speech tagging automatico
• Correzione manuale del tagging
• Parsing interattivo
• Verifica e revisione
Costruire un treebank
Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.
Infatti è dimostrato che i sistemi di NLP
che ottengono i migliori risultati sono
quelli che prendono le informazioni da
treebank)
Costruire un treebank
Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.
È impossibile costruire treebank in modo esclusivamente manuale per motivi di
tempo e di correttezza.
Costruire un treebank
In pratica l’annotazione dei treebank è prodotta da
sistemi automatici di analisi morfologica (- 4% errore) e sintattica (-10% errore)
+
annotatori umani che correggono le analisi
prodotte in modo automatico
Ogni relazione di TUT può essere composta di 3 elementi:
• Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, …
• Funzionale-sintattico: relazioni sintattiche come Subject, Object
• Semantico: relazioni semantiche come Location, Time, Cause
Le dipendenze nel TUT
1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF- ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]
8 il (IL ART DEF F SING) [7;VERB-OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING
FALLIRE INTRANS) [8;DET+DEF-ARG]
La nazione sogna ricchezza
I sogni di ricchezza della nazione
Velocemente / in modo veloce
VERB-SUBJ
NOUN-OBJ NOUN-SUBJ VERB-OBJ
VERB
NOUN
ADV-role ADV-role
TUT Componente
morfo-sintattica
TUT Componente
morfo-sintattica
• Dati 944 differenti Verbi per un totale di 4.169 occorrenze nel corpus di TUT
• Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale
TUT Componente
morfo-sintattica
Egli non è stato visto da nessuno Egli non è stato visto da ieri
ARG MOD
TUT Componente
funzionale-sintattica
TUT Componente
funzionale-sintattica
Da qui è partito l’assalto
Succedeva dall’altra parte del mondo I miliardi stanziati dal 1991
Era impazzito dal dolore
Trarrà beneficio dalla bonifica LOC+FROM
LOC+IN
TIME
REASONCAUSE SOURCE
TUT Componente
semantica
TUT Componente
semantica
• Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di
modificatori
• È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici:
LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE
TUT Componente
semantica
1 In (IN PREP MONO) [7;PREP-RMOD-TIME]
2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]
3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF- ARG]
4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]
5 la (IL ART DEF F SING) [4;APPOSITION]
6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]
7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]
8 il (IL ART DEF F SING) [7;VERB-OBJ]
9 fallimento (FALLIMENTO NOUN COMMON M SING
FALLIRE INTRANS) [8;DET+DEF-ARG]
Applicare lo schema di annotazione a TUT significa che ogni sua frase:
• viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con
• corretta da almeno 2 annotatori umani TUT
• verificata da tool automatici appositi
• sottoposta a conversioni e applicazione di
altri sistemi
Ricadute del progetto TUT
Utilizzo in 3 diverse direzioni:
• Come raccolta di dati linguistici
• Come banco di prova per sistemi di NLP
• Come modello per lo sviluppo di altre
risorse
• Come raccolta di dati linguistici TUT ha consentito
• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)
• Studio dell’ordine delle parole nella lingua italiana
Ricadute del progetto TUT
(in 3500 sentences)