Linguis’ca computazionale e treebank

(1)

Linguis'ca computazionale e treebank

Cris%na Bosco

Corso di Informa%ca applicata alla comunicazione mul%mediale

2016-‐2017

(2)

Il proge=o Turin University Treebank

• ObieFvo:

sviluppare una risorsa linguis%ca,

una banca di alberi sintaFci per

l’italiano

(3)

Fasi di sviluppo del proge=o

• Selezione dei tes% da annotare

• Deﬁnizione dello schema di annotazione

• Applicazione dello schema al corpus di

tes% (validità e consistenza)

(4)

Selezione di tes' in TUT

•  Giornali quo%diani (1.100 frasi = 18,044 tokens)

•  Codice civile (1.100 frasi = 28,048 tokens)

•  Acquis (201 frasi = 7,455 tokens)

•  Wikipedia (459 frasi = 14,746 tokens)

•  Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)

•  Totale 3.452 frasi = 102.000 token

(5)

TEXTS from

PRAGUE newspapers, scientific and economic

journals

NEGRA ^newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes,

newspapers (Wall Street Journal), telephone conversations

Selezione in altri treebank

(6)

Deﬁnizione dello schema di annotazione

• Scelta del formalismo

• Scelta delle informazioni e

stru=ure da rappresentare

(7)

Stru=ura sintaFca: scelta tra 2 aspeF

• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)

• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal

structure)

(8)

Rela%onal structure

• Le parole della frase svolgono funzioni diverse

• Le funzioni sono espresse in

termini di relazioni gramma%cali

(9)

Cons%tuent structure

Le parole della frase sono organizzate

in unità (cos%tuen%) che a loro volta

sono ogge=o di una organizzazione

(cons%tuent structure) in unità più

grandi

(10)

Cons%tuent structure

Le relazioni tra le parole non sono tu=e uguali:

“Maria leggeva un libro in biblioteca”

(11)

ES: Penn annota'on

( S

( NP -‐ SBJ (PRP I) )

( ADVP -‐ TMP ( RB never) ) ( VP (VBD had)

( NP (JJ many) (NNS clients) ) ( NP -‐ ADV (DT a) ( NN day) )) ))

NP

VP

NP ADVP

NP S

SBJ

TMP

PRP

RB VBD

NNS DT

NN DT

ADV

(12)

ES: NEGRA annota'on

S VP

HD SB NG

MO HD OA

OC

ADV VVPP VAFIN NE NE ADV

(13)

Cos%tuen% e relazioni

• La stru=ura relazionale include le informazioni rela%ve all’

organizzazione della frase in unità

• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole

• La stru=ura relazionale è più compa=a

(14)

• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle

diverse lingue

• La stru=ura relazionale include la stru=ura argomentale

Cos%tuen% e relazioni

(15)

La stru=ura argomentale

• relazioni gramma%cali

• ruoli seman%ci

• uguali o dis%n%?

(16)

Le relazioni gramma%cali

• Le relazioni sono realizzate

diversamente nelle varie lingue, a seconda dell’uso di casi, inﬂessioni

give someone something

dare a qualcuno qualcosa

(17)

MORPHO SYNT SEM

PRAGUE ^semi-

automatic semi-

automatic

NEGRA ^automatic interactive

(probabilistic)

PENN automatic automatic

(skeletal)

Processo di annotazione

(18)

Processo di annotazione in TUT

• Part Of Speech tagging automa%co

• Correzione manuale del tagging

• Parsing interaFvo

• Veriﬁca e revisione

(19)

Costruire un treebank

Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.

InfaF è dimostrato che i sistemi di NLP

che o=engono i migliori risulta% sono

quelli che prendono le informazioni da

treebank)

(20)

Costruire un treebank

Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.

È impossibile costruire treebank in modo esclusivamente manuale per mo%vi di

tempo e di corre=ezza.

(21)

Costruire un treebank

In pra%ca l’annotazione dei treebank è prodo=a da

sistemi automa%ci di analisi morfologica (-‐4% errore) e sintaFca (-‐10% errore)

+

annotatori umani che correggono le analisi

prodo=e in modo automa%co

(22)

Ogni relazione di TUT può essere composta di 3 elemen%:

•  Morfo-‐sintaFco: features che esprimono la categoria gramma%cale Verb, Noun, …

•  Funzionale-‐sintaFco: relazioni sintaFche come Subject, Object

•  Seman%co: relazioni seman%che come Loca%on, Time, Cause

Le dipendenze nel TUT

(23)

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐

ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET +DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING

FALLIRE INTRANS) [8;DET+DEF-‐ARG]

(24)

(25)

(26)

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce VERB-‐SUBJ

NOUN-‐OBJ NOUN-‐SUBJ VERB-‐OBJ

VERB

NOUN

ADV-‐role ADV-‐role

TUT Componente

morfo-‐sinta\ca

(27)

TUT Componente

morfo-‐sinta\ca

(28)

•  Da% 944 diﬀeren% Verbi per un totale di 4.169 occorrenze nel corpus di TUT

•  Il 30% di ques% Verbi (e le stru=ure predica%ve argomentali ad essi associate) risulta presente anche in forma nominale

TUT Componente

morfo-‐sinta\ca

(29)

Egli non è stato visto da nessuno Egli non è stato visto da ieri

ARG MOD

TUT Componente

funzionale-‐sinta\ca

(30)

TUT Componente

funzionale-‐sinta\ca

(31)

Da qui è par%to l’assalto

Succedeva dall’altra parte del mondo

I miliardi stanzia% dal 1991

Era impazzito dal dolore

Trarrà beneﬁcio dalla boniﬁca LOC+FROM

LOC+IN

TIME

REASONCAUSE SOURCE

TUT Componente

seman'ca

(32)

TUT Componente

seman'ca

(33)

•  Da% 600 sintagmi preposizionali introdoF dalla preposizione DA e che svolgono il ruolo di

modiﬁcatori

•  È stato rilevato che essi possono assumere i seguen% 7 diﬀeren% valori seman%ci: LOC

+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

TUT Componente

seman'ca

(34)

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐

ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET +DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING

FALLIRE INTRANS) [8;DET+DEF-‐ARG]

(35)

Applicare lo schema di annotazione a TUT signiﬁca che ogni sua frase:

• viene parsiﬁcata in modo automa%co dal

parser TULE, sviluppato in parallelo con TUT

• corre=a da almeno 2 annotatori umani

• veriﬁcata da tool automa%ci apposi%

• so=oposta a conversioni e applicazione di

altri sistemi

(36)

Ricadute del proge]o TUT

U%lizzo in 3 diverse direzioni:

• Come raccolta di da% linguis%ci

• Come banco di prova per sistemi di NLP

• Come modello per lo sviluppo di altre

risorse

(37)

• Come raccolta di da% linguis%ci TUT ha consen%to

• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)

• Studio dell’ordine delle parole nella lingua italiana

Ricadute del proge]o TUT

(38)

(in 3500 sentences)

Ricadute del proge]o TUT

(39)

• Come banco di prova per sistemi di NLP

TUT ha consen%to di raggiungere i risulta%

allo stato dell’arte per il parsing

dell’italiano, errore intorno al 10%

• TUT è stato il treebank di riferimento nelle compe%zioni per parser di italiano (Evalita 07, 09, 11)

Ricadute del proge]o TUT

(40)

•  Come modello per lo sviluppo di altre risorse, TUT è u%lizzato in:

•  in prospeFva cross-‐linguis%ca, ha consen%to lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)

Ricadute del proge]o TUT

(41)

•  INOLTRE: TUT è stato trado=o in forma% di altri treebank grazie a tool di conversione

automa%ca

•  Questo ha reso possibile l’applicazione di strumen% sviluppa% per tali forma% ed il

confronto tra paradigmi e modelli linguis%ci diﬀeren% nell’ambito del dibaFto su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Ricadute del proge]o TUT

(42)

Il Turin University Treebank (TUT) e ParTUT sono tuF progeF

del Content Centered Compu%ng Group (C.

Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. PaF, M. SanguineF)

del Dipar%mento di Informa%ca

dell’Università di Torino

(43)

Per ulteriori informazioni:

h=p://www.di.unito.it/~tutreeb

(44)

Un treebank parallelo italiano francese e inglese nel formato del TUT.

Il proge]o ParallelTUT

(45)

Un importante problema per la LC è la valutazione:

sia come confronto tra risulta% degli umani e quelli del sistema di LC

sia come confronto tra i risulta% di sistemi diversi

Treebank e valutazione

(46)

L’esistenza di molte risorse diverse rende però diﬃcile confrontare i risulta%

o=enu% da diversi sistemi e la valutazione deve sempre essere fa=a in relazione alle stesse risorse.

Se il sistema X e il sistema Y u%lizzano lo

stesso corpus per apprendere, o=engono lo stesso output?

Treebank e valutazione

(47)

La comunità della LC opera pertanto nella direzione di rendere confrontabili i

risulta% dei sistemi che svolgono lo stesso task.

Questo signiﬁca ad esempio che si cerca di costruire risorse in cui si u%lizza lo stesso formato di rappresentazione (standard).

Treebank e valutazione

(48)

La nozione di standard è par%colarmente

rilevante per i treebank e ha portato alla deﬁnizione di un formato universale de=o Universal Dependency.

Questo processo è durato vari anni e ha comportato vari passi all’interno delle

varie comunità che operano sulle singole lingue.

Treebank e standard

(49)

Per la lingua italiana ad esempio sono sta%

crea%, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntac%c Seman%c Treebank (presso l’Is%tuto di Linguis%ca

Computazionale CNR di Pisa).

Ques% sono sta% fusi grazie ad un processo di conversione in un formato intermedio e

poi tradoF in Universal Dependency.

Treebank e standard

(50)

Questo formato soddisfa l’interesse per

confron% mul%lingui e rende possibile sia campagne di valutazione mul%lingui sia l’apprendimento cross-‐linguistco a

supporto della LC per lingue per cui non esistono risorse.

h=p://universaldependencies.org/

Universal Dependency

Linguis’ca computazionale e treebank

Linguis'ca computazionale e treebank

Cris%na Bosco

Corso di Informa%ca applicata alla comunicazione mul%mediale

2016-­‐2017

Il proge=o Turin University Treebank

• ObieFvo:

sviluppare una risorsa linguis%ca,

una banca di alberi sintaFci per

l’italiano

Fasi di sviluppo del proge=o

• Selezione dei tes% da annotare

• Deﬁnizione dello schema di annotazione

• Applicazione dello schema al corpus di

tes% (validità e consistenza)

Selezione di tes' in TUT

• Giornali quo%diani (1.100 frasi = 18,044 tokens)

• Codice civile (1.100 frasi = 28,048 tokens)

• Acquis (201 frasi = 7,455 tokens)

• Wikipedia (459 frasi = 14,746 tokens)

• Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)

• Totale 3.452 frasi = 102.000 token

TEXTS from

PRAGUE newspapers, scientific and economic

journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes,

newspapers (Wall Street Journal), telephone conversations

Selezione in altri treebank

Deﬁnizione dello schema di annotazione

• Scelta del formalismo

• Scelta delle informazioni e

stru=ure da rappresentare

Stru=ura sintaFca: scelta tra 2 aspeF

• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)

• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal

structure)

Rela%onal structure

• Le parole della frase svolgono funzioni diverse

• Le funzioni sono espresse in

termini di relazioni gramma%cali

Cons%tuent structure

Le parole della frase sono organizzate

in unità (cos%tuen%) che a loro volta

sono ogge=o di una organizzazione

(cons%tuent structure) in unità più

grandi

Cons%tuent structure

Le relazioni tra le parole non sono tu=e uguali:

“Maria leggeva un libro in biblioteca”

ES: Penn annota'on

( S

( NP -­‐ SBJ (PRP I) )

( ADVP -­‐ TMP ( RB never) ) ( VP (VBD had)

( NP (JJ many) (NNS clients) ) ( NP -­‐ ADV (DT a) ( NN day) )) ))

NP

VP

NP ADVP

NP S

SBJ

TMP

PRP

RB VBD

NNS DT

NN DT

ADV

ES: NEGRA annota'on

S VP

HD SB NG

MO HD OA

OC

ADV VVPP VAFIN NE NE ADV

Cos%tuen% e relazioni

• La stru=ura relazionale include le informazioni rela%ve all’

organizzazione della frase in unità

• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole

• La stru=ura relazionale è più compa=a

• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle

diverse lingue

• La stru=ura relazionale include la stru=ura argomentale

2016-‐2017

• ObieFvo:

• Selezione dei tes% da annotare

• Deﬁnizione dello schema di annotazione

• Applicazione dello schema al corpus di

•  Giornali quo%diani (1.100 frasi = 18,044 tokens)

•  Codice civile (1.100 frasi = 28,048 tokens)

•  Acquis (201 frasi = 7,455 tokens)

•  Wikipedia (459 frasi = 14,746 tokens)

•  Cos%tuzione Italiana, intera (682 frasi = 13,178 tokens)

•  Totale 3.452 frasi = 102.000 token

NEGRA ^newspaper Frankfurter Rundschau

• Scelta del formalismo

• Scelta delle informazioni e

• L’organizzazione delle unitá della frase (sintagmi e cons%tuent structure)

• La funzione degli elemen% della frase (relazioni gramma%cali e rela%onal

• Le parole della frase svolgono funzioni diverse

• Le funzioni sono espresse in

( NP -‐ SBJ (PRP I) )

( ADVP -‐ TMP ( RB never) ) ( VP (VBD had)

( NP (JJ many) (NNS clients) ) ( NP -‐ ADV (DT a) ( NN day) )) ))

• La stru=ura relazionale include le informazioni rela%ve all’

• La stru=ura a cos%tuen% non include le informazioni rela%ve alla funzione delle parole

• La stru=ura relazionale è più compa=a

• Sia le relazioni che i cos%tuen% sono realizza% in modo diverso nelle

• La stru=ura relazionale include la stru=ura argomentale

• relazioni gramma%cali

• ruoli seman%ci

• uguali o dis%n%?

• Le relazioni sono realizzate

PRAGUE ^semi-

NEGRA ^automatic interactive

• Part Of Speech tagging automa%co

• Correzione manuale del tagging

• Parsing interaFvo

• Veriﬁca e revisione

sistemi automa%ci di analisi morfologica (-‐4% errore) e sintaFca (-‐10% errore)

•  Morfo-‐sintaFco: features che esprimono la categoria gramma%cale Verb, Noun, …

•  Funzionale-‐sintaFco: relazioni sintaFche come Subject, Object

•  Seman%co: relazioni seman%che come Loca%on, Time, Cause

1 In (IN PREP MONO) [7;PREP-‐RMOD-‐TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-‐ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-‐

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-‐SUBJ]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET +DEF-‐ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-‐VERB]

8 il (IL ART DEF F SING) [7;VERB-‐OBJ]

FALLIRE INTRANS) [8;DET+DEF-‐ARG]

Velocemente / in modo veloce VERB-‐SUBJ

NOUN-‐OBJ NOUN-‐SUBJ VERB-‐OBJ

ADV-‐role ADV-‐role

morfo-‐sinta\ca

morfo-‐sinta\ca

•  Da% 944 diﬀeren% Verbi per un totale di 4.169 occorrenze nel corpus di TUT

•  Il 30% di ques% Verbi (e le stru=ure predica%ve argomentali ad essi associate) risulta presente anche in forma nominale