Linguistica computazionale e treebank

(1)

Linguistica computazionale e treebank

Cristina Bosco

Corso di Informatica applicata alla comunicazione multimediale

2016-2017

(2)

Il progetto Turin University Treebank

• Obiettivo:

sviluppare una risorsa linguistica,

una banca di alberi sintattici per

l’italiano

(3)

Fasi di sviluppo del progetto

• Selezione dei testi da annotare

• Definizione dello schema di annotazione

• Applicazione dello schema al corpus di

testi (validità e consistenza)

(4)

Selezione di testi in TUT

• Giornali quotidiani (1.100 frasi = 18,044 tokens)

• Codice civile (1.100 frasi = 28,048 tokens)

• Acquis (201 frasi = 7,455 tokens)

• Wikipedia (459 frasi = 14,746 tokens)

• Costituzione Italiana, intera (682 frasi = 13,178 tokens)

• Totale 3.452 frasi = 102.000 token

(5)

TEXTS from PRAGUE

newspapers, scientific and

economic journals

NEGRA

newspaper Frankfurter Rundschau

PENN

IBM manuals, nursing notes,

newspapers (Wall Street Journal), telephone conversations

Selezione in altri treebank

(6)

Definizione dello schema di annotazione

• Scelta del formalismo

• Scelta delle informazioni e

strutture da rappresentare

(7)

Struttura sintattica: scelta tra 2 aspetti

• L’organizzazione delle unitá della frase (sintagmi e constituent structure)

• La funzione degli elementi della frase (relazioni grammaticali e relational

structure)

(8)

Relational structure

• Le parole della frase svolgono funzioni diverse

• Le funzioni sono espresse in

termini di relazioni grammaticali

(9)

Constituent structure

Le parole della frase sono organizzate

in unità (costituenti) che a loro volta

sono oggetto di una organizzazione

(constituent structure) in unità più

grandi

(10)

Constituent structure

Le relazioni tra le parole non sono tutte uguali:

“Maria leggeva un libro in biblioteca”

(11)

ES: Penn annotation

( S

( NP - SBJ (PRP I) )

( ADVP - TMP ( RB never) ) ( VP (VBD had)

( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) ))

NP

VP

NP ADVP

NP S

SBJ

TMP

PRP

RB VBD

NNS DT

NN DT

ADV

(12)

ES: NEGRA annotation

S VP

HD SB NG

MO HD OA

OC

ADV VVPP VAFIN NE NE ADV

(13)

Costituenti e relazioni

•La struttura relazionale include le informazioni relative all’

organizzazione della frase in unità

•La struttura a costituenti non include le informazioni relative alla funzione delle parole

•La struttura relazionale è più compatta

(14)

• Sia le relazioni che i costituenti sono realizzati in modo diverso nelle

diverse lingue

• La struttura relazionale include la struttura argomentale

Costituenti e relazioni

(15)

La struttura argomentale

• relazioni grammaticali

• ruoli semantici

• uguali o distinti?

(16)

Le relazioni grammaticali

• Le relazioni sono realizzate

diversamente nelle varie lingue, a seconda dell’uso di casi, inflessioni

give someone something

dare a qualcuno qualcosa

(17)

MORPHO SYNT SEM PRAGUE

^semi-

automat ic

semi-

automatic semi-

automatic

NEGRA

^automatic interactive (probabilisti c)

PENN

automatic automatic (skeletal)

Processo di annotazione

(18)

Processo di annotazione in TUT

• Part Of Speech tagging automatico

• Correzione manuale del tagging

• Parsing interattivo

• Verifica e revisione

(19)

Costruire un treebank

Per costruire validi sistemi di analisi del linguaggio occorrono i treebank.

Infatti è dimostrato che i sistemi di NLP

che ottengono i migliori risultati sono

quelli che prendono le informazioni da

treebank)

(20)

Costruire un treebank

Per costruire dei treebank occorrono validi sistemi di analisi del linguaggio.

È impossibile costruire treebank in modo esclusivamente manuale per motivi di

tempo e di correttezza.

(21)

Costruire un treebank

In pratica l’annotazione dei treebank è prodotta da

sistemi automatici di analisi morfologica (- 4% errore) e sintattica (-10% errore)

+

annotatori umani che correggono le analisi

prodotte in modo automatico

(22)

Ogni relazione di TUT può essere composta di 3 elementi:

• Morfo-sintattico: features che esprimono la categoria grammaticale Verb, Noun, …

• Funzionale-sintattico: relazioni sintattiche come Subject, Object

• Semantico: relazioni semantiche come Location, Time, Cause

Le dipendenze nel TUT

(23)

1 In (IN PREP MONO) [7;PREP-RMOD-TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF- ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]

8 il (IL ART DEF F SING) [7;VERB-OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING

FALLIRE INTRANS) [8;DET+DEF-ARG]

(24)

(25)

(26)

La nazione sogna ricchezza

I sogni di ricchezza della nazione

Velocemente / in modo veloce

VERB-SUBJ

NOUN-OBJ NOUN-SUBJ VERB-OBJ

VERB

NOUN

ADV-role ADV-role

TUT Componente

morfo-sintattica

(27)

TUT Componente

morfo-sintattica

(28)

• Dati 944 differenti Verbi per un totale di 4.169 occorrenze nel corpus di TUT

• Il 30% di questi Verbi (e le strutture predicative argomentali ad essi associate) risulta presente anche in forma nominale

TUT Componente

morfo-sintattica

(29)

Egli non è stato visto da nessuno Egli non è stato visto da ieri

ARG MOD

TUT Componente

funzionale-sintattica

(30)

TUT Componente

funzionale-sintattica

(31)

Da qui è partito l’assalto

Succedeva dall’altra parte del mondo I miliardi stanziati dal 1991

Era impazzito dal dolore

Trarrà beneficio dalla bonifica LOC+FROM

LOC+IN

TIME

REASONCAUSE SOURCE

TUT Componente

semantica

(32)

TUT Componente

semantica

(33)

• Dati 600 sintagmi preposizionali introdotti dalla preposizione DA e che svolgono il ruolo di

modificatori

• È stato rilevato che essi possono assumere i seguenti 7 differenti valori semantici:

LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

TUT Componente

semantica

(34)

1 In (IN PREP MONO) [7;PREP-RMOD-TIME]

2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG]

3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF- ARG]

4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ]

5 la (IL ART DEF F SING) [4;APPOSITION]

6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG]

7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB]

8 il (IL ART DEF F SING) [7;VERB-OBJ]

9 fallimento (FALLIMENTO NOUN COMMON M SING

FALLIRE INTRANS) [8;DET+DEF-ARG]

(35)

Applicare lo schema di annotazione a TUT significa che ogni sua frase:

• viene parsificata in modo automatico dal parser TULE, sviluppato in parallelo con

• corretta da almeno 2 annotatori umani TUT

• verificata da tool automatici appositi

• sottoposta a conversioni e applicazione di

altri sistemi

(36)

Ricadute del progetto TUT

Utilizzo in 3 diverse direzioni:

• Come raccolta di dati linguistici

• Come banco di prova per sistemi di NLP

• Come modello per lo sviluppo di altre

risorse

(37)

• Come raccolta di dati linguistici TUT ha consentito

• Studi sul comportamento dei verbi della lingua italiana (estrazione di conoscenza)

• Studio dell’ordine delle parole nella lingua italiana

Ricadute del progetto TUT

(38)

(in 3500 sentences)

Ricadute del progetto TUT

(39)

• Come banco di prova per sistemi di NLP

TUT ha consentito di raggiungere i risultati allo stato dell’arte per il parsing

dell’italiano, errore intorno al 10%

• TUT è stato il treebank di riferimento nelle competizioni per parser di italiano (Evalita 07, 09, 11)

Ricadute del progetto TUT

(40)

• Come modello per lo sviluppo di altre risorse, TUT è utilizzato in:

• in prospettiva cross-linguistica, ha consentito lo sviluppo di un treebank parallelo per le lingue italiano, francese e inglese (ParallelTUT)

Ricadute del progetto TUT

(41)

• INOLTRE: TUT è stato tradotto in formati di altri treebank grazie a tool di conversione

automatica

• Questo ha reso possibile l’applicazione di strumenti sviluppati per tali formati ed il

confronto tra paradigmi e modelli linguistici differenti nell’ambito del dibattito su quale formato si rivela più adeguato per il NLP in generale e per le diverse lingue naturali

Ricadute del progetto TUT

(42)

Il Turin University Treebank (TUT) e ParTUT sono tutti progetti

del Content Centered Computing Group (C.

Bosco, A. Mazzei, V. Lombardo, R. Damiano , V. Patti, M. Sanguinetti)

del Dipartimento di Informatica

dell’Università di Torino

(43)

Per ulteriori informazioni:

http://www.di.unito.it/~tutreeb

(44)

Un treebank parallelo italiano francese e inglese nel formato del TUT.

Il progetto ParallelTUT

(45)

Un importante problema per la LC è la valutazione:

sia come confronto tra risultati degli umani e quelli del sistema di LC

sia come confronto tra i risultati di sistemi diversi

Treebank e valutazione

(46)

L’esistenza di molte risorse diverse rende però difficile confrontare i risultati

ottenuti da diversi sistemi e la valutazione deve sempre essere fatta in relazione alle stesse risorse.

Se il sistema X e il sistema Y utilizzano lo

stesso corpus per apprendere, ottengono lo stesso output?

Treebank e valutazione

(47)

La comunità della LC opera pertanto nella direzione di rendere confrontabili i

risultati dei sistemi che svolgono lo stesso task.

Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard).

Treebank e valutazione

(48)

La nozione di standard è particolarmente

rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency.

Questo processo è durato vari anni e ha comportato vari passi all’interno delle

varie comunità che operano sulle singole lingue.

Treebank e standard

(49)

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica

Computazionale CNR di Pisa).

Questi sono stati fusi grazie ad un processo di conversione in un formato intermedio e

poi tradotti in Universal Dependency.

Treebank e standard

(50)