Linguistica computazionale, treebank e altre risorse

(1)

Linguistica computazionale, treebank e altre risorse

Cristina Bosco

Corso di Informatica applicata alla comunicazione multimediale

2016-2017

(2)

Di cosa parleremo

• Task di LC

• Risorse linguistiche (diverse dai corpora)

• Corpora annotati e Treebank

• Il Progetto Turin University Treebank e Parallel Turin University Treebank

• Il progetto Universal Dependency

(3)

Task di LC

I sistemi di LC svolgono vari tipi di analisi del testo, singolarmente o in abbinamento.

Il tipo di task determina:

- come è fatto l’input - come è fatto l’output

- quali passi intermedi di analisi devono essere svolti

- quali risorse sono necessarie

(4)

Task di LC

Tutti i sistemi attuali di LC utilizzano risorse

linguistiche per passare dall’input all’output.

input

input outputoutput

risorsa1

risorsa1 risorsa2risorsa2

(5)

Gerarchia di Task di LC

I task tradizionali possono essere pensati in una gerarchia che ne evidenzia la crescente difficoltà:

Tokenizzazione

Part of Speech Tagging = analisi morfologica Parsing = analisi sintattica

Analisi semantica

Altri task “nuovi” si basano su di essi.

(6)

Tokenizzazione

Consiste nel distinguere nel testo le unità minime morfologiche (detti token).

L’input è il testo in forma di frase o intero testo.

Es: “Il gatto dorme sul terrazzo”

L’output è il testo suddiviso in token.

Es: tok1=Il tok2=gatto tok3=dorme tok4=su tok5=il tok6=terrazzo

(7)

Part of Speech (PoS) tagging

Consiste nell’associare ad ogni token una descrizione della sua morfologia.

L’input è il singolo token.

Es: Il

L’output è il token con associate le relative informazioni morfologiche

Es: Il ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

(8)

Part of Speech tagging

La descrizione della morfologia di una parola (il PoS tagging) può includere anche la

lemmatizzazione. Essa è di fatto necessaria per identificare la categoria grammaticale della parola e può essere resa esplicita

nell’output del PoS tagging.

Es: Il IL ARTICOLO DETERMINATIVO SINGOLARE MASCHILE

(9)

Part of Speech tagging e risorse

Quali risorse si utilizzano per fare il PoS tagging?

Collezioni di lemmi

Collezioni di forme (MORPH-IT)

Dizionari con informazioni morfologiche

Corpora con già applicato il PoS tagging (per fare apprendimento) (POSTWITA)

(10)

Morph-It

(Zanchetta, Baroni)

È una risorsa lessicale basata su forme che contiene:

- per ogni forma il lemma, la categoria grammaticale e caratteristiche

morfologiche

- serve il Part of Speech tagging e la lemmatizzazione

(11)

Morph-It

(Zanchetta, Baroni)

Contiene 505,074 voci che corrispondono a 35,056 lemmi.

È stata costruita partendo da un corpus di 380 milioni di token (articoli di La

Repubblica dal 1985 al 2000) annotato con lemmi e parte della morfologia, poi arricchito con le forme mancanti e la

morfologia mancante. http://sslmitdev- online.sslmit.unibo.it/linguistics/morph-it.php

(12)

PoSTWITA

(Bosco, Tamburini, Mazzei, Bolioli)

Contiene 301 tweet annotati dal punto di vista morfologico.

L’annotazione è stata fatta

automaticamente e corretta a mano.

Rappresenta la lingua italiana dei social media.

(13)

Parsing

Consiste nell’associare ad ogni frase una descrizione della sua sintassi.

L’input è la frase tokenizzata e analizzata morfologicamente (dal PoS tagging).

(14)

Parsing: input

1 Il ART DEF MAS SING

2 gatto NOM COM MAS SING 3 dorme VERB IND PRES 3 SING 4 su PREP

5 il ART DEF MAS SING

6 terrazzo NOM COM MAS SING

(15)

Parsing: output

1 Il ART DEF MAS SING Soggetto di 3

2 gatto NOM COM MAS SING Argomento di 1 3 dorme VERB IND PRES 3 SING Radice

4 su PREP Modificatore di 3

5 il ART DEF MAS SING Argomento di 4

6 terrazzo NOM COM MAS SING Argomento di 5

(16)

Parsing: output

dorme VERB IND PRES 3 SING

Il ART DEF MAS SING

gatto NOM COM MAS SING

su PREP

il ART DEF MAS SING

terrazzo NOM COM MAS SING

Argomento

Modificatore Soggetto

Argomento Argomento

(17)

Parsing e risorse

Quali risorse si utilizzano per fare il parsing?

I treebank, ampie collezioni di frasi annotate dal punto di vista morfologico e sintattico.

In linea di principio servirebbe solo

l’annotazione sintattica, ma dato che quella morfologica ne è un prerequisito, si mette anche quella negli stessi dati.

Dei treebank parleremo in dettaglio più avanti.

(18)

Analisi semantica

Consiste nell’associare ad ogni frase una descrizione della sua semantica.

L’input è la frase tokenizzata, analizzata morfologicamente (dal PoS tagging) e sintatticamente (dal parsing).

(19)

Analisi semantica

È il tipo di analisi più difficile per la quale esistono solo alcuni sub-task sviluppati.

Tra di essi citiamo il word sense disambiguation per il quale esistono risorse linguistiche molto importanti:

BabelNet http://babelnet.org/

MultiWordNet

http://multiwordnet.fbk.eu/english/home.php/

(20)

Gerarchia di Task di LC

I task “nuovi” si basano su quelli tradizionali, ad esempio la Sentiment analysis sovente

utilizza forme di (parziale) analisi morfologica e sintattica.

(21)

Sentiment analysis

Consiste nell’associare ad ogni porzione data di testo un valore di polarità o una

classificazione.

L’input è il testo, eventualmente analizzato morfologicamente e/o sintatticamente.

L’output è il testo classificato secondo la polarità o altra classe definita.

(22)

Sentiment analysis e risorse

- Lessici per la sentiment analysis: contengono parole con associata una polarità (AFINN)

- Quando un sistema di sentiment analysis deve rilevare la polarità di un testo cerca le parole del testo nel lessico, se le trova

prende la loro polarità e sommando tutte le polarità delle parole calcola quella della

frase.

(23)

Esempi di risorse linguistiche

“Mario Monti: Berlusconi risparmi all'Italia il biasimo per aver causato un disastro

#mariomontipremier “ > Polarità Negativa

“Mario #Monti Senatore a vita è una

splendida notizia per tutti gli italiani, è

l'emblema di quei cittadini meritevoli che onorano la Patria.” > Polarità Positiva

(24)

Le risorse linguistiche

La quantità e la varietà di risorse

linguistiche dimostra la loro centralità per la LC.

Una parte consistente della comunità della LC lavora solo per costruire risorse.

Esistono molte risorse per l’inglese, ma

anche per altre lingue (a volte costruite a partire dalle prime).

(25)

Le risorse linguistiche

- Con il termine risorse linguistiche si indicano i corpora e tutte le altre

- Sono delle raccolte di informazioni a cui i sistemi di LC accedono durante lo

svolgimento del loro compito

- Esse rappresentano il versante prettamente linguistico della LC

(26)

CORPORA e TREEBANK

A partire dalla fine degli anni ’90 si

applicano nella LC approcci basati su corpora.

Inizialmente si tratta di corpora molto grandi non annotati (approcci non supervisionati).

In seguito si tratta di corpora meno grandi ma annotati (approcci

supervisionati).

(27)

Annotazione e corpora

Come annotare i dati ?

Le informazioni annotate variano

parecchio a seconda dello scopo per cui si costruisce il corpus, perché le

informazioni che i sistemi devono

apprendere sono strettamente correlate al compito che il sistema deve svolgere.

(28)

Annotazione e corpora

- Corpora per sentiment analysis:

polarità, stance, ironia, target ...

- Corpora per named entity

recognition: persone, luoghi, aziende, date ...

- Corpora per Part of Speech tagging:

lemmi, categorie grammaticali, ...

(29)

Annotazione e treebank

Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria

linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.

(30)

Annotazione e treebank

Quali dati annotare ?

Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.

(31)

Annotazione e treebank

Quali dati annotare ?

un corpus é un campione significativo e rappresentativo di un linguaggio SE:

• contiene frasi non ristrette

• è “bilanciato” rispetto al genere, alla

collocazione geografica e sociale, al tempo

• MA non rappresenta mai TUTTO il linguaggio nel suo complesso