Linguistica computazionale, treebank e altre risorse
Cristina Bosco
Corso di Informatica applicata alla comunicazione multimediale
2016-2017
Di cosa parleremo
• Task di LC
• Risorse linguistiche (diverse dai corpora)
• Corpora annotati e Treebank
• Il Progetto Turin University Treebank e Parallel Turin University Treebank
• Il progetto Universal Dependency
Task di LC
I sistemi di LC svolgono vari tipi di analisi del testo, singolarmente o in abbinamento.
Il tipo di task determina:
- come è fatto l’input - come è fatto l’output
- quali passi intermedi di analisi devono essere svolti
- quali risorse sono necessarie
Task di LC
Tutti i sistemi attuali di LC utilizzano risorse
linguistiche per passare dall’input all’output.
input
input outputoutput
risorsa1
risorsa1 risorsa2risorsa2
Gerarchia di Task di LC
I task tradizionali possono essere pensati in una gerarchia che ne evidenzia la crescente difficoltà:
Tokenizzazione
Part of Speech Tagging = analisi morfologica Parsing = analisi sintattica
Analisi semantica
Altri task “nuovi” si basano su di essi.
Tokenizzazione
Consiste nel distinguere nel testo le unità minime morfologiche (detti token).
L’input è il testo in forma di frase o intero testo.
Es: “Il gatto dorme sul terrazzo”
L’output è il testo suddiviso in token.
Es: tok1=Il tok2=gatto tok3=dorme tok4=su tok5=il tok6=terrazzo
Part of Speech (PoS) tagging
Consiste nell’associare ad ogni token una descrizione della sua morfologia.
L’input è il singolo token.
Es: Il
L’output è il token con associate le relative informazioni morfologiche
Es: Il ARTICOLO DETERMINATIVO SINGOLARE MASCHILE
Part of Speech tagging
La descrizione della morfologia di una parola (il PoS tagging) può includere anche la
lemmatizzazione. Essa è di fatto necessaria per identificare la categoria grammaticale della parola e può essere resa esplicita
nell’output del PoS tagging.
Es: Il IL ARTICOLO DETERMINATIVO SINGOLARE MASCHILE
Part of Speech tagging e risorse
Quali risorse si utilizzano per fare il PoS tagging?
Collezioni di lemmi
Collezioni di forme (MORPH-IT)
Dizionari con informazioni morfologiche
Corpora con già applicato il PoS tagging (per fare apprendimento) (POSTWITA)
Morph-It
(Zanchetta, Baroni)È una risorsa lessicale basata su forme che contiene:
- per ogni forma il lemma, la categoria grammaticale e caratteristiche
morfologiche
- serve il Part of Speech tagging e la lemmatizzazione
Morph-It
(Zanchetta, Baroni)Contiene 505,074 voci che corrispondono a 35,056 lemmi.
È stata costruita partendo da un corpus di 380 milioni di token (articoli di La
Repubblica dal 1985 al 2000) annotato con lemmi e parte della morfologia, poi arricchito con le forme mancanti e la
morfologia mancante. http://sslmitdev- online.sslmit.unibo.it/linguistics/morph-it.php
PoSTWITA
(Bosco, Tamburini, Mazzei, Bolioli)Contiene 301 tweet annotati dal punto di vista morfologico.
L’annotazione è stata fatta
automaticamente e corretta a mano.
Rappresenta la lingua italiana dei social media.
Parsing
Consiste nell’associare ad ogni frase una descrizione della sua sintassi.
L’input è la frase tokenizzata e analizzata morfologicamente (dal PoS tagging).
Parsing: input
1 Il ART DEF MAS SING
2 gatto NOM COM MAS SING 3 dorme VERB IND PRES 3 SING 4 su PREP
5 il ART DEF MAS SING
6 terrazzo NOM COM MAS SING
Parsing: output
1 Il ART DEF MAS SING Soggetto di 3
2 gatto NOM COM MAS SING Argomento di 1 3 dorme VERB IND PRES 3 SING Radice
4 su PREP Modificatore di 3
5 il ART DEF MAS SING Argomento di 4
6 terrazzo NOM COM MAS SING Argomento di 5
Parsing: output
dorme VERB IND PRES 3 SING
Il ART DEF MAS SING
gatto NOM COM MAS SING
su PREP
il ART DEF MAS SING
terrazzo NOM COM MAS SING
Argomento
Modificatore Soggetto
Argomento Argomento
Parsing e risorse
Quali risorse si utilizzano per fare il parsing?
I treebank, ampie collezioni di frasi annotate dal punto di vista morfologico e sintattico.
In linea di principio servirebbe solo
l’annotazione sintattica, ma dato che quella morfologica ne è un prerequisito, si mette anche quella negli stessi dati.
Dei treebank parleremo in dettaglio più avanti.
Analisi semantica
Consiste nell’associare ad ogni frase una descrizione della sua semantica.
L’input è la frase tokenizzata, analizzata morfologicamente (dal PoS tagging) e sintatticamente (dal parsing).
Analisi semantica
È il tipo di analisi più difficile per la quale esistono solo alcuni sub-task sviluppati.
Tra di essi citiamo il word sense disambiguation per il quale esistono risorse linguistiche molto importanti:
BabelNet http://babelnet.org/
MultiWordNet
http://multiwordnet.fbk.eu/english/home.php/
Gerarchia di Task di LC
I task “nuovi” si basano su quelli tradizionali, ad esempio la Sentiment analysis sovente
utilizza forme di (parziale) analisi morfologica e sintattica.
Sentiment analysis
Consiste nell’associare ad ogni porzione data di testo un valore di polarità o una
classificazione.
L’input è il testo, eventualmente analizzato morfologicamente e/o sintatticamente.
L’output è il testo classificato secondo la polarità o altra classe definita.
Sentiment analysis e risorse
- Lessici per la sentiment analysis: contengono parole con associata una polarità (AFINN)
- Quando un sistema di sentiment analysis deve rilevare la polarità di un testo cerca le parole del testo nel lessico, se le trova
prende la loro polarità e sommando tutte le polarità delle parole calcola quella della
frase.
Esempi di risorse linguistiche
“Mario Monti: Berlusconi risparmi all'Italia il biasimo per aver causato un disastro
#mariomontipremier “ > Polarità Negativa
“Mario #Monti Senatore a vita è una
splendida notizia per tutti gli italiani, è
l'emblema di quei cittadini meritevoli che onorano la Patria.” > Polarità Positiva
Le risorse linguistiche
La quantità e la varietà di risorse
linguistiche dimostra la loro centralità per la LC.
Una parte consistente della comunità della LC lavora solo per costruire risorse.
Esistono molte risorse per l’inglese, ma
anche per altre lingue (a volte costruite a partire dalle prime).
Le risorse linguistiche
- Con il termine risorse linguistiche si indicano i corpora e tutte le altre
- Sono delle raccolte di informazioni a cui i sistemi di LC accedono durante lo
svolgimento del loro compito
- Esse rappresentano il versante prettamente linguistico della LC
CORPORA e TREEBANK
A partire dalla fine degli anni ’90 si
applicano nella LC approcci basati su corpora.
Inizialmente si tratta di corpora molto grandi non annotati (approcci non supervisionati).
In seguito si tratta di corpora meno grandi ma annotati (approcci
supervisionati).
Annotazione e corpora
Come annotare i dati ?
Le informazioni annotate variano
parecchio a seconda dello scopo per cui si costruisce il corpus, perché le
informazioni che i sistemi devono
apprendere sono strettamente correlate al compito che il sistema deve svolgere.
Annotazione e corpora
Come annotare i dati ?
- Corpora per sentiment analysis:
polarità, stance, ironia, target ...
- Corpora per named entity
recognition: persone, luoghi, aziende, date ...
- Corpora per Part of Speech tagging:
lemmi, categorie grammaticali, ...
Annotazione e treebank
Come annotare i dati ?
Per ogni livello di annotazione vengono fatte delle scelte sia sulla teoria
linguistica da prendere come riferimento sia sul modo in cui fisicamente mostrare i dati.
Annotazione e treebank
Quali dati annotare ?
Occorre scegliere i testi da introdurre nel corpus in modo che siano rappresentativi del linguaggio che si vuole trattare.
Annotazione e treebank
Quali dati annotare ?
un corpus é un campione significativo e rappresentativo di un linguaggio SE:
• contiene frasi non ristrette
• è “bilanciato” rispetto al genere, alla
collocazione geografica e sociale, al tempo
• MA non rappresenta mai TUTTO il linguaggio nel suo complesso