Linguis'ca computazionale, treebank e altre risorse
Cris%na Bosco
Corso di Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
Di cosa parleremo
• Task di LC
• Risorse linguis%che (diverse dai corpora)
• Corpora annota% e Treebank
• Il ProgeIo Turin University Treebank e Parallel Turin University Treebank
• Il progeIo Universal Dependency
Task di LC
I sistemi di LC svolgono vari %pi di analisi del testo, singolarmente o in abbinamento.
Il %po di task determina:
-‐ come è faIo l’input -‐ come è faIo l’output
-‐ quali passi intermedi di analisi devono essere svol%
-‐ quali risorse sono necessarie
Task di LC
TuR i sistemi aIuali di LC u%lizzano risorse
linguis%che per passare dall’input all’output.
input output
risorsa1 risorsa2
Gerarchia di Task di LC
I task tradizionali possono essere pensa% in una gerarchia che ne evidenzia la crescente difficoltà:
Tokenizzazione
Part of Speech Tagging = analisi morfologica Parsing = analisi sintaRca
Analisi seman%ca
Altri task “nuovi” si basano su di essi.
Tokenizzazione
Consiste nel dis%nguere nel testo le unità minime morfologiche (deR token).
L’input è il testo in forma di frase o intero testo.
Es: “Il ga,o dorme sul terrazzo”
L’output è il testo suddiviso in token.
Es: tok1=Il tok2=ga,o tok3=dorme
tok4=su tok5=il tok6=terrazzo
Part of Speech (PoS) tagging
Consiste nell’associare ad ogni token una descrizione della sua morfologia.
L’input è il singolo token.
Es: Il
L’output è il token con associate le rela%ve informazioni morfologiche
Es: Il ARTICOLO DETERMINATIVO
SINGOLARE MASCHILE
Part of Speech tagging
La descrizione della morfologia di una parola (il PoS tagging) può includere anche la
lemma%zzazione. Essa è di faIo necessaria per iden%ficare la categoria gramma%cale della parola e può essere resa esplicita
nell’output del PoS tagging.
Es: Il IL ARTICOLO DETERMINATIVO
SINGOLARE MASCHILE
Part of Speech tagging e risorse
Quali risorse si u%lizzano per fare il PoS tagging?
Collezioni di lemmi
Collezioni di forme (MORPH-‐IT)
Dizionari con informazioni morfologiche
Corpora con già applicato il PoS tagging (per
fare apprendimento) (POSTWITA)
Morph-‐It
(Zanche,a, Baroni)È una risorsa lessicale basata su forme che con%ene:
-‐ per ogni forma il lemma, la categoria gramma%cale e caraIeris%che
morfologiche
-‐ serve il Part of Speech tagging e la
lemma%zzazione
Morph-‐It
(Zanche,a, Baroni)Con%ene 505,074 voci che corrispondono a 35,056 lemmi.
È stata costruita partendo da un corpus di 380 milioni di token (ar%coli di La
Repubblica dal 1985 al 2000) annotato con lemmi e parte della morfologia, poi arricchito con le forme mancan% e la
morfologia mancante.
h,p://sslmitdev-‐online.sslmit.unibo.it/linguisCcs/morph-‐it.php
PoSTWITA
(Bosco, Tamburini, Mazzei, Bolioli)Con%ene 301 tweet annota% dal punto di vista morfologico.
L’annotazione è stata faIa
automa%camente e correIa a mano.
Rappresenta la lingua italiana dei social
media.
Parsing
Consiste nell’associare ad ogni frase una descrizione della sua sintassi.
L’input è la frase tokenizzata e analizzata
morfologicamente (dal PoS tagging).
Parsing: input
1 Il ART DEF MAS SING
2 ga,o NOM COM MAS SING 3 dorme VERB IND PRES 3 SING 4 su PREP
5 il ART DEF MAS SING
6 terrazzo NOM COM MAS SING
Parsing: output
1 Il ART DEF MAS SING SoggeLo di 3
2 ga,o NOM COM MAS SING Argomento di 1 3 dorme VERB IND PRES 3 SING Radice
4 su PREP Modificatore di 3
5 il ART DEF MAS SING Argomento di 4
6 terrazzo NOM COM MAS SING Argomento di 5
Parsing: output
dorme VERB IND PRES 3 SING
Il ART DEF MAS SING
gatto NOM COM MAS SING
su PREP
il ART DEF MAS SING
terrazzo NOM COM MAS SING
Argomento
Modificatore Soggetto
Argomento Argomento