• Non ci sono risultati.

Linguis’ca computazionale, treebank e altre risorse

N/A
N/A
Protected

Academic year: 2021

Condividi "Linguis’ca computazionale, treebank e altre risorse"

Copied!
31
0
0

Testo completo

(1)

Linguis'ca  computazionale,   treebank  e  altre  risorse  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla   comunicazione  mul%mediale  

2016-­‐2017  

(2)

Di  cosa  parleremo  

• Task  di  LC  

• Risorse  linguis%che  (diverse  dai  corpora)  

• Corpora  annota%  e  Treebank  

• Il  ProgeIo  Turin  University  Treebank  e   Parallel  Turin  University  Treebank  

• Il  progeIo  Universal  Dependency  

(3)

Task  di  LC  

I  sistemi  di  LC  svolgono  vari  %pi  di  analisi  del   testo,  singolarmente  o  in  abbinamento.  

Il  %po  di  task  determina:    

-­‐  come  è  faIo  l’input   -­‐  come  è  faIo  l’output  

-­‐  quali  passi  intermedi  di  analisi  devono  essere   svol%  

-­‐  quali  risorse  sono  necessarie  

(4)

Task  di  LC  

TuR  i  sistemi  aIuali  di  LC  u%lizzano  risorse  

linguis%che  per  passare  dall’input  all’output.  

input   output  

risorsa1   risorsa2  

(5)

Gerarchia  di  Task  di  LC  

I  task  tradizionali  possono  essere  pensa%  in   una  gerarchia  che  ne  evidenzia  la  crescente   difficoltà:  

Tokenizzazione  

Part  of  Speech  Tagging  =  analisi  morfologica   Parsing  =  analisi  sintaRca  

Analisi  seman%ca    

Altri  task  “nuovi”  si  basano  su  di  essi.    

(6)

Tokenizzazione  

Consiste  nel  dis%nguere  nel  testo  le  unità   minime  morfologiche  (deR  token).  

L’input  è  il  testo  in  forma  di  frase  o  intero   testo.    

 Es:  “Il  ga,o  dorme  sul  terrazzo”  

L’output  è  il  testo  suddiviso  in  token.    

 Es:  tok1=Il    tok2=ga,o  tok3=dorme    

     tok4=su  tok5=il  tok6=terrazzo    

(7)

Part  of  Speech  (PoS)  tagging  

Consiste  nell’associare  ad  ogni  token  una   descrizione  della  sua  morfologia.  

L’input  è  il  singolo  token.  

 Es:  Il  

L’output  è  il  token  con  associate  le  rela%ve   informazioni  morfologiche    

 Es:  Il  ARTICOLO  DETERMINATIVO  

SINGOLARE  MASCHILE  

(8)

Part  of  Speech  tagging  

La  descrizione  della  morfologia  di  una  parola   (il  PoS  tagging)  può  includere  anche  la  

lemma%zzazione.  Essa  è  di  faIo  necessaria   per  iden%ficare  la  categoria  gramma%cale   della  parola  e  può  essere  resa  esplicita  

nell’output  del  PoS  tagging.  

Es:  Il  IL  ARTICOLO  DETERMINATIVO  

SINGOLARE  MASCHILE  

(9)

Part  of  Speech  tagging  e   risorse  

Quali  risorse  si  u%lizzano  per  fare  il  PoS   tagging?  

Collezioni  di  lemmi  

Collezioni  di  forme  (MORPH-­‐IT)  

Dizionari  con  informazioni  morfologiche  

Corpora  con  già  applicato  il  PoS  tagging  (per  

fare  apprendimento)  (POSTWITA)  

(10)

Morph-­‐It  

(Zanche,a,  Baroni)  

È  una  risorsa  lessicale  basata  su  forme  che   con%ene:  

-­‐  per  ogni  forma  il  lemma,  la  categoria   gramma%cale  e  caraIeris%che  

morfologiche    

-­‐  serve  il  Part  of  Speech  tagging  e  la  

lemma%zzazione  

(11)

Morph-­‐It  

(Zanche,a,  Baroni)  

Con%ene  505,074  voci  che  corrispondono   a  35,056  lemmi.  

È  stata  costruita  partendo  da  un  corpus  di   380  milioni  di  token  (ar%coli  di  La  

Repubblica  dal  1985  al  2000)  annotato   con  lemmi  e  parte  della  morfologia,  poi   arricchito  con  le  forme  mancan%  e  la  

morfologia  mancante.  

h,p://sslmitdev-­‐

online.sslmit.unibo.it/linguisCcs/morph-­‐it.php  

(12)

PoSTWITA  

(Bosco,  Tamburini,  Mazzei,  Bolioli)  

Con%ene  301  tweet  annota%  dal  punto  di   vista  morfologico.  

L’annotazione  è  stata  faIa  

automa%camente  e  correIa  a  mano.  

Rappresenta  la  lingua  italiana  dei  social  

media.  

(13)

Parsing  

Consiste  nell’associare  ad  ogni  frase  una   descrizione  della  sua  sintassi.    

L’input  è  la  frase  tokenizzata  e  analizzata  

morfologicamente  (dal  PoS  tagging).  

(14)

Parsing:  input  

1  Il  ART  DEF  MAS  SING  

2  ga,o  NOM  COM  MAS  SING   3  dorme  VERB  IND  PRES  3  SING   4  su  PREP  

5  il  ART  DEF  MAS  SING  

6  terrazzo  NOM  COM  MAS  SING  

(15)

Parsing:  output  

1  Il  ART  DEF  MAS  SING  SoggeLo  di  3  

2  ga,o  NOM  COM  MAS  SING  Argomento  di  1   3  dorme  VERB  IND  PRES  3  SING  Radice  

4  su  PREP  Modificatore  di  3  

5  il  ART  DEF  MAS  SING  Argomento  di  4  

6  terrazzo  NOM  COM  MAS  SING  Argomento  di  5  

(16)

Parsing:  output  

dorme VERB IND PRES 3 SING

Il ART DEF MAS SING

gatto NOM COM MAS SING

su PREP

il ART DEF MAS SING

terrazzo NOM COM MAS SING

Argomento

Modificatore Soggetto

Argomento Argomento

(17)

Parsing  e  risorse  

Quali  risorse  si  u%lizzano  per  fare  il  parsing?  

I  treebank,  ampie  collezioni  di  frasi  annotate   dal  punto  di  vista  morfologico  e  sintaRco.  

In  linea  di  principio  servirebbe  solo  

l’annotazione  sintaRca,  ma  dato  che  quella   morfologica  ne  è  un  prerequisito,  si  meIe   anche  quella  negli  stessi  da%.  

Dei  treebank  parleremo  in  deIaglio  più  avan%.  

(18)

Analisi  seman%ca  

Consiste  nell’associare  ad  ogni  frase  una   descrizione  della  sua  seman%ca.    

L’input  è  la  frase  tokenizzata,  analizzata  

morfologicamente  (dal  PoS  tagging)  e  

sintaRcamente  (dal  parsing).  

(19)

Analisi  seman%ca  

È  il  %po  di  analisi  più  difficile  per  la  quale   esistono  solo  alcuni  sub-­‐task  sviluppa%.  

Tra  di  essi  ci%amo  il  word  sense  

disambigua%on  per  il  quale  esistono  risorse   linguis%che  molto  importan%:

 

BabelNet  h,p://babelnet.org/

 

Mul%WordNet  h,p://mulCwordnet.Sk.eu/

english/home.php/  

(20)

Gerarchia  di  Task  di  LC  

I  task  “nuovi”  si  basano  su  quelli  tradizionali,   ad  esempio  la  Sen%ment  analysis  sovente   u%lizza  forme  di  (parziale)  analisi  

morfologica  e  sintaRca.  

(21)

Sen%ment  analysis  

Consiste  nell’associare  ad  ogni  porzione  data   di  testo  un  valore  di  polarità  o  una  

classificazione.  

L’input  è  il  testo,  eventualmente  analizzato   morfologicamente  e/o  sintaRcamente.  

L’output  è  il  testo  classificato  secondo  la  

polarità  o  altra  classe  definita.  

(22)

Sen%ment  analysis  e  risorse  

-­‐  Lessici  per  la  sen%ment  analysis:  

contengono  parole  con  associata  una   polarità  (AFINN)  

-­‐  Quando  un  sistema  di  sen%ment  analysis  

deve  rilevare  la  polarità  di  un  testo  cerca  le   parole  del  testo  nel  lessico,  se  le  trova  

prende  la  loro  polarità  e  sommando  tuIe  

le  polarità  delle  parole  calcola  quella  della  

frase.  

(23)

Esempi  di  risorse  linguis%che  

“Mario  MonC:  Berlusconi  risparmi  all'Italia  il   biasimo  per  aver  causato  un  disastro  

#mariomonCpremier  “  >  Polarità  Nega%va  

“Mario  #MonC  Senatore  a  vita  è  una  

splendida  noCzia  per  tuW  gli  italiani,  è  

l'emblema  di  quei  ci,adini  meritevoli  che  

onorano  la  Patria.”    >  Polarità  Posi%va  

(24)

Le  risorse  linguis%che  

La  quan%tà  e  la  varietà  di  risorse  

linguis%che  dimostra  la  loro  centralità   per  la  LC.    

Una  parte  consistente  della  comunità  della   LC  lavora  solo  per  costruire  risorse.  

Esistono  molte  risorse  per  l’inglese,  ma  

anche  per  altre  lingue  (a  volte  costruite  a  

par%re  dalle  prime).  

(25)

Le  risorse  linguis%che  

-­‐  Con  il  termine  risorse  linguis%che  si   indicano  i  corpora  e  tuIe  le  altre  

-­‐  Sono  delle  raccolte  di  informazioni  a  cui  i   sistemi  di  LC  accedono  durante  lo  

svolgimento  del  loro  compito   -­‐  Esse  rappresentano  il  versante  

preIamente  linguis%co  della  LC  

(26)

CORPORA  e  TREEBANK  

A  par%re  dalla  fine  degli  anni  ’90  si  

applicano  nella  LC  approcci  basa%  su   corpora.  

Inizialmente  si  traIa  di  corpora  molto   grandi  non  annota%  (approcci  non   supervisiona%).  

In  seguito  si  traIa  di  corpora  meno   grandi  ma  annota%  (approcci  

supervisiona%).  

(27)

Annotazione  e  corpora  

Come  annotare  i  da%  ?  

Le  informazioni  annotate  variano  

parecchio  a  seconda  dello  scopo  per  cui   si  costruisce  il  corpus,  perché  le  

informazioni  che  i  sistemi  devono  

apprendere  sono  streIamente  correlate  

al  compito  che  il  sistema  deve  svolgere.  

(28)

Annotazione  e  corpora  

Come  annotare  i  da%  ?  

-­‐  Corpora  per  sen%ment  analysis:  

polarità,  stance,  ironia,  target  ...  

-­‐  Corpora  per  named  en%ty  

recogni%on:  persone,  luoghi,   aziende,  date  ...  

-­‐  Corpora  per  Part  of  Speech  tagging:  

 lemmi,  categorie  gramma%cali,  ...  

(29)

Annotazione  e  treebank  

Come  annotare  i  da%  ?  

Per  ogni  livello  di  annotazione  vengono   faIe  delle  scelte  sia  sulla  teoria  

linguis%ca  da  prendere  come  

riferimento  sia  sul  modo  in  cui  

fisicamente  mostrare  i  da%.    

(30)

Annotazione  e  treebank  

Quali  da%  annotare  ?  

Occorre  scegliere  i  tes%  da  introdurre  nel  

corpus  in  modo  che  siano  rappresenta%vi  

del  linguaggio  che  si  vuole  traIare.  

(31)

Annotazione  e  treebank  

Quali  da%  annotare  ?  

un  corpus  é  un  campione  significa%vo  e   rappresenta%vo  di  un  linguaggio  SE:  

• con%ene  frasi  non  ristreIe    

• è  “bilanciato”  rispeIo  al  genere,  alla  

collocazione  geografica  e  sociale,  al  tempo            

• MA  non  rappresenta  mai  TUTTO  il  linguaggio  

nel  suo  complesso  

Riferimenti

Documenti correlati

[r]

Un insieme nel piano si dice Un insieme nel piano si dice convesso convesso se se il segmento che unisce due punti il segmento che unisce due punti. qualsiasi

avere una unit à à di prodotto si usino di prodotto si usino n merci n merci in in quantit quantit à à rispettivamente rispettivamente..

NB: NB: Per poter fare l Per poter fare l ’ ’ addizione fra addizione fra due matrici, queste devono essere due matrici, queste devono

Both SPECT and PET imaging can be used to evaluate epicardial coronary stenoses, but PET has a unique advantage in being able to evaluate coronary flow reserve using

Gli effetti della crisi occupa- zionale dovuta all'emergenza sanitaria si sono, infatti, in pre- valenza ripercossi sulle compo- nenti già piùvulnerabili del mer- cato del lavoro

- alla candidata dott.ssa Passoni Elisabetta Angela l'incarico libero professionale di Medico con specializzazione in Medicina dello Sport da espletarsi presso l'UOS Medicina

newspapers (Wall Street Journal), telephone conversations. Selezione  in  altri  treebank