• Non ci sono risultati.

Linguis’ca computazionale e treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Linguis’ca computazionale e treebank"

Copied!
50
0
0

Testo completo

(1)

Linguis'ca  computazionale   e  treebank  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla   comunicazione  mul%mediale  

2016-­‐2017  

(2)

Il  proge=o  Turin  University   Treebank  

• ObieFvo:    

sviluppare  una  risorsa  linguis%ca,  

una  banca  di  alberi  sintaFci  per  

l’italiano

 

(3)

Fasi  di  sviluppo  del  proge=o  

• Selezione  dei  tes%  da  annotare  

• Definizione  dello  schema  di   annotazione  

• Applicazione  dello  schema  al  corpus  di  

tes%  (validità  e  consistenza)  

(4)

Selezione  di  tes'  in  TUT  

•  Giornali  quo%diani  (1.100  frasi  =  18,044  tokens)  

•  Codice  civile  (1.100  frasi  =  28,048  tokens)  

•  Acquis  (201  frasi  =  7,455  tokens)  

•  Wikipedia  (459  frasi  =  14,746  tokens)  

•  Cos%tuzione  Italiana,  intera    (682  frasi  =  13,178   tokens)  

•  Totale  3.452  frasi  =  102.000  token  

(5)

TEXTS from

PRAGUE newspapers, scientific and economic

journals

NEGRA newspaper Frankfurter Rundschau

PENN IBM manuals, nursing notes,

newspapers (Wall Street Journal), telephone conversations

Selezione  in  altri  treebank  

(6)

Definizione  dello  schema  di   annotazione  

• Scelta  del  formalismo  

• Scelta  delle  informazioni  e  

stru=ure  da  rappresentare  

(7)

Stru=ura  sintaFca:  scelta   tra  2  aspeF  

• L’organizzazione  delle  unitá  della  frase   (sintagmi  e  cons%tuent  structure)  

• La  funzione  degli  elemen%  della  frase   (relazioni  gramma%cali  e  rela%onal  

structure)  

(8)

Rela%onal  structure  

• Le  parole  della  frase  svolgono   funzioni  diverse    

• Le  funzioni  sono  espresse  in  

termini  di  relazioni  gramma%cali  

(9)

Cons%tuent  structure  

Le  parole  della  frase  sono  organizzate  

in  unità  (cos%tuen%)  che  a  loro  volta  

sono  ogge=o  di  una  organizzazione  

(cons%tuent  structure)  in  unità  più  

grandi  

(10)

Cons%tuent  structure  

Le  relazioni  tra  le  parole  non  sono  tu=e   uguali:  

     “Maria  leggeva  un  libro  in  biblioteca”  

(11)

ES:  Penn  annota'on  

(  S    

         (  NP  -­‐  SBJ        (PRP      I)  )  

         (  ADVP    -­‐    TMP      (  RB      never)  )            (  VP    (VBD      had)    

                 (  NP    (JJ        many)  (NNS      clients)  )                    (  NP  -­‐  ADV    (DT      a)  (  NN      day)  ))           ))  

NP  

VP  

NP   ADVP  

NP   S  

SBJ  

TMP  

PRP  

RB   VBD  

NNS   DT  

NN   DT  

ADV  

(12)

ES:  NEGRA  annota'on  

S   VP  

HD   SB   NG  

MO   HD   OA  

OC  

ADV                VVPP              VAFIN                NE                    NE              ADV  

(13)

Cos%tuen%  e  relazioni  

• La  stru=ura  relazionale  include  le   informazioni  rela%ve  all’  

   organizzazione  della  frase  in  unità    

• La  stru=ura  a  cos%tuen%  non  include  le   informazioni  rela%ve  alla  funzione  delle   parole  

• La  stru=ura  relazionale  è  più  compa=a  

(14)

• Sia  le  relazioni  che  i  cos%tuen%  sono   realizza%  in  modo  diverso  nelle  

diverse  lingue  

• La  stru=ura  relazionale  include  la   stru=ura  argomentale  

Cos%tuen%  e  relazioni  

(15)

La  stru=ura   argomentale  

• relazioni  gramma%cali  

• ruoli  seman%ci  

• uguali  o  dis%n%?    

(16)

Le  relazioni   gramma%cali  

• Le  relazioni  sono  realizzate  

diversamente  nelle  varie  lingue,  a   seconda  dell’uso  di  casi,  inflessioni  

 give  someone  something                                                              

dare  a  qualcuno  qualcosa  

(17)

MORPHO SYNT SEM

PRAGUE semi-

automatic semi-

automatic semi-

automatic

NEGRA automatic interactive

(probabilistic)

PENN automatic automatic

(skeletal)

Processo  di  annotazione  

(18)

Processo  di  annotazione     in  TUT  

• Part  Of  Speech  tagging  automa%co  

• Correzione  manuale  del  tagging  

• Parsing  interaFvo  

• Verifica  e  revisione    

(19)

Costruire  un  treebank  

Per  costruire  validi  sistemi  di  analisi  del   linguaggio  occorrono  i  treebank.  

InfaF  è  dimostrato  che  i  sistemi  di  NLP  

che  o=engono  i  migliori  risulta%  sono  

quelli  che  prendono  le  informazioni  da  

treebank)  

(20)

Costruire  un  treebank  

Per  costruire  dei  treebank  occorrono   validi  sistemi  di  analisi  del  linguaggio.  

È  impossibile  costruire  treebank  in  modo   esclusivamente  manuale  per  mo%vi  di  

tempo  e  di  corre=ezza.  

(21)

Costruire  un  treebank  

In  pra%ca  l’annotazione  dei  treebank  è   prodo=a  da  

sistemi  automa%ci  di  analisi  morfologica   (-­‐4%  errore)  e  sintaFca  (-­‐10%  errore)  

+  

annotatori  umani  che  correggono  le  analisi  

prodo=e  in  modo  automa%co  

(22)

Ogni  relazione  di  TUT  può  essere  composta  di  3   elemen%:  

•  Morfo-­‐sintaFco:  features  che  esprimono  la   categoria  gramma%cale  Verb,  Noun,  …  

•  Funzionale-­‐sintaFco:  relazioni  sintaFche  come   Subject,  Object    

•  Seman%co:  relazioni  seman%che  come   Loca%on,  Time,  Cause    

Le  dipendenze  nel  TUT  

(23)

1  In  (IN  PREP  MONO)  [7;PREP-­‐RMOD-­‐TIME]  

2  quei  (QUELLO  ADJ  DEMONS  M  PL)  [1;PREP-­‐ARG]  

3  giorni  (GIORNO  NOUN  COMMON  M  PL)  [2;DET+DEF-­‐

ARG]  

4  Sudja  (|Sudja|  NOUN  PROPER)  [7;VERB-­‐SUBJ]  

5  la  (IL  ART  DEF  F  SING)  [4;APPOSITION]  

6  zingara  (ZINGARO  NOUN  COMMON  F  SING)  [5;DET +DEF-­‐ARG]  

7  annunciava  (ANNUNCIARE  VERB  MAIN  IND  IMPERF   TRANS  3  SING)  [0;TOP-­‐VERB]  

8  il  (IL  ART  DEF  F  SING)  [7;VERB-­‐OBJ]  

9  fallimento  (FALLIMENTO  NOUN  COMMON  M  SING  

FALLIRE  INTRANS)  [8;DET+DEF-­‐ARG]  

(24)
(25)
(26)

     La  nazione                sogna                  ricchezza  

 

I  sogni              di  ricchezza                    della  nazione    

 Velocemente          /      in  modo  veloce   VERB-­‐SUBJ  

       NOUN-­‐OBJ        NOUN-­‐SUBJ   VERB-­‐OBJ  

 VERB  

 NOUN  

     ADV-­‐role            ADV-­‐role  

TUT  Componente    

morfo-­‐sinta\ca  

(27)

TUT  Componente    

morfo-­‐sinta\ca  

(28)

•  Da%  944  differen%  Verbi  per  un  totale  di  4.169   occorrenze  nel  corpus  di  TUT  

•  Il  30%  di  ques%  Verbi  (e  le  stru=ure  predica%ve   argomentali  ad  essi  associate)  risulta  presente   anche  in  forma  nominale  

TUT  Componente    

morfo-­‐sinta\ca  

(29)

         Egli  non  è  stato  visto      da      nessuno    Egli  non  è  stato  visto      da  ieri  

           ARG      MOD  

TUT  Componente    

funzionale-­‐sinta\ca  

(30)

TUT  Componente    

funzionale-­‐sinta\ca  

(31)

   Da  qui                          è  par%to  l’assalto

 

   Succedeva    dall’altra  parte  del  mondo

 

   I  miliardi  stanzia%      dal  1991

 

   Era  impazzito      dal  dolore  

   Trarrà  beneficio      dalla  bonifica   LOC+FROM  

LOC+IN  

TIME  

REASONCAUSE   SOURCE  

TUT  Componente    

seman'ca  

(32)

TUT  Componente    

seman'ca  

(33)

•  Da%  600  sintagmi  preposizionali  introdoF  dalla   preposizione  DA  e  che  svolgono  il  ruolo  di  

modificatori  

•  È  stato  rilevato  che  essi  possono  assumere  i   seguen%  7  differen%  valori  seman%ci:      LOC

+FROM,  LOC+IN,  LOC+METAPH,  TIME,  THEME,   REASONCAUSE,  SOURCE  

TUT  Componente    

seman'ca  

(34)

1  In  (IN  PREP  MONO)  [7;PREP-­‐RMOD-­‐TIME]  

2  quei  (QUELLO  ADJ  DEMONS  M  PL)  [1;PREP-­‐ARG]  

3  giorni  (GIORNO  NOUN  COMMON  M  PL)  [2;DET+DEF-­‐

ARG]  

4  Sudja  (|Sudja|  NOUN  PROPER)  [7;VERB-­‐SUBJ]  

5  la  (IL  ART  DEF  F  SING)  [4;APPOSITION]  

6  zingara  (ZINGARO  NOUN  COMMON  F  SING)  [5;DET +DEF-­‐ARG]  

7  annunciava  (ANNUNCIARE  VERB  MAIN  IND  IMPERF   TRANS  3  SING)  [0;TOP-­‐VERB]  

8  il  (IL  ART  DEF  F  SING)  [7;VERB-­‐OBJ]  

9  fallimento  (FALLIMENTO  NOUN  COMMON  M  SING  

 FALLIRE  INTRANS)  [8;DET+DEF-­‐ARG]  

(35)

Applicare  lo  schema  di  annotazione  a  TUT   significa  che  ogni  sua  frase:  

• viene  parsificata  in  modo  automa%co  dal  

parser  TULE,  sviluppato  in  parallelo  con  TUT  

• corre=a  da  almeno  2  annotatori  umani  

• verificata  da  tool  automa%ci  apposi%  

• so=oposta  a  conversioni  e  applicazione  di  

altri  sistemi    

(36)

Ricadute  del  proge]o  TUT  

U%lizzo  in  3  diverse  direzioni:  

• Come  raccolta  di  da%  linguis%ci  

• Come  banco  di  prova  per  sistemi  di  NLP  

• Come  modello  per  lo  sviluppo  di  altre  

risorse  

(37)

• Come  raccolta  di  da%  linguis%ci  TUT  ha   consen%to  

• Studi  sul  comportamento  dei  verbi  della   lingua  italiana  (estrazione  di  conoscenza)  

• Studio  dell’ordine  delle  parole  nella   lingua  italiana  

Ricadute  del  proge]o  TUT  

(38)

(in  3500  sentences)  

Ricadute  del  proge]o  TUT  

(39)

• Come  banco  di  prova  per  sistemi  di  NLP  

TUT  ha  consen%to  di  raggiungere  i  risulta%  

allo  stato  dell’arte  per  il  parsing  

dell’italiano,  errore  intorno  al  10%    

• TUT  è  stato  il  treebank  di  riferimento  nelle   compe%zioni  per  parser  di  italiano  (Evalita   07,  09,  11)  

Ricadute  del  proge]o  TUT  

(40)

•  Come  modello  per  lo  sviluppo  di  altre  risorse,   TUT  è  u%lizzato  in:  

•  in  prospeFva  cross-­‐linguis%ca,  ha  consen%to  lo   sviluppo  di  un  treebank  parallelo  per  le  lingue   italiano,  francese  e  inglese  (ParallelTUT)  

Ricadute  del  proge]o  TUT  

(41)

•  INOLTRE:  TUT  è  stato  trado=o  in  forma%  di  altri   treebank  grazie  a  tool  di  conversione  

automa%ca    

•  Questo  ha  reso  possibile  l’applicazione  di   strumen%  sviluppa%  per  tali  forma%  ed  il  

confronto  tra  paradigmi  e  modelli  linguis%ci   differen%  nell’ambito  del  dibaFto  su  quale   formato  si  rivela  più  adeguato  per  il  NLP  in   generale  e  per  le  diverse  lingue  naturali  

Ricadute  del  proge]o  TUT  

(42)

Il  Turin  University  Treebank  (TUT)  e  ParTUT   sono  tuF  progeF    

del  Content  Centered  Compu%ng  Group  (C.  

Bosco,  A.  Mazzei,  V.  Lombardo,  R.  Damiano  ,   V.  PaF,  M.  SanguineF)                                  

 del  Dipar%mento  di  Informa%ca                        

dell’Università  di  Torino  

(43)

Per  ulteriori  informazioni:  

h=p://www.di.unito.it/~tutreeb  

(44)

Un  treebank  parallelo  italiano  francese  e   inglese  nel  formato  del  TUT.  

Il  proge]o  ParallelTUT  

(45)

Un  importante  problema  per  la  LC  è  la   valutazione:  

sia  come  confronto  tra  risulta%  degli  umani  e   quelli  del  sistema  di  LC  

sia  come  confronto  tra  i  risulta%  di  sistemi   diversi  

Treebank  e  valutazione  

(46)

L’esistenza  di  molte  risorse  diverse  rende   però  difficile  confrontare  i  risulta%  

o=enu%  da  diversi  sistemi  e  la  valutazione   deve  sempre  essere  fa=a  in  relazione  alle   stesse  risorse.  

Se  il  sistema  X  e  il  sistema  Y  u%lizzano  lo  

stesso  corpus  per  apprendere,  o=engono   lo  stesso  output?  

Treebank  e  valutazione  

(47)

La  comunità  della  LC  opera  pertanto  nella   direzione  di  rendere  confrontabili  i  

risulta%  dei  sistemi  che  svolgono  lo  stesso   task.  

Questo  significa  ad  esempio  che  si  cerca  di   costruire  risorse  in  cui  si  u%lizza  lo  stesso   formato  di  rappresentazione  (standard).  

Treebank  e  valutazione  

(48)

La  nozione  di  standard  è  par%colarmente  

rilevante  per  i  treebank  e  ha  portato  alla   definizione  di  un  formato  universale  de=o   Universal  Dependency.  

Questo  processo  è  durato  vari  anni  e  ha   comportato  vari  passi  all’interno  delle  

varie  comunità  che  operano  sulle  singole   lingue.  

Treebank  e  standard  

(49)

Per  la  lingua  italiana  ad  esempio  sono  sta%  

crea%,  intorno  all’anno  2000,  2  treebank,   entrambi  con  un  formato  a  dipendenze,   TUT  e  Italian  Syntac%c  Seman%c  Treebank   (presso  l’Is%tuto  di  Linguis%ca  

Computazionale  CNR  di  Pisa).  

Ques%  sono  sta%  fusi  grazie  ad  un  processo  di   conversione  in  un  formato  intermedio  e  

poi  tradoF  in  Universal  Dependency.  

Treebank  e  standard  

(50)

Questo  formato  soddisfa  l’interesse  per  

confron%  mul%lingui  e  rende  possibile  sia   campagne  di  valutazione  mul%lingui  sia   l’apprendimento  cross-­‐linguistco  a  

supporto  della  LC  per  lingue  per  cui  non   esistono  risorse.  

h=p://universaldependencies.org/  

Universal  Dependency  

Riferimenti

Documenti correlati

Consiste nell’associare ad ogni token una descrizione della sua morfologia.. L’input è il

dorme VERB IND PRES 3 SING. Il ART DEF

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank

Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague

Developing readers in Grade 3 and skilled adult readers participated in a reading aloud task in four alphabetic orthographies (English, French, German, Italian), which differ in

Trade. Cambridge, Mass.: Basil Blackwell. Implications of intellectual property rights for dynamic gains from trade, American Economic Review, 95, 318-322. TRIPS and

These groups are subgroups of punctured mapping class groups of closed surfaces and are related to the study of link theory in a closed 3-manifold.. In this paper we define and study

In questo lavoro si è descritta una metodologia, sviluppata specificamente per elettrodotti MT a doppia terna non ottimizzati, che si vale della tecnica della regressione multilineare