• Non ci sono risultati.

Linguis’ca  e  treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Linguis’ca  e  treebank"

Copied!
14
0
0

Testo completo

(1)

Linguis'ca  e  treebank  

Cris%na  Bosco  

Corso  di  Informa%ca  applicata  alla   comunicazione  mul%mediale  

2016-­‐2017  

(2)

Tu=e  le  risorse  linguis%che  servono  a  fornire   informazioni  ai  sistemi  che  tra=ano  in  

modo  automa%co  il  linguaggio  (in  seguito   parleremo  di  risorse  per  la  Computer  

Assisted  Transla%on,  che  non  sono  sistemi   automa%ci).  

I  treebank  però  servono  anche  per  altri  scopi.  

Risorse  e  LC  

(3)

I  corpora  annota%  contengono  conoscenza   che  può  essere  u%lizzata  per  sviluppare  e   valutare  teorie  linguis%che.    

Sulla  base  dei  da%  annota%  si  possono  infaL   formulare  ipotesi  e  trovare  smen%te  e  

conferme  per  esse.  

A  cosa  servono  i  treebank?  

(4)

Le  analisi  più  o  meno  complesse  condo=e  sui   corpora  annota%  sono  compa%bili  con  

un’ampia  gamma  di  teorie  sul  linguaggio  e   possono  quindi  essere  u%lizzate  per  

dimostrarle  ovvero  per  smen%rle.  

A  cosa  servono  i  treebank?  

(5)

Un  corpus  costruito  per  la  SA  è  cos%tuito  da   un  insieme  di  post  ad  ognuno  dei  quali   sono  associa%  dei  metada%  e  delle  

annotazioni.  

Me=endo  insieme  le  due  cose  possiamo   trovare  l’autore  che  ha  espresso  le  

opinioni  più  retwi=ate  (opinion  leader),   quale  quelle  più  nega%ve  …  e  possiamo   vedere  la  rete  di  comunicazione.  

Esempio:  corpora  per  SA  

(6)

Definire  i  metodi  sperimentali  in  opposizione   a  quelli  basa%  sull’intuizione  introspeLva   è  in  realtà  fuorviante.    

Un’indagine  basata  su  corpora  prende  l’avvio   ed  è  guidata  dall’intuizione  stessa  che  sta   alla  base  dell’introspezione  del  

ricercatore.  L’introspezione  è  l’avvio  del   processo  che  culmina  nella  verifica  

sperimentale.  

Competence  e  performance  

(7)

Posizione  nominalista:  il  linguista  deve  

studiare  gli  even%  linguis%ci  codifica%  

nelle  parole  frasi  ecc.,  nei  campioni  di  da%    

e  non  cose  astra=e.  

Posizione  esternalista:  all’opposto  il  linguista   deve  studiare  oggeL  astraL  come  classi  e  

%pi  che  danno  senso  a  parole  frasi  ecc.,  e   non  gli  even%  in  se’.  

Competence  e  performance  

(8)

Posizione  di  Chomsky:  rifiuta  la  posizione   nominalista  e  esternalista  proponendo   una  posizione  internalista  e  mentalista   per  cui  l’ogge=o  di  studio  è  la  capacità   mentale  di  apprendere  e  usare  il  

linguaggio.  

Come  nella  posizione  nominalista  non  si  

studiano  categorie  astra=e,  non  perchè   non  esistono  ma  perchè  sono  irrilevan%.  

Competence  e  performance  

(9)

Nella  corpus  linguis%cs  moderna  si  supera  la   posizione  nominalista  in  quanto  si  da  

importanza  all’inferenza  e  astrazione  che   si  può  fare  sui  da%  del  corpus.  

In  questo  senso  il  corpus  serve  per  fare  

previsioni  sui  nuovi  da%  (e  proprio  questo   avviene  nei  sistemi  sta%s%ci  che  

apprendono  dai  corpora!),  non  interessa   di  per  se’  ma  in  quanto  fonte  di  conferme.  

Competence  e  performance  

(10)

Nella  corpus  linguis%cs  moderna  si  supera  la   posizione  esternalista  in  quanto  si  ha  

maggiore  libertà  nella  scelta  del  corpus.  

Un  corpus  consente  di  fare  astrazioni  su   una  popolazione  linguis%ca,  ma  anche  su   un  singolo  individuo,  a  seconda  del  

corpus.  

Competence  e  performance  

(11)

Tra  le  mo%vazioni  delle  cri%che  di  Chomsky   c’era  il  fa=o  che  i  corpora  sono  raccolte  di   specifiche  occorrenze  di  espressioni  

linguis%che  che  contengono  quindi  fa=ori   di  distrazione  e  rumore.  

In  realtà  la  psicolinguis%ca  oggi  ha  dimostrato   che  anche  nel  giudizio  introspeLvo  

entrano  in  gioco  fa=ori  di  rumore,  come   in  qualunque  situazione  sperimentale.  

Competence  e  performance  

(12)

La  soluzione  di  problemi  come  il  rumore  è  la   cura  estrema  nel  raccogliere  e  tra=are  i  

da%,  siano  essi  derivan%  da  competence  o   performance.  

Inoltre  l’errore  è  fonte  di  conoscenza  perchè   molto  sovente  non  è  casuale.  I  corpora  

spesso,  mostrando  la  sistema%cità  

dell’errore,  aprono  uno  spiraglio  sulla   conoscenza  della  competence.  

Competence  e  performance  

(13)

Un  esempio  sono  i  corpora  di  apprendimento   della  seconda  lingua  dove  diversi  errori  

sistema%ci  cara=erizzano  i  madrelingua  di   diverse  lingue.  

Tra  ques%  il  corpus  VALICO  sviluppato  presso   il  Dipar%mento  di  Lingue  dell’Università  di   Torino.  

Competence  e  performance  

(14)

I  corpora  mostrano  prove  cara=erizzate  da   gradualità  non  categoricità.  Questo  viene   sfru=ato  dagli  approcci  sta%s%ci,  mentre   in  quelli  non  sta%s%ci  tu=e  le  sfumature   intermedie  vanno  perse.  

Corpora  e  sta%s%ca  

Riferimenti

Documenti correlati

dorme VERB IND PRES 3 SING. Il ART DEF

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank

newspapers (Wall Street Journal), telephone conversations. Selezione  in  altri  treebank

Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague

[r]

ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni:.. • composizione e dimensione

[r]

Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da.. importanza all’inferenza e astrazione che si può fare sui dati