Linguis'ca e treebank
Cris%na Bosco
Corso di Informa%ca applicata alla comunicazione mul%mediale
2016-‐2017
Tu=e le risorse linguis%che servono a fornire informazioni ai sistemi che tra=ano in
modo automa%co il linguaggio (in seguito parleremo di risorse per la Computer
Assisted Transla%on, che non sono sistemi automa%ci).
I treebank però servono anche per altri scopi.
Risorse e LC
I corpora annota% contengono conoscenza che può essere u%lizzata per sviluppare e valutare teorie linguis%che.
Sulla base dei da% annota% si possono infaL formulare ipotesi e trovare smen%te e
conferme per esse.
A cosa servono i treebank?
Le analisi più o meno complesse condo=e sui corpora annota% sono compa%bili con
un’ampia gamma di teorie sul linguaggio e possono quindi essere u%lizzate per
dimostrarle ovvero per smen%rle.
A cosa servono i treebank?
Un corpus costruito per la SA è cos%tuito da un insieme di post ad ognuno dei quali sono associa% dei metada% e delle
annotazioni.
Me=endo insieme le due cose possiamo trovare l’autore che ha espresso le
opinioni più retwi=ate (opinion leader), quale quelle più nega%ve … e possiamo vedere la rete di comunicazione.
Esempio: corpora per SA
Definire i metodi sperimentali in opposizione a quelli basa% sull’intuizione introspeLva è in realtà fuorviante.
Un’indagine basata su corpora prende l’avvio ed è guidata dall’intuizione stessa che sta alla base dell’introspezione del
ricercatore. L’introspezione è l’avvio del processo che culmina nella verifica
sperimentale.
Competence e performance
Posizione nominalista: il linguista deve
studiare gli even% linguis%ci codifica%
nelle parole frasi ecc., nei campioni di da%
e non cose astra=e.
Posizione esternalista: all’opposto il linguista deve studiare oggeL astraL come classi e
%pi che danno senso a parole frasi ecc., e non gli even% in se’.
Competence e performance
Posizione di Chomsky: rifiuta la posizione nominalista e esternalista proponendo una posizione internalista e mentalista per cui l’ogge=o di studio è la capacità mentale di apprendere e usare il
linguaggio.
Come nella posizione nominalista non si
studiano categorie astra=e, non perchè non esistono ma perchè sono irrilevan%.
Competence e performance
Nella corpus linguis%cs moderna si supera la posizione nominalista in quanto si da
importanza all’inferenza e astrazione che si può fare sui da% del corpus.
In questo senso il corpus serve per fare
previsioni sui nuovi da% (e proprio questo avviene nei sistemi sta%s%ci che
apprendono dai corpora!), non interessa di per se’ ma in quanto fonte di conferme.
Competence e performance
Nella corpus linguis%cs moderna si supera la posizione esternalista in quanto si ha
maggiore libertà nella scelta del corpus.
Un corpus consente di fare astrazioni su una popolazione linguis%ca, ma anche su un singolo individuo, a seconda del
corpus.
Competence e performance
Tra le mo%vazioni delle cri%che di Chomsky c’era il fa=o che i corpora sono raccolte di specifiche occorrenze di espressioni
linguis%che che contengono quindi fa=ori di distrazione e rumore.
In realtà la psicolinguis%ca oggi ha dimostrato che anche nel giudizio introspeLvo
entrano in gioco fa=ori di rumore, come in qualunque situazione sperimentale.
Competence e performance
La soluzione di problemi come il rumore è la cura estrema nel raccogliere e tra=are i
da%, siano essi derivan% da competence o performance.
Inoltre l’errore è fonte di conoscenza perchè molto sovente non è casuale. I corpora
spesso, mostrando la sistema%cità
dell’errore, aprono uno spiraglio sulla conoscenza della competence.
Competence e performance
Un esempio sono i corpora di apprendimento della seconda lingua dove diversi errori
sistema%ci cara=erizzano i madrelingua di diverse lingue.
Tra ques% il corpus VALICO sviluppato presso il Dipar%mento di Lingue dell’Università di Torino.
Competence e performance
I corpora mostrano prove cara=erizzate da gradualità non categoricità. Questo viene sfru=ato dagli approcci sta%s%ci, mentre in quelli non sta%s%ci tu=e le sfumature intermedie vanno perse.
Corpora e sta%s%ca