Linguistica e treebank
Cristina Bosco
Corso di Informatica applicata alla comunicazione multimediale
2016-2017
Tutte le risorse linguistiche servono a fornire informazioni ai sistemi che trattano in
modo automatico il linguaggio (in seguito parleremo di risorse per la Computer
Assisted Translation, che non sono sistemi automatici).
I treebank però servono anche per altri scopi.
Risorse e LC
I corpora annotati contengono conoscenza che può essere utilizzata per sviluppare e valutare teorie linguistiche.
Sulla base dei dati annotati si possono infatti formulare ipotesi e trovare smentite e
conferme per esse.
A cosa servono i treebank?
Le analisi più o meno complesse condotte sui corpora annotati sono compatibili con
un’ampia gamma di teorie sul linguaggio e possono quindi essere utilizzate per
dimostrarle ovvero per smentirle.
A cosa servono i treebank?
Un corpus costruito per la SA è costituito da un insieme di post ad ognuno dei quali sono associati dei metadati e delle
annotazioni.
Mettendo insieme le due cose possiamo
trovare l’autore che ha espresso le opinioni più retwittate (opinion leader), quale
quelle più negative … e possiamo vedere la rete di comunicazione.
Esempio: corpora per SA
Definire i metodi sperimentali in opposizione a quelli basati sull’intuizione introspettiva è in realtà fuorviante.
Un’indagine basata su corpora prende l’avvio ed è guidata dall’intuizione stessa che sta alla base dell’introspezione del ricercatore.
L’introspezione è l’avvio del processo che culmina nella verifica sperimentale.
Competence e performance
Posizione nominalista: il linguista deve studiare gli eventi linguistici codificati
nelle parole frasi ecc., nei campioni di dati e non cose astratte.
Posizione esternalista: all’opposto il linguista deve studiare oggetti astratti come classi e tipi che danno senso a parole frasi ecc., e non gli eventi in se’.
Competence e performance
Posizione di Chomsky: rifiuta la posizione
nominalista e esternalista proponendo una posizione internalista e mentalista per cui l’oggetto di studio è la capacità mentale di apprendere e usare il linguaggio.
Come nella posizione nominalista non si
studiano categorie astratte, non perchè non esistono ma perchè sono irrilevanti.
Competence e performance
Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da
importanza all’inferenza e astrazione che si può fare sui dati del corpus.
In questo senso il corpus serve per fare
previsioni sui nuovi dati (e proprio questo avviene nei sistemi statistici che
apprendono dai corpora!), non interessa di per se’ ma in quanto fonte di conferme.
Competence e performance
Nella corpus linguistics moderna si supera la posizione esternalista in quanto si ha
maggiore libertà nella scelta del corpus.
Un corpus consente di fare astrazioni su una popolazione linguistica, ma anche su un singolo individuo, a seconda del
corpus.
Competence e performance
Tra le motivazioni delle critiche di Chomsky c’era il fatto che i corpora sono raccolte di specifiche occorrenze di espressioni
linguistiche che contengono quindi fattori di distrazione e rumore.
In realtà la psicolinguistica oggi ha dimostrato che anche nel giudizio introspettivo
entrano in gioco fattori di rumore, come in qualunque situazione sperimentale.
Competence e performance
La soluzione di problemi come il rumore è la cura estrema nel raccogliere e trattare i
dati, siano essi derivanti da competence o performance.
Inoltre l’errore è fonte di conoscenza perchè molto sovente non è casuale. I corpora spesso, mostrando la sistematicità
dell’errore, aprono uno spiraglio sulla conoscenza della competence.
Competence e performance
Un esempio sono i corpora di apprendimento della seconda lingua dove diversi errori
sistematici caratterizzano i madrelingua di diverse lingue.
Tra questi il corpus VALICO sviluppato presso il Dipartimento di Lingue dell’Università di Torino.
Competence e performance
I corpora mostrano prove caratterizzate da gradualità non categoricità. Questo viene sfruttato dagli approcci statistici, mentre in quelli non statistici tutte le sfumature intermedie vanno perse.
Corpora e statistica