Linguistica e treebank

(1)

Linguistica e treebank

Cristina Bosco

Corso di Informatica applicata alla comunicazione multimediale

2016-2017

(2)

Tutte le risorse linguistiche servono a fornire informazioni ai sistemi che trattano in

modo automatico il linguaggio (in seguito parleremo di risorse per la Computer

Assisted Translation, che non sono sistemi automatici).

I treebank però servono anche per altri scopi.

Risorse e LC

(3)

I corpora annotati contengono conoscenza che può essere utilizzata per sviluppare e valutare teorie linguistiche.

Sulla base dei dati annotati si possono infatti formulare ipotesi e trovare smentite e

conferme per esse.

A cosa servono i treebank?

(4)

Le analisi più o meno complesse condotte sui corpora annotati sono compatibili con

un’ampia gamma di teorie sul linguaggio e possono quindi essere utilizzate per

dimostrarle ovvero per smentirle.

A cosa servono i treebank?

(5)

Un corpus costruito per la SA è costituito da un insieme di post ad ognuno dei quali sono associati dei metadati e delle

annotazioni.

Mettendo insieme le due cose possiamo

trovare l’autore che ha espresso le opinioni più retwittate (opinion leader), quale

quelle più negative … e possiamo vedere la rete di comunicazione.

Esempio: corpora per SA

(6)

Definire i metodi sperimentali in opposizione a quelli basati sull’intuizione introspettiva è in realtà fuorviante.

Un’indagine basata su corpora prende l’avvio ed è guidata dall’intuizione stessa che sta alla base dell’introspezione del ricercatore.

L’introspezione è l’avvio del processo che culmina nella verifica sperimentale.

Competence e performance

(7)

Posizione nominalista: il linguista deve studiare gli eventi linguistici codificati

nelle parole frasi ecc., nei campioni di dati e non cose astratte.

Posizione esternalista: all’opposto il linguista deve studiare oggetti astratti come classi e tipi che danno senso a parole frasi ecc., e non gli eventi in se’.

(8)

Posizione di Chomsky: rifiuta la posizione

nominalista e esternalista proponendo una posizione internalista e mentalista per cui l’oggetto di studio è la capacità mentale di apprendere e usare il linguaggio.

Come nella posizione nominalista non si

studiano categorie astratte, non perchè non esistono ma perchè sono irrilevanti.

(9)

Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da

importanza all’inferenza e astrazione che si può fare sui dati del corpus.

In questo senso il corpus serve per fare

previsioni sui nuovi dati (e proprio questo avviene nei sistemi statistici che

apprendono dai corpora!), non interessa di per se’ ma in quanto fonte di conferme.

(10)

Nella corpus linguistics moderna si supera la posizione esternalista in quanto si ha

maggiore libertà nella scelta del corpus.

Un corpus consente di fare astrazioni su una popolazione linguistica, ma anche su un singolo individuo, a seconda del

corpus.

(11)

Tra le motivazioni delle critiche di Chomsky c’era il fatto che i corpora sono raccolte di specifiche occorrenze di espressioni

linguistiche che contengono quindi fattori di distrazione e rumore.

In realtà la psicolinguistica oggi ha dimostrato che anche nel giudizio introspettivo

entrano in gioco fattori di rumore, come in qualunque situazione sperimentale.

(12)

La soluzione di problemi come il rumore è la cura estrema nel raccogliere e trattare i

dati, siano essi derivanti da competence o performance.

Inoltre l’errore è fonte di conoscenza perchè molto sovente non è casuale. I corpora spesso, mostrando la sistematicità

dell’errore, aprono uno spiraglio sulla conoscenza della competence.

(13)

Un esempio sono i corpora di apprendimento della seconda lingua dove diversi errori

sistematici caratterizzano i madrelingua di diverse lingue.

Tra questi il corpus VALICO sviluppato presso il Dipartimento di Lingue dell’Università di Torino.

(14)

I corpora mostrano prove caratterizzate da gradualità non categoricità. Questo viene sfruttato dagli approcci statistici, mentre in quelli non statistici tutte le sfumature intermedie vanno perse.

Corpora e statistica