• Non ci sono risultati.

Linguistica e treebank

N/A
N/A
Protected

Academic year: 2021

Condividi "Linguistica e treebank"

Copied!
14
0
0

Testo completo

(1)

Linguistica e treebank

Cristina Bosco

Corso di Informatica applicata alla comunicazione multimediale

2016-2017

(2)

Tutte le risorse linguistiche servono a fornire informazioni ai sistemi che trattano in

modo automatico il linguaggio (in seguito parleremo di risorse per la Computer

Assisted Translation, che non sono sistemi automatici).

I treebank però servono anche per altri scopi.

Risorse e LC

(3)

I corpora annotati contengono conoscenza che può essere utilizzata per sviluppare e valutare teorie linguistiche.

Sulla base dei dati annotati si possono infatti formulare ipotesi e trovare smentite e

conferme per esse.

A cosa servono i treebank?

(4)

Le analisi più o meno complesse condotte sui corpora annotati sono compatibili con

un’ampia gamma di teorie sul linguaggio e possono quindi essere utilizzate per

dimostrarle ovvero per smentirle.

A cosa servono i treebank?

(5)

Un corpus costruito per la SA è costituito da un insieme di post ad ognuno dei quali sono associati dei metadati e delle

annotazioni.

Mettendo insieme le due cose possiamo

trovare l’autore che ha espresso le opinioni più retwittate (opinion leader), quale

quelle più negative … e possiamo vedere la rete di comunicazione.

Esempio: corpora per SA

(6)

Definire i metodi sperimentali in opposizione a quelli basati sull’intuizione introspettiva è in realtà fuorviante.

Un’indagine basata su corpora prende l’avvio ed è guidata dall’intuizione stessa che sta alla base dell’introspezione del ricercatore.

L’introspezione è l’avvio del processo che culmina nella verifica sperimentale.

Competence e performance

(7)

Posizione nominalista: il linguista deve studiare gli eventi linguistici codificati

nelle parole frasi ecc., nei campioni di dati e non cose astratte.

Posizione esternalista: all’opposto il linguista deve studiare oggetti astratti come classi e tipi che danno senso a parole frasi ecc., e non gli eventi in se’.

Competence e performance

(8)

Posizione di Chomsky: rifiuta la posizione

nominalista e esternalista proponendo una posizione internalista e mentalista per cui l’oggetto di studio è la capacità mentale di apprendere e usare il linguaggio.

Come nella posizione nominalista non si

studiano categorie astratte, non perchè non esistono ma perchè sono irrilevanti.

Competence e performance

(9)

Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da

importanza all’inferenza e astrazione che si può fare sui dati del corpus.

In questo senso il corpus serve per fare

previsioni sui nuovi dati (e proprio questo avviene nei sistemi statistici che

apprendono dai corpora!), non interessa di per se’ ma in quanto fonte di conferme.

Competence e performance

(10)

Nella corpus linguistics moderna si supera la posizione esternalista in quanto si ha

maggiore libertà nella scelta del corpus.

Un corpus consente di fare astrazioni su una popolazione linguistica, ma anche su un singolo individuo, a seconda del

corpus.

Competence e performance

(11)

Tra le motivazioni delle critiche di Chomsky c’era il fatto che i corpora sono raccolte di specifiche occorrenze di espressioni

linguistiche che contengono quindi fattori di distrazione e rumore.

In realtà la psicolinguistica oggi ha dimostrato che anche nel giudizio introspettivo

entrano in gioco fattori di rumore, come in qualunque situazione sperimentale.

Competence e performance

(12)

La soluzione di problemi come il rumore è la cura estrema nel raccogliere e trattare i

dati, siano essi derivanti da competence o performance.

Inoltre l’errore è fonte di conoscenza perchè molto sovente non è casuale. I corpora spesso, mostrando la sistematicità

dell’errore, aprono uno spiraglio sulla conoscenza della competence.

Competence e performance

(13)

Un esempio sono i corpora di apprendimento della seconda lingua dove diversi errori

sistematici caratterizzano i madrelingua di diverse lingue.

Tra questi il corpus VALICO sviluppato presso il Dipartimento di Lingue dell’Università di Torino.

Competence e performance

(14)

I corpora mostrano prove caratterizzate da gradualità non categoricità. Questo viene sfruttato dagli approcci statistici, mentre in quelli non statistici tutte le sfumature intermedie vanno perse.

Corpora e statistica

Riferimenti

Documenti correlati

getMax restituisce l’elemento a max priorità e la coda degli elementi rimanenti. Tipi di dati astratti Astrazione sui dati 4

I migranti, con l’Associazione Ingegneri Africani, hanno partecipato con ENEA agli interventi indicati, al fine di rafforzare le competenze locali con attività di

28 obbliga i datori di lavo- ro a considerare, anche nella scel- ta delle attrezzature, delle sostan- ze o dei preparati chimici impie- gati e nella sistemazione dei luo- ghi di

dominio terminologico (generale, specifico), in modo da massimizzare la velocità con cui il sistema accede alle informazioni. CONOSCENZA LINGUISTICA: un esempio, il dizionario per

Consiste nell’associare ad ogni token una descrizione della sua morfologia.. L’input è il

Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank

Al contrario l’approccio corpus-based è empiricista e fondato sull’osservazione di dati naturali che sono espressione empirica della conoscenza del linguaggio

//OVERVIEW: Intset sono mutable, illimitati insiemi di interi private Vector els;. // constructors