• Non ci sono risultati.

3.2 Dall’annotazione alla produzione del DB 1.0

3.2.3 Trasposizione delle relazioni nell’infrastruttura

3.2.3.4 Scene “INC”: trattamento

Un numero esiguo di elementi scena non è associato ad alcun video in IMAGACT (par.1.2.2 e 3.1.4.3); nel caso in cui l’elemento scena sia di tipo “INC”, il mapping segue una procedura standard:

• Se anche nell’altra lingua corpus-based la lettura causativa non è possibile, i due tipi incoativi sono collegati alla medesima scena vuota come PRO; • se, come nell’esempio mostrato in figura 3.31, nell’altra lingua corpus-based

l’interpretazione causativa è possibile e attestata, la scena “vuota” viene collegata interlinguisticamente al suo causativo come INST.

20Che, come mostra la figura 3.9, si trova in posizione intrmedia tra attaccare_546 / to

Figura 3.31: Scena prototipo per rotolare, incoativo

3.3 Il contributo della candidata

La formazione dell’ontologia ha richiesto 12 mesi di lavoro.

Il contributo della candidata è riassunto in tabella 3.8. La lista completa dei verbi è disponibile in Appendice C.

verbi totali contributo della candidata %

ITALIANO 521 489 93.86 %

INGLESE 550 516 93.82 %

Parte II

Capitolo 4

Validazione dei dati

La validazione dei dati è un passaggio imprescindibile per consentirne l’applica- bilità in ambiti differenti da quello linguistico. Il capitolo presenta in apertura un quadro bibliografico sull’argomento: il concetto di “agreement”, derivato dalla psicometria ed ora largamente utilizzato nel campo della linguistica com- putazionale, gli aspetti critici di questo approccio per la valutazione dei dati linguistici (par. 4.1) ed i coefficienti statistici più diffusi (par. 4.2). Sono poi presentati, per contestualizzare, i risultati dei principali studi e delle maggiori campagne di valutazione nel campo della semantica lessicale (par. 4.3). È infine illustrata la procedura di validazione in tre fasi di un sottoinsieme di verbi coesi dal punto di vista semantico, destinati alla costruzione di una batteria di test neuropsicologici per la diagnosi del Mild Cognitive Impairment.

4.1 Presentazione del problema

La costruzione di una risorsa semantica, e più in generale la classificazione di dati linguistici, implicano la formulazione di giudizi soggettivi. La necessità di stabilire fino a che punto tali giudizi siano affidabili e riproducibili ha assunto crescente importanza, fino a rendere le procedure di validazione prassi consoli- data. Ciò è avvenuto in linguistica computazionale con più di 30 anni di ritardo rispetto alla psicometria: già nel 1960 Cohen, in un celebre articolo, scriveva infatti:

“Because the categorizing of the units is a consequence of some com- plex judgment process performed by a ‘two-legged meter’ [...], it be- comes important to determine the extent to which these judgments are reproducible, i.e., reliable.”

È convinzione abbastanza diffusa che un alto livello di inter-tagger agreement1

(I.T.A) tra gli annotatori sia indice della bontà e della riproducibilità di un paradigma di annotazione. Come sottolinea Di Eugenio:

“This raises the question of how to evaluate the “goodness” of a coding scheme. One way of doing so is to assess its reliability, namely, to assess whether different coders can reach a satisfying level of agreement with each other when they use the coding manual on the same data.” (Di Eugenio, 2000: 441)

L’assunto di base è che i dati siano “attendibili” se due o più annotatori sono in accordo nell’assegnare una categoria all’item in analisi. In tale prospettiva, la reliability si configura come prerequisito per dimostrare la validità di uno schema di codifica. Un alto agreement, ovvero un ampio consenso tra gli annotatori, viene assunto a garanzia della precisione intrinseca del processo di classificazione.

“Often reproducibility of the ratings (classifications) is taken as an in- dicator of the quality of the category definitions and the raters’ ability to apply them.”

(Warrens, 2010: 272)

Un’ottima sintesi della relazione tra reliability e validità dello schema di codifica è offerta in Bayerl & Paul (2011)2:

“The main reason for the analysis of annotation quality is to obtain a measure of the “trustworthiness” of annotations (Artstein and Poesio 2008). Only if we can trust that annotations are provided in a consis- tent and reproducible manner, can we be sure that conclusions drawn from such data are likewise reliable and that the subsequent usage of annotations is not negatively influenced by inconsistencies and errors in the data. Inter-annotator (or inter-coder) agreement has become the quasi-standard procedure for testing the accuracy of manual annotations. 1In letteratura vengono usati, in modo pressoché equivalente, i termini “inter-rater agree-

ment”, “inter-tagger agreement” e “inter-human agreement”. Le tre diverse diciture verranno perciò usate intercambiabilmente.

2Gli autori riprendono quanto già sostenuto da Artstein & Poesio (2008):

“Researchers who wish to use hand-coded data – that is, data in which items are labeled with categories, whether to support an empirical claim or to develop and test a computational model – need to show that such data are reliable. The fundamental assumption behind the methodologies discussed in this article is that data are reliable if coders can be shown to agree on the categories assigned to units to an extent determined by the purposes of the study [...]. If different coders produce consistently similar results, then we can infer that they have internalized a similar understanding of the annotation guidelines, and we can expect them to perform consistently under this understanding. Reliability is thus a prerequisite for demonstrating the validity of the coding scheme – that is, to show that the coding scheme captures the “truth” of the phenomenon being studied, in case this matters. If the annotators are not consistent then either some of them are wrong or else the annotation scheme is inappropriate for the data.” (Artstein & Poesio, 2008: 556-557)

This process is based on the assumption that if multiple coders agree in their coding decisions of the same material we can be certain that – at least for this set of data and this set of coders – annotations are free of unsystematic and distorting variations.”

(Bayerl & Paul, 2011: 700)

Nel caso della creazione di risorse annotate, l’inter-rater agreement è usato come strumento per passare dal materiale annotato ad un gold standard, ovvero un insieme di dati sufficientemente noise-free che serva per training e testing di sistemi automatici. Sebbene, come verrà mostrato in seguito, i coefficienti di agreement non possono indicare in senso assoluto la qualità del data set come risorsa di riferimento, essi sono usati di prassi per assicurare la bontà del materiale annotato: un alto livello di agreement fa sì che la risorsa sia considerata validata. In questo caso il disagreement solitamente viene rimosso o giudicato da uno o più esperti del settore, mediante discussione oppure scelto a maggioranza. Al contrario, se l’agreement è basso l’intero data set viene scartato (Beigman Klebanov & Beigman, 2009).

Nonostante il calcolo dell’inter rater agreement sia l’approccio più diffuso al- la validazione, ciò non significa che non sia privo di aspetti problematici: un aspetto implicito, e quindi spesso sottostimato, è ad esempio il fatto che due osservatori possano, pur sbagliando entrambi, essere in perfetto accordo nel valutare un evento:

“However, it is important to keep in mind that achieving good agreement cannot ensure validity: two observers of the same event may well share the same prejudice while still being objectively wrong.”

(Artstein & Poesio, 2008: 557)

Un’ulteriore problematica, individuata da Bayerl & Paul (2011), riguarda l’agreement raggiunto abitualmente tra gruppi di annotatori in relazione al livello di espe- rienza; l’accordo nei gruppi omogenei è comparabile a prescindere dai livelli di esperienza, ma si abbassa qualora vengano formati gruppi misti di esperti e non esperti:

“Implicit in discussions of inter-annotator agreement is that coders not only agree on which unit belongs to which category, but that if they agree these decisions are also correct with respect to the phenomenon under scrutiny. Inter-annotator agreement is thus interpreted as an estimate of the correctness or validity of annotations [...]. In our study, this as- sumption left us with a dilemma. Our data showed that experts and non-experts could achieve comparable levels of agreement, whereas the average agreement for mixed groups was significantly lower. In other words, experts and novices were equally reliable, yet did not agree with each other. This dilemma points to the difficulty of distinguishing be- tween annotator agreement and correctness of annotations. Whereas annotation studies are generally concerned about the reliability of their data, the validity of annotator decisions seems to be implied.

Our finding on expert and novice coders at least warrants the question of whether reliability (measured in terms of inter-annotator agreement) can provide all the information needed to make an informed decision about overall annotation quality. Reliability can give us a fair indication of the trustworthiness of our data with respect to unsystematic variation [...], but it does not provide us with an indication of its correctness. (Bayerl & Paul, 2011: 721)

Nonostante i limiti appena descritti, la validazione rimane un momento impre- scindibile, soprattutto nel caso in cui i dati linguistici debbano essere utilizzati per scopi diversi. È tuttavia necessario fare attenzione alla scelta della metrica in relazione allo specifico task da valutare e alle modalità di calcolo dei coeffi- cienti, nonché porre cura nell’interpretazione dei valori e nella presentazione dei risultati, pena la mancata comparabilità degli stessi.

Alla discussione di questi aspetti sarà dedicato il paragrafo successivo.