Campagne di valutazione - Validazione dell’ontologia dell’azione IMAGACT per lo studio e la dia

Alla luce di quanto detto finora, è evidente che stabilire una scala per valuta- re i risultati della validazione dei dati IMAGACT è una operazione piuttosto complessa: posto che un alto livello di agreement è sempre diﬃcile da ottenere, ciò è particolarmente vero per i task di natura semantica, in cui la soggettività costituisce una componente centrale. Inoltre, come già rilevato in precedenza, le indicazioni a disposizione sull’argomento non possono essere intese come stan- dard assoluti, ed i valori ottenuti devono essere necessariamente considerati in relazione a lavori simili.

È stato perciò condotto uno spoglio bibliografico piuttosto ampio sull’argomen- to, allo scopo di oﬀrire una panoramica dei principali studi sul tema per la lingua italiana ed inglese. In prima battuta sono state fatte nove query in Goo- gle Scholar, combinando le parole chiave “inter-rater agreement”, “inter-tagger agreement”, “inter-human agreement”, “linguistics”, “semantics” e “WSD”; per ciascuna query sono stati presi in considerazione i primi cento risultati. Le medesime parole chiave sono state poi inserite in due reti social dedicate alla ricerca: Academia.edu e Research Gate.

La ricerca ha evidenziato che solo una minima parte dei dati è stata prodotta in articoli di descrizione di risorse semantiche annotate. Per lo più, infatti, essi sono stati reperiti nell’ambito di studi di valutazione di sistemi automatici di Word Sense Disambiguation (Navigli, 2009; Ide & Véronis, 1998): le prestazioni dei sistemi vengono infatti di prassi giudicate in relazione ad un “lower bound”, ovvero le performance ottenute nel task da un sistema estremamente semplice

come algoritmo di baseline21_{, e ad un “upper bound”, performance massima}

ottenibile in linea di principio, definita sulla base dell’inter-annotator agreement sui medesimi dati22_{. Solo quest’ultima informazione di corredo è stata presa}

in considerazione ai fini della formulazione di un quadro di riferimento per la validazione.

Particolarmente interessanti si sono rivelati, a questo proposito, i dati delle campagne internazionali di valutazione Senseval-Semeval: sul finire degli anni novanta la comunità scientifica ha avvertito la necessità di standardizzare le pro- cedure di valutazione delle applicazioni, uniformando le condizioni sperimentali e utilizzando data set e inventari di sensi comuni, allo scopo di rendere i risultati comparabili. Per compilare questa sezione, sono stati consultati tutti gli atti dei convegni di queste manifestazioni, dal 1998 al 2013.

Come sottolineato da Navigli (2009), la maggior parte dei risultati precedenti Senseval/Semeval non sono comparabili con i successivi approcci nel settore. Per tale ragione, i dati verranno presentati separatamente: in tab. 4.11 sono sintetizzati i più citati studi precedenti il 1998 o non presentati nelle competizioni uﬃciali23_{, mentre in tab. 4.13 (a pagina 157) sono riportati i dati delle}

campagne uﬃciali di valutazione, distinti per anno e per tipologia del task24

(“L.S.”, “lexical sample”25 _{o “A.W.”, “all-words WSD”}26_).

I dati mostrano un forte condizionamento del design sperimentale del task e delle finalità dello studio sul livello di agreement raggiungibile. L’I.T.A. è inoltre generalmente più basso per lessico verbale rispetto al lessico nominale (Fellbaum, 1998; Fellbaum et al., 2001).

21_{Le performance di un sistema baseline dovrebbero, in linea teorica, essere raggiunte da}

qualsiasi altro sistema più complesso. Le baseline più comune usate per la valutazione dei sistemi di WSD sono la “random baseline”, in cui il sistema assegna casualmente alla parola un senso tra quelle disponibili, e la “first sense baseline” (Gale et al., 1992), che assegna alla parola oggetto del tagging il senso più probabile indipendentemente dal contesto.

22_{Come evidenziato in Gale et al. (1992), non è però chiaro come vadano interpretate le}

performance di sistemi automatici che superino il livello di agreement tra annotatori umani.

23_{Tutti gli studi citati hanno come oggetto la lingua inglese.}

24_{Pur essendo molto noti e citati, non sono stati inclusi nella tabella 4.13 gli studi di Véronis}

(1998, 2000, 2001), condotti in occasione di Senseval-1 (Romanseval) sulla lingua francese: la scelta è stata dettata esclusivamente dalla necessità di circoscrivere a due sole lingue il quadro bibliografico.

Non sono presenti in tabella 4.13 il task A.W. per la lingua inglese di Senseval-2 (Palmer et al., 2001) ed il task A.W. per la lingua italiana di Senseval-3 Ulivieri et al. (2004): infatti, stranamente, in nessuno dei due studi sono riportati i dati di inter-rater agreement. Nella campagna Semeval-2012 (Agirre et al., 2012), infine, non sono state organizzate competizioni di WSD.

25_{Il sistema automatico deve disambiguare un set ristretto di parole target, di solito una}

per frase.

Studio Descrizione del task I.T.A.

Jorgensen (1990) Studio di psicolinguistica, che ha come oggetto la polisemia nel lessico nominale. Vengono proposte tre varianti del medesimo task, un clustering di frasi sulla base del senso. Il valore di I.T.A., espresso nell’articolo originale in termini di “Agreement-Disagreement ratio”, viene qui convertito in agreement percentuale, per esigenze di comparabilità.

68%

Gale et al. (1992) Lo studio cerca di stabilire lower e upper bound per la valutazione delle performance di sistemi automatici di WSD. Gli autori modificano il design sperimentale rispetto a Jorgensen (1990), per semplificare il task e assicurare alto I.T.A.

96.8%

Ahlswede (1995) L’articolo presenta i dati di agreement sul test “Ambiguity Questionnaire” (Ahlswede & Lorand, 1993), finalizzato allo studio del comportamento di soggetti umani nei task di disambiguazione.

63.3% - 90.2%

Fellbaum et al. (1997) L’articolo analizza i risultati di un task di annotazione semantica svolto nell’ambito del progetto SemCor (Miller et al., 1993, 1994)

72.8%

Bruce & Wiebe (1998) Il test prevede che cinque annotatori classifichino 2369 istanze nel nome “interest” in sei sensi presi dal dizionario Longman.

k= 0.874

Wiebe et al. (1999) Presentazione di un case-study per il miglioramento dell’inter-rater agreement. I valori di k sono stati calcolati a coppie: in tabella viene riportato il punteggio della coppia che ha ottenuto l’agreement più alto.

k= 0.76

Ng et al. (1999) Studio sull’inter-rater agreement nel campo del WSD, condotto su un corpus di 30315 istanze di nomi e verbi.

k= 0.317 nomi: k=0.300 verbi: k=0.347 Chklovski & Mihalcea (2003) Lo studio descrive e verifica la qualità di

una metodologia per raccogliere corpora annotati semanticamente mediante piattaforma web, a basso costo.

67.3% k= 0.35

Dligach et al. (2010) L’articolo discute le modalità di

annotazione di training e test corpora per l’addestramento di sistemi automatici.

Nel documento Validazione dell’ontologia dell’azione IMAGACT per lo studio e la diagnosi del Mild Cognitive Impairment (MCI) (pagine 152-155)