• Non ci sono risultati.

Alla luce di quanto detto finora, è evidente che stabilire una scala per valuta- re i risultati della validazione dei dati IMAGACT è una operazione piuttosto complessa: posto che un alto livello di agreement è sempre difficile da ottenere, ciò è particolarmente vero per i task di natura semantica, in cui la soggettività costituisce una componente centrale. Inoltre, come già rilevato in precedenza, le indicazioni a disposizione sull’argomento non possono essere intese come stan- dard assoluti, ed i valori ottenuti devono essere necessariamente considerati in relazione a lavori simili.

È stato perciò condotto uno spoglio bibliografico piuttosto ampio sull’argomen- to, allo scopo di offrire una panoramica dei principali studi sul tema per la lingua italiana ed inglese. In prima battuta sono state fatte nove query in Goo- gle Scholar, combinando le parole chiave “inter-rater agreement”, “inter-tagger agreement”, “inter-human agreement”, “linguistics”, “semantics” e “WSD”; per ciascuna query sono stati presi in considerazione i primi cento risultati. Le medesime parole chiave sono state poi inserite in due reti social dedicate alla ricerca: Academia.edu e Research Gate.

La ricerca ha evidenziato che solo una minima parte dei dati è stata prodotta in articoli di descrizione di risorse semantiche annotate. Per lo più, infatti, essi sono stati reperiti nell’ambito di studi di valutazione di sistemi automatici di Word Sense Disambiguation (Navigli, 2009; Ide & Véronis, 1998): le prestazioni dei sistemi vengono infatti di prassi giudicate in relazione ad un “lower bound”, ovvero le performance ottenute nel task da un sistema estremamente semplice

come algoritmo di baseline21, e ad un “upper bound”, performance massima

ottenibile in linea di principio, definita sulla base dell’inter-annotator agreement sui medesimi dati22. Solo quest’ultima informazione di corredo è stata presa

in considerazione ai fini della formulazione di un quadro di riferimento per la validazione.

Particolarmente interessanti si sono rivelati, a questo proposito, i dati delle campagne internazionali di valutazione Senseval-Semeval: sul finire degli anni novanta la comunità scientifica ha avvertito la necessità di standardizzare le pro- cedure di valutazione delle applicazioni, uniformando le condizioni sperimentali e utilizzando data set e inventari di sensi comuni, allo scopo di rendere i risultati comparabili. Per compilare questa sezione, sono stati consultati tutti gli atti dei convegni di queste manifestazioni, dal 1998 al 2013.

Come sottolineato da Navigli (2009), la maggior parte dei risultati precedenti Senseval/Semeval non sono comparabili con i successivi approcci nel settore. Per tale ragione, i dati verranno presentati separatamente: in tab. 4.11 sono sintetizzati i più citati studi precedenti il 1998 o non presentati nelle competi- zioni ufficiali23, mentre in tab. 4.13 (a pagina 157) sono riportati i dati delle

campagne ufficiali di valutazione, distinti per anno e per tipologia del task24

(“L.S.”, “lexical sample”25 o “A.W.”, “all-words WSD”26).

I dati mostrano un forte condizionamento del design sperimentale del task e delle finalità dello studio sul livello di agreement raggiungibile. L’I.T.A. è inoltre generalmente più basso per lessico verbale rispetto al lessico nominale (Fellbaum, 1998; Fellbaum et al., 2001).

21Le performance di un sistema baseline dovrebbero, in linea teorica, essere raggiunte da

qualsiasi altro sistema più complesso. Le baseline più comune usate per la valutazione dei sistemi di WSD sono la “random baseline”, in cui il sistema assegna casualmente alla parola un senso tra quelle disponibili, e la “first sense baseline” (Gale et al., 1992), che assegna alla parola oggetto del tagging il senso più probabile indipendentemente dal contesto.

22Come evidenziato in Gale et al. (1992), non è però chiaro come vadano interpretate le

performance di sistemi automatici che superino il livello di agreement tra annotatori umani.

23Tutti gli studi citati hanno come oggetto la lingua inglese.

24Pur essendo molto noti e citati, non sono stati inclusi nella tabella 4.13 gli studi di Véronis

(1998, 2000, 2001), condotti in occasione di Senseval-1 (Romanseval) sulla lingua francese: la scelta è stata dettata esclusivamente dalla necessità di circoscrivere a due sole lingue il quadro bibliografico.

Non sono presenti in tabella 4.13 il task A.W. per la lingua inglese di Senseval-2 (Palmer et al., 2001) ed il task A.W. per la lingua italiana di Senseval-3 Ulivieri et al. (2004): infatti, stranamente, in nessuno dei due studi sono riportati i dati di inter-rater agreement. Nella campagna Semeval-2012 (Agirre et al., 2012), infine, non sono state organizzate competizioni di WSD.

25Il sistema automatico deve disambiguare un set ristretto di parole target, di solito una

per frase.

Studio Descrizione del task I.T.A.

Jorgensen (1990) Studio di psicolinguistica, che ha come oggetto la polisemia nel lessico nominale. Vengono proposte tre varianti del medesimo task, un clustering di frasi sulla base del senso. Il valore di I.T.A., espresso nell’articolo originale in termini di “Agreement-Disagreement ratio”, viene qui convertito in agreement percentuale, per esigenze di comparabilità.

68%

Gale et al. (1992) Lo studio cerca di stabilire lower e upper bound per la valutazione delle performance di sistemi automatici di WSD. Gli autori modificano il design sperimentale rispetto a Jorgensen (1990), per semplificare il task e assicurare alto I.T.A.

96.8%

Ahlswede (1995) L’articolo presenta i dati di agreement sul test “Ambiguity Questionnaire” (Ahlswede & Lorand, 1993), finalizzato allo studio del comportamento di soggetti umani nei task di disambiguazione.

63.3% - 90.2%

Fellbaum et al. (1997) L’articolo analizza i risultati di un task di annotazione semantica svolto nell’ambito del progetto SemCor (Miller et al., 1993, 1994)

72.8%

Bruce & Wiebe (1998) Il test prevede che cinque annotatori classifichino 2369 istanze nel nome “interest” in sei sensi presi dal dizionario Longman.

k= 0.874

Wiebe et al. (1999) Presentazione di un case-study per il miglioramento dell’inter-rater agreement. I valori di k sono stati calcolati a coppie: in tabella viene riportato il punteggio della coppia che ha ottenuto l’agreement più alto.

k= 0.76

Ng et al. (1999) Studio sull’inter-rater agreement nel campo del WSD, condotto su un corpus di 30315 istanze di nomi e verbi.

k= 0.317 nomi: k=0.300 verbi: k=0.347 Chklovski & Mihalcea (2003) Lo studio descrive e verifica la qualità di

una metodologia per raccogliere corpora annotati semanticamente mediante piattaforma web, a basso costo.

67.3% k= 0.35

Dligach et al. (2010) L’articolo discute le modalità di

annotazione di training e test corpora per l’addestramento di sistemi automatici.