• Non ci sono risultati.

4.4 Definizione di classificatori per la ASP

4.4.5 Comparazione dei risultati

Una volta calibrati tutti i vari classificatori descritti precedentemente, è possibile procedere con la fase di misurazione delle loro performan- ce sui data-set di interesse mediante un processi di cross validation con n_splits=10, tenendo conto di metriche quali accuracy e f1-score. In particolare, a partire dai dati riportati nella tabella 4.27, si possono ef- fettuare due importanti osservazioni che si riallacciano alle problemati- che evidenziate in merito ai corpora CE-ACL-14 e CE-EMNLP-15 in seguito alla fase di costruzione degli esempi negativi per l’attività di argument structure prediction. Inizialmente, dato il significativo sbilan-

4.4. DEFINIZIONE DI CLASSIFICATORI PER LA ASP 109

ciamento delle due classi di dati, la metrica di riferimento accuracy risulta fuorviante. Più precisamente, poiché quest’ultima può essere brevemen- te definita come il rapporto del numero di predizioni corrette rispetto al totale degli esempi riportati e vista la forte predisposizione dei dati per la classe di tipo non supporto, ne risulta che anche una semplice baseline associante tutti gli esempi di interesse a quest’ultima classe è in grado di raggiungere valori elevati per la metrica accuracy. Pertanto, come strumento principale di misura delle performance dei molteplici classifi- catori, si fa affidamento alla metrica f1-score, relativa alla classe di tipo supporto. Così facendo, si è in grado di ottenere una stima accurata delle prestazioni di tutti i classificatori. Infine, l’altro aspetto di importanza cruciale che si vuole sottolineare riguarda proprio i risultati riportati per quest’ultima metrica di riferimento. Nello specifico, generalmente un classificatore si ritiene sufficientemente performante se ottiene un valore associato alla metrica f1-score pari o superiore all’incirca a 0.60. D’altro canto, tutti i classificatori proposti si collocano prevalentemente all’in- terno dell’intervallo [0.10, 0.20], ad eccezione della baseline basata sulla feature cosine similarity nel caso del data-set CE-EMNLP-15. Come conseguenza, si può constatare come nessuno dei classificatori proposti sia in grado di discriminare correttamente la prevalenza degli esempi di classificazione riportati dai due corpora di interesse. A giustificazione della presente problematica, il forte sbilanciamento della distribuzione delle classi comporta un importante ostacolo per la fase di classificazio- ne, non risolvibile con le presenti risorse a disposizione. Nonostante le problematiche evidenziate, si può comunque osservare sempre dalla ta- bella 4.27 come le feature introdotte da Stab e Gurevych[148] rispondano meglio delle altre all’attività di argument structure prediction.

Tabella 4.25: CE-ACL-14, cross validation

Classificatore accuracy f1-score

Baseline n-grams 0.8153 0.1848

Baseline cosine similarity 0.5788 0.1066

Stab & Gurevych 0.6281 0.1954

Rete neurale 0.7343 0.1535

Rete neurale (dropout = 0.2) 0.7055 0.1443 Rete neurale (stance) 0.6959 0.1410

Classificatore SC 0.8157 0.1884

Tabella 4.26: CE-EMNLP-15, cross validation

Classificatore accuracy f1-score

Baseline n-grams 0.8661 0.1528

Baseline cosine similarity 0.4704 0.088

Stab & Gurevych 0.8583 0.2276

Rete neurale 0.6907 0.1352

Rete neurale (dropout = 0.2) 0.6383 0.1260 Rete neurale (stance) 0.7104 0.1359

Classificatore SC 0.7655 0.1998

Tabella 4.27: Performance dei classificatori sui data-set di interesse. Per ognuno di essi sono riportate le metriche accuracy e f1-score.

Capitolo 5

Un nuovo corpus per la

argument structure prediction

mediante strumenti di argument

detection

quale MARGOT

I data-set finora presi in oggetto in ambiti quali la stance classification e l’argument structure prediction potrebbero non presentare dati a suf- ficienza tali da consentire l’individuazione di esempi negativi per la fase di classificazione, ovvero di coppie opposing evidence-claim. A tal fine, una potenziale valida alternativa potrebbe essere rappresentata dalla de- finizione di una nuova collezione di dati, i.e. corpus, basata su criteri di selezione fortemente legati alla natura argomentativa dei dati. In al- tre parole, si può pensare di usufruire di strumenti atti all’estrazione di evidence e claim all’interno di testi ricchi di argomentazioni, quali, ad esempio, quelli associati a siti di dibattito, al fine di poter poi successi- vamente costruire le relative coppie evidence-claim, costituenti un vero e proprio corpus. Chiaramente, tale metodologia naïve, in quanto tale, non garantisce la validità dei dati costruiti. Pertanto, occorre considerare che non tutti i frammenti di testo individuati come evidence o claim, rappre- sentino in realtà dei veri e propri argomenti. Inoltre, tale impossibilità di verifica si riflette anche sulla validità delle coppie di esempi positivi e negativi costruite, in quanto derivanti da processi di selezione regolati da criteri puramente soggettivi e basati sui dati a disposizione. Breve-

mente, una costruzione non manuale dei dati, non consente di agire sotto le stesse ipotesi forti relative al legame tra evidence e claim che invece un lavoro meticoloso di molteplici persone permette. Tuttavia, mediante l’effettuazione di opportune operazioni di confronto con i data-set di inte- resse, ovvero CE-ACL-14 e CE-EMNLP-15, è possibile ottenere come risultato delle testimonianze della validità dei dati ottenuti. Ad esempio, una volta effettuata la fase di apprendimento di un dato classificatore, i.e. training, sul nuovo corpus in questione, si possono successivamente valu- tare le performance di quest’ultimo in merito alle coppie evidence - claim appartenenti ai data-set di IBM Research. Pertanto, nel caso in cui i risultati ottenuti rispecchino la natura dei dati contenuti in tali data-set, allora il presente esperimento può rappresentare una prova sufficiente per la convalidazione del corpus costruito. A tale proposito, il presente capi- tolo introduce e definisce il processo di costruzione di un nuovo data-set volto a risolvere alcune problematiche di fondo prettamente legate alla tipologia dei corpora presi in esame fino ad ora. Successivamente, si as- siste alla sperimentazione degli stessi classificatori introdotti all’interno del capitolo precedente sul nuovo corpus appena definito, al fine di valu- tarne le caratteristiche in termini di corretta separazione delle classi. Di seguito, mediante la definizione di un opportuno test di comparazione, vengono misurate le performance dei precedenti classificatori sul corpus CE-EMNLP-15, con particolare attenzione a ciascun topic contenuto all’interno del presente data-set. Infine, si assiste alla sperimentazione del medesimo test di confronto da un punto di vista rovesciato, ossia valutando le prestazioni della stessa tipologia di classificatori sul nuo- vo data-set introdotto, una volta allenati sul corpus CE-EMNLP-15, al fine di fornire un’opportuna controprova di validazione dei risultati ottenuti durante il test iniziale.

5.1

Obiettivo

Il presente capitolo si pone come obiettivo primario la definizione di un nuovo corpus per l’argument structure prediction, caratterizzato, in par- ticolare, da coppie evidence - claim individuate per mezzo di strumenti di argument detection, in grado, quindi, di estrarre elementi quali claim ed evidence a partire da un processo di elaborazione del testo. A tal