• Non ci sono risultati.

Processo di costruzione del nuovo corpus

fine, si delineano le seguenti fasi operazionali volte a definire i molteplici requisiti necessari per il raggiungimento del presente obiettivo.

• Definizione del contesto di interesse all’interno del quale individuare i documenti testuali da analizzare, contenenti potenziali relazioni di confronto ideologiche.

• Introduzione di opportuni strumenti di estrazione degli argomenti, i.e. claim ed evidence.

• Formulazione dei criteri di selezione volti a definire le regole per mezzo delle quali i claim e le evidence individuati sono organizzati in coppie in accordo con le due classi di riferimento per l’attività di argument structure prediction, ovvero supporto e non.

Infine, una volta portato a termine il processo di costruzione del nuo- vo corpus, si procede con la sperimentazione di vari classificatori, effet- tuando successivamente un opportuno test di comparazione delle loro performance sul data-set CE-EMNLP-15 preso in esame.

5.2

Processo di costruzione del nuovo corpus

Prima di poter procedere con la fase di determinazione delle coppie evi- dence - claim, in accordo con le due classi relative all’attività di argument structure prediction, occorre dapprima soddisfare due importanti requi- siti: la determinazione del contesto di applicazione e gli strumenti di estrazione degli argomenti. Procedendo con ordine, per quanto riguarda lo scenario di interesse, nell’ambito del quale si ricercano esempi di claim ed evidence caratterizzati da relazioni di forte contrasto o supporto, si considera il data-set denominato all’interno del capitolo 1 come Create Debate Custom Dataset, introdotto da Hasan e Ng[60]. Più precisamente, quest’ultimo offre 4,902 post relativi a scenari di dibattito online verten- ti su quattro principali topic di discussione: l’ex presidente degli Stati Uniti d’America Barack Obama (Obama), la legalizzazione o meno della marijuana (Marijuana), l’aborto (Abortion) e infine i diritti degli omo- sessuali (Gay Rights). Nello specifico, ogni singolo documento testuale è contornato da alcune informazioni aggiuntive di contesto, quali il tipo di relazione nei confronti del post che lo precede all’interno della medesima

discussione, i.e. rebuttal, e il valore della stance nei confronti del to- pic di riferimento. In particolare, questi ultimi meta-dati rappresentano un’informazione molto utile in quanto costituisce la base per la defini- zione dei criteri di selezione volti a definire le coppie evidence - claim. Successivamente, dal punto di vista sperimentale, si ricorre allo specifico strumento di argument detection denominato Mining ARGuments frOm Text (MARGOT), introdotto da Lippi e Torroni[84], il quale brevemen- te consente di individuare claim ed evidence sulla base di informazioni non strettamente legate dal contesto specifico, i.e. context-independent claim/evidence detection. Pertanto, una volta definiti gli strumenti e il contesto di interesse per la definizione del processo di costruzione di un nuovo corpus, si può procedere con la formulazione di opportune regole di abbinamento degli argomenti estratti tali da definire delle coppie eviden- ce - claim di tipo supporto e non, impiegate successivamente in qualità di input per l’attività di argument structure prediction. In particolare, quanto appena descritto può essere facilmente riassunto per punti come segue:

• Estrazione evidence e claim: i dati sono suddivisi in quat- tro domini, relativi ai topic di interesse: Obama, Marijuana, Gay rights e infine Abortion. Ogni singolo file di testo viene dato in input a MARGOT, il quale produce come risultato un documen- to testuale contenente l’analisi di ogni frase individuata nel testo. E’ opportuno sottolineare che MARGOT può etichettare un ar- gomento in qualità di evidence e claim contemporaneamente, i.e. claim_evidence (figura 5.1). Pertanto, tali elementi particolari, vengono poi considerati distintamente sia come evidence che come claim nella fase successiva di costruzione delle coppie.

• Costruzione esempi positivi e negativi: una volta terminata la fase di argumentation mining, si procede con la costruzione delle coppie evidence-claim. A tal fine, si ricorre all’ausilio di meta-dati significativi associati a ciascun file presente nel data-set, quale il re- buttal, relativo a coppie adiacenti di post appartenenti ad una stessa discussione. Più precisamente, la presente informazione indica per una data coppia di post se l’ultimo dei due, in ordine temporale, supporta, si oppone o è neutrale nei confronti dell’altro. Nello spe- cifico, il campo rebuttal può assumere i seguenti valori: support,

5.2. PROCESSO DI COSTRUZIONE DEL NUOVO CORPUS 115

oppose e null. Infine, per quanto riguarda il criterio di selezione degli esempi positivi e negativi, quest’ultimo può essere riassunto nel seguente modo.

– Selezione esempi positivi: tra tutti i file analizzati, ven- gono considerati solamente quelli contenenti almeno una evi- dence e una claim. Successivamente, per ognuno di questi si considerano tutte le possibili combinazioni tra le evidence e i claim, i.e. evidence - claim. In aggiunta, si esaminano anche le coppie di file aventi rebuttal=support per poter in costruire in seguito tutte le possibili coppie evidence - claim incrociate. – Selezione esempi negativi: analogamente per quanto vi- sto per gli esempi positivi, si considerano coppie di file aventi rebuttal=oppose e si costruiscono tutte le possibili coppie evidence - claim incrociate.

Figura 5.1: Esempio di elaborazione del testo da parte di MAR- GOT. Il frammento testuale preso in analisi appartiene alla conver- sazione con identificativo A nell’ambito del topic relativo all’abor- to (Abortion). In particolare, le frasi contenenti evidence, claim o claim_evidence sono etichettate da opportune keyword : EVIDENCE, CLAIM e CLAIM_EVIDENCE.

Innanzitutto, risulta opportuno soffermarsi sul criterio di selezione delle coppie evidence - claim. In particolare, usufruire di informazioni

aggiuntive quale il rebuttal può aiutare ad individuare coppie logicamente corrette di esempi positivi e negativi. Viceversa, non è detto che l’ipotesi di etichettare come esempi positivi le coppie evidence - claim, contenute in uno stesso file possa risultare egualmente corretta. In aggiunta, si potrebbero sperimentare anche ulteriori criteri di selezione basati, ad esempio, su informazioni quale la stance associata a ciascun file e relativa al topic di riferimento. Una volta ottenuti i dati, prima di poter passare alla sperimentazione dei vari classificatori, è opportuno effettuare alcune operazioni di pulizia e bilanciamento delle classi, in quanto si ritiene che possano agevolare la successiva fase di classificazione. Nello specifico, la prima fase verte sull’eliminazione di coppie aventi testi molto brevi, mentre la seconda seleziona solamente le coppie più corpose in termini di parole. Più precisamente, poiché il corpus ottenuto verte in maniera significativa in favore degli esempi positivi, al fine di non compromettere la fase di classificazione, vengono selezionati gli stessi numeri di esempi positivi e negativi. La seguente tabella 5.1 presenta le statistiche del nuovo corpus generato, riassumendo, in particolare, le precedenti fasi di elaborazione preliminare dei dati.

# Esempi Positivi # Esempi Negativi

Originale 130824 115122

Pulizia 126972 111804

Bilanciamento 30000 30000

Tabella 5.1: Statistiche corpus costruito. Nella prima riga, etichettata dalla voce ’Originale’ sono riportati il numero di esempi positivi e ne- gativi ottenuti seguendo i criteri di selezione descritti precedentemente. Successivamente, alle voci ’Pulizia’ e ’Bilanciamento’ sono associati il nu- mero di esempi positivi e negativi considerati al termine delle analoghe fasi appena introdotte.