• Non ci sono risultati.

Il problema dell’assenza di esempi negativi

La prima tematica da affrontare e di notevole importanza riguarda di- rettamente la natura dei data-set a disposizione, ovvero CE-ACL-14 e CE-EMNLP-15. In particolar modo, al fine di poter intraprendere un’attività di argument structure prediction è necessario definire un clas- sificatore atto a distinguere tra coppie evidence - claim di tipo supporto dalle altre. Tuttavia, riprendendo brevemente il discorso introduttivo sui corpora di interesse, questi ultimi fanno riferimento solamente a legami del primo tipo, i.e. supporting evidence - claim. A tal proposito, la pre- sente problematica costituisce un ostacolo di notevole importanza e al tempo stesso di non facile risoluzione, il quale influenza in maniera signi- ficativa i risultati sperimentali proposti dal presente elaborato. Infatti, la non disponibilità di opportuni corpora di larga scala e non soggetti a forti limitazioni per l’argument structure prediction, introduce il bisogno di dover delineare un processo di costruzione o estrazione dei dati man- canti. Chiaramente, viste le limitate risorse a disposizione non è possibile considerare un processo di annotazione manuale e risulta quindi dovero- so indicare soluzioni alternative. Pertanto, come necessaria conseguenza, è di importanza primaria delineare una strategia atta a poter definire l’insieme degli esempi negativi, ovvero coppie opposing evidence - claim, a partire dai dati a disposizione. Un primo approccio di facile intuizio- ne basa il proprio ragionamento sull’utilizzo delle informazioni relative alla stance classification, introdotte nel capitolo precedente. Più preci- samente, considerando come target di riferimento il topic o l’articolo di tipo giornalistico, definiti all’interno dei due corpora di interesse, si può usufruire delle indicazioni date dalla stance per individuare coppie oppo- sing evidence - claim. Nello specifico, si ricercano eventuali coppie aventi stance fortemente contrastanti e nel caso della classificazione sul data-set Emergent, esse sono delineate dalle classi for e against. In particolare, dato il punto arbitrario di scelta nell’ambito della definizione del target di riferimento e l’ipotesi relazionale riguardante le coppie evidence - claim contenute all’interno dei corpora di interesse, si individuano i seguenti scenari:

4.2. IL PROBLEMA DELL’ASSENZA DI ESEMPI NEGATIVI 91

get di riferimento per la stance. A tal proposito, la presente ipotesi ha come prerequisito la disponibilità delle informazioni relative alla stance classification per il presente target di classificazione. Suc- cessivamente, si considerano come coppie opposing evidence - claim tutte quelle aventi stance relative all’articolo contrastanti. In altre parole, si raggruppano i dati contenuti all’interno dei corpora di interesse in base all’articolo di tipo giornalistico da cui sono stati estratti. Infine, si considerano di volta in volta due coppie evidence - claim e si osservano i due valori della stance relativi ad entrambi i claim: se i valori sono fortemente contrastanti allora si costrui- scono due coppie opposing evidence - claim incrociando i dati a disposizione.

• Stance claim - topic: ragionamento analogo al punto precedente con l’unica differenza che come target di riferimento si considera il topic e non più l’articolo.

• Concatenated stances: si considerano gli stessi elementi dello scenario Stance claim - article con l’aggiunta del valore della stance tra topic e l’articolo di tipo giornalistico, definendo nello specifico delle opportune espressioni booleane volte a descrivere il vincolo di contemporaneità. Anche in questo caso, la strategia di definizione delle coppie opposing evidence - claim si basa sul prerequisito di aver precedentemente estratto le presenti informazioni di interesse. In altre parole, le due stance relative ad una determinata coppia evidence - claim sono mappate nei loro rispettivi valori booleani: ad esempio, for diventa True, mentre against viene considerato come False. Successivamente, si valutano i risultati dell’applica- zione del vincolo di contemporaneità, ovvero un AND logico, per due coppie evidence - claim prese in esame: se i valori delle espres- sioni booleane sono contrastanti allora si possono costruire le coppie opposing evidence - claim sempre incrociando i dati a disposizione.

4.2.1

Stance claim - article

Si parte dal presupposto che vi siano più coppie evidence - claim estratte da un singolo articolo. Inizialmente, vengono filtrati tutti gli articoli, se- lezionando solamente quelli contenenti almeno una coppia avente stance

positiva e un’altra con stance negativa. Esempi di stance positive posso- no essere: agree, for, pro. Viceversa, per stance negativa solitamente si intendono i seguenti valori: disagree, against, con. In particolare, nel caso del corpus Emergent i valori di riferimento sono for e against. Suc- cessivamente, per ognuno degli articoli che hanno superato con successo la fase di filtraggio, si considerano tutte le possibili coppie e si vanno a selezionare solamente quelle aventi stance non uguali. Infine, per que- ste ultime, si costruiscono le due coppie evidence - claim, considerando per ciascuno dei due claim la evidence appartenente all’altra coppia. Un esempio di quanto descritto è rappresentato dall’immagine sottostante (figura 4.1).

Figura 4.1: Estrazione delle coppie opposing evidence - claim nello scenario Stance claim - article.

4.2.2

Stance claim - topic

In maniera analoga a quanto descritto nella sezione 4.2.1, si considerano le coppie incrociate evidence - claim. La figura 4.2 riassume l’ultimo passo del procedimento.

Figura 4.2: Estrazione delle coppie opposing evidence - claim nello scenario Stance claim - topic.

4.2.3

Concatenated stances

In quest’ultimo scenario si parte dal presupposto che la metodologia Stan- ce claim - article scarti degli elementi che possano essere riutilizzati,

4.2. IL PROBLEMA DELL’ASSENZA DI ESEMPI NEGATIVI 93

ovvero articoli aventi coppie evidence - claim appartenenti ad una stes- sa categoria di stance. A questo proposito, l’idea in questione consiste nell’individuare dapprima la stance di ciascuna coppia topic - article e per poi successivamente considerare queste ultime con le stance relative alle coppie claim - article. Più precisamente, per ogni entry nel data- set si valutano le rispettive due stance e si calcola il risultato della loro combinazione, i.e. AND logico. Successivamente, si effettua un raggrup- pamento in base al topic e si considerano coppie di elementi. Nel caso in cui le stance risultanti di ciascun elemento della coppia siano diverse tra di loro, si possono considerare le coppie evidence - claim incrociate come descritto nelle sezioni 4.2.1 e 4.2.2. La figura 4.3 descrive il procedimento sopra citato. Infine, la presente metodologia può dunque potenzialmente incrementare il numero di coppie opposing evidence - claim rispetto al singolo scenario Stance claim - article.

Figura 4.3: Estrazione delle coppie opposing evidence - claim nello scenario Concatenated stances.

4.2.4

Problematiche e una valida alternativa

Tuttavia, la presente strategia di estrazione di coppie opposing evidence - claim, atte a rappresentare gli esempi negativi per la fase di classificazio- ne, si basa su forti assunzioni e presenta al tempo stesso alcune debolez- ze. Più precisamente, come si può facilmente intuire, il fatto di basarsi esclusivamente sul valore della stance significa delineare la strategia sul- le caratteristiche e performance del classificatore scelto per l’attività di stance classification. In altre parole, occorre tener conto della natura delle informazioni proposte dal presente strumento in quanto queste ul- time possono presentare valutazioni errate. Nonostante si possa limitare il più possibile il numero di predizioni non corrette del classificatore, me- diante per l’appunto la definizione di tecniche, feature e metodologie atte

a garantire performance ottimali, occorre sempre tenere conto della po- tenziale presenza di valori spuri, i.e. outlier. Di conseguenza, basare la propria strategia di selezione su informazioni, i.e. la stance, la cui va- lidità non è mai totalmente garantita può compromettere la qualità dei dati costruiti per la argument structure prediction. In secondo luogo, la problematica appena evidenziata è ulteriormente aggravata se si effettua una considerazione in merito alla natura dei dati contenuti all’interno dei corpora di interesse, con accezione particolare agli articoli di tipo gior- nalistico. Più precisamente, essendo documenti originari di Wikipedia, ovvero l’enciclopedia libera costruita per mezzo di collaborazione di mol- teplici utenti, questi ultimi sono pertanto neutrali per definizione. Come conseguenza, non è garantita la presenza di vere opposizioni tra coppie evidence - claim nell’ambito di uno stesso articolo o topic. Pertanto, le coppie opposing evidence - claim estratte potrebbero non avere la stessa validità delle rispettive controparti manualmente identificate e descritte all’interno dei corpora di interesse. Infine, come naturale conseguenza occorre anche considerare l’eventuale possibilità che i dati ottenuti, i.e. le coppie opposing evidence - claim, non siano in quantità sufficienti ta- li da poter garantire la definizione di un’attività di argument structure prediction corretta. Quindi, sulla base delle presenti molteplici proble- matiche e limitazioni, si può considerare una diversa strategia di selezio- ne, di gran lunga più semplice dal punto di vista concettuale e basata su un’osservazione di facile intuizione. Più precisamente, considerando l’unica ipotesi certamente verificata relativa al legame relazionale tra le coppie evidence - claim costituenti i corpora di interesse, si può dedurre che non sia possibile stabilire a priori alcuna tipologia di legame di tipo supporto per qualsiasi coppia incrociata considerata a partire dai dati di partenza. Pertanto, queste ultime possono essere tutte considerate co- me potenziali esempi negativi per la fase di classificazione, nonostante le problematiche evidenziate nell’ambito della natura dei dati di interesse. Nello specifico, poiché il topic rappresenta un riferimento di maggiore importanza in termini semantici rispetto all’articolo di tipo giornalisti- co da cui sono state estratte le coppie text, si è deciso di condizionare il processo di costruzione delle coppie opposing evidence - claim in ba- se al raggruppamento per topic dei dati forniti dai corpora di interesse. In altre parole, gli esempi negativi vengono valutati nell’ottica di un to- pic comune. Tuttavia, anche la presente strategia di selezione dei dati