Mining ARGuments frOm Text (MARGOT) - Predizione della struttura di un argomento con feature di

Poiché rappresenta lo strumento di riferimento per la definizione del nuovo corpus, occorre soffermarsi maggiormente in dettaglio su MARGOT, al fine di comprenderne con cura il funzionamento e le metodologie sulle quali si basa. La grande necessità di strumenti atti a consentire ad un

5.3. MINING ARGUMENTS FROM TEXT (MARGOT) 117

utente generico la possibilità di poter interagire con informazioni proprie dell’argumentation mining in maniera semplice, diretta e senza richiedere all’utente alcuna conoscenza nel presente campo di ricerca, ha portato Lippi e Torroni[84] alla definizione di uno strumento in grado di poter ri- solvere accuratamente tale problematica. Nello specifico, l’attuale stato dell’arte dellargumentation mining, come precedentemente sottolineato all’interno del capitolo 2, offre un’ampia scelta di metodologie e tecniche relative ad una specifica attività del presente settore di ricerca, quale, ad esempio, l’individuazione di relazioni di attacco o supporto tra argomenti o la claim detection. Tuttavia, mancano strumenti per l’estrazione degli argomenti, a partire da documenti testuali non strutturati, disponibili e utilizzabili da un’ampia comunità di utenti non necessariamente appartenenti al contesto scientifico. Più precisamente, a motivazione di quanto osservato si può considerare la giovane età dell’argumentation mining, ma soprattutto la difficoltà di definizione del concetto stesso di argomento in termini assoluti, problematica dalla quale derivano soluzioni di argumentation mining tipicamente legate ad un singolo genere, difficil- mente adatto per uno scopo generale. Pertanto, nel presente contesto descritto, dove una delle sfide principali è rappresentata per l’appunto dall’estrazione automatica di argomenti strutturati a partire da testi di vario genere, viene definito lo strumento Mining ARGuments frOm text (MARGOT), definito come il primo sistema online di argumentation mining progettato per raggiungere una vasta fascia di utenti al di fuori della comunità di ricerca.

5.3.1 Definizione e struttura

In particolare, MARGOT può essere definito come un sistema web, ba- sato su tecniche specifiche di argumentation mining proprie dello stato dell’arte, il cui obiettivo consiste nel poter offrire ad un utente generico la possibilità di interagire con le tecnologie proprie del presente settore di ricerca, senza richiedere alcuna conoscenza a priori nell’ambito lato utente. Inoltre, dal punto di vista delle funzionalità, MARGOT estende il lavoro di Lippi e Torroni[82] sulla context-independent claim detection, introdu- cendo ulteriori attività quali la context-independent premise detection e la argument component boundary detection, basandosi sull’osservazione che le frasi argomentative sono spesso caratterizzate da strutture sintattiche

comuni. Pertanto, si individuano le seguenti due fasi principali (figura 5.2): (1) l’individuazione delle frasi argomentative, ovvero contenenti almeno un componente, i.e. claim o evidence, e (2) successivamente la determinazione dei confini sintattici di ciascun componente. A tal fine, occorre precisare che MARGOT si basa esclusivamente sul modello argomentativo di Walton[162], con particolare accezione alle definizioni di claim e premise, i.e. evidence, definite da Aharoni et al.[4] durante la pre- sentazione del corpus di IBM Research. Pertanto, seppur MARGOT ricerchi claim ed evidence senza basarsi su informazioni a priori relative al topic, risulta importante sottolineare i concetti di interesse estratti, in quanto essi rappresentano i dati descritti precedentemente all’interno del processo di costruzione del nuovo corpus.

Figura 5.2: Modello di elaborazione del testo definito da MARGOT. La presente immagine è cortesia di Lippi e Torroni[84].

5.3.2 Procedura di elaborazione del testo

Una volta definite le tematiche inerenti all’introduzione e definizione dello strumento MARGOT, risulta opportuno delinearne il funzionamento dal punto di vista operazionale. Innanzitutto, viene fornito come input un documento testuale al web server, il quale è soggeto ad un’oppor- tuna fase di elaborazione da parte dello strumento di analisi Stanford Parser [88], in grado, tra le molteplici funzionalità, di suddividere il documento in frasi e di costruire per ognuna di esse il rispettivo albero di analisi delle dipendenze sintattiche, i.e. costituency parse tree (figura 5.3). Successivamente, ogni frase individuata è elaborata da due speci- fici classificatori, basati sul concetto di Tree Kernel, in grado rispettivamente di discriminare quelle contenenti dei claim o delle evidence dalle rimanenti. Nello specifico, entrambi i classificatori ricorrono all’ausilio del costituency parse tree e dei BoW per rappresentare l’input, al fine di poter produrre come risultato un punteggio indicante il loro grado di con-

5.3. MINING ARGUMENTS FROM TEXT (MARGOT) 119

fidenza che la frase analizzata contenga o meno un claim o una evidence rispettivamente. In seguito, per ogni frase ritenuta argomentativa viene applicato il modulo relativo all’attività di argument component boundary detection, formulato nello specifico come un processo di sequence labeling, così da poter identificare i confini sintattici di tutti i claim ed evidence individuate. Più precisamente, dal punto di vista tecnico, si ricorre al- l’ausilio di n-gram, annotazioni POS, lemmi e le cosiddette named-entity generate dallo strumento Stanford CoreNLP. Infine, i risultati ottenuti vengono poi mostrati all’utente sotto forma di pagina HTML (figura 5.4), dove i componenti individuati sono evidenziati in grassetto, nel caso di claim, in corsivo, nel caso di evidence e in entrambi i modi se un frammento di testo è stato ritenuto come argomentativo da entrambi i classificatori, i.e. claim_evidence.

Figura 5.3: Esempi di costituency parse tree ottenuti in seguito all’analisi di due claim appartenenti al corpus CE-EMNLP-15. In particolare, i nodi contornati da un riquadro rappresentano gli elementi in comune tra i due alberi. La presente immagine è cortesia di Lippi e Torroni[84].

Figura 5.4: Esempio di risultato proposto da MARGOT al termine del processo di elaborazione e analisi del testo dato. La presente immagine è cortesia di Lippi e Torroni[84].

5.3.3 Tecniche

Come è già stato precedentemente accennato, MARGOT basa il proprio funzionamento su un classificatore SVM definito secondo l’applicazione di un Tree Kernel. In particolare, quest’ultima tipologia di metodo ba- sato su Kernel è stata ampiamente utilizzata in una varietà di differenti problemi di NLP, spaziando, ad esempio, dalla text categorization fino ad attività ben più specifiche quali il semantic role labeling, la relation extraction, la named entity recognition, la question/answer classification e altre ancora. Nello specifico, i Tree Kernel sono stati impiegati con successo in molte applicazioni[103][104]. Più precisamente, questi ulti- mi sono progettati per misurare la similarità tra due alberi, mediante la valutazione del numero di sotto-strutture in comune, denominati tipicamente come frammenti, i.e. fragment. A tal fine, considerando molteplici possibili definizioni di fragment, si introducono diverse funzioni relative alla delineazione dei Tree Kernel (TK). In particolare, si distingue principalmente tra le seguenti tipologie:

Nel documento Predizione della struttura di un argomento con feature di stance classification (pagine 118-123)