Feature di classificazione - Analisi degli strumenti applicativi della SC

3.2 Analisi degli strumenti applicativi della SC

3.2.1 Feature di classificazione

Riprendendo il discorso relativo alle feature di classificazione risulta opportuno soffermarsi in maggiore dettaglio su quest’ultima tematica, al fine di evidenziarne gli aspetti principali e la loro importanza dal pun- to di vista dell’elaborazione del testo. In particolare, al termine della presente fase di ricerca degli strumenti propri della stance classification maggiormente conformi all’obiettivo imposto, sono state selezionate le seguenti feature di classificazione.

• Bag-of-Words (BoW): rappresentazione di tipo statistico del testo per mezzo della quale una frase S viene codificata in un vettore v = v1, . . . , v|D| di valori binari, dove D è il dizionario dei termini

individuati all’interno di tutte le frasi, e vj = 1 se la parola as-

sociata wj, presente in D, appare all’interno di S. In particolare,

il presente modello è stato studiato ampiamente, con particolare attenzione alle variante TF-IDF[136], la quale tiene conto della frequenza di accadimento di una parola all’interno di una frase, i.e. term frequency (TF), e della rarità del termine stesso all’interno del vocabolario, i.e. inverse document frequency (IDF).

• N-gram: viene generalmente definito come la sequenza di termini adiacenti di grado n, ovvero il numero di parole da considerare per formare uno specifico n-gram. In particolare, se si associa a ciascun n-gram la sua frequenza di accadimento all’interno dei documenti di interesse secondo il criterio TF-IDF si ottiene una generalizzazione del concetto di BoW.

• Cosine similarity: si intende la similarità coseno calcolata tra le rappresentazioni word vector di ciascun target di classificazione, effettuata ricorrendo ai dati già strutturati di Google, i.e. Word2Vec[90]. Più precisamente, dati due vettori A e B, la cosine similarity viene calcolata mediante la seguente equazione:

similarity= cos(θ) = A · B ||A||2||B||2

(3.1)

• Subject-Verb-Object (SVO) triples: triple {soggetto, verbo, oggetto} individuate da un opportuno strumento di analisi, i.e.

parser, estratte per tutte le proposizioni di ciascun target di classificazione. In particolare modo, viene effettuata una comparazio- ne di tutte le coppie incrociate di elementi di due triple SVO, appartenenti rispettivamente ai due target di classificazione. • Basic: comprende un vasto set di feature di tipo quantitativo quali:

numero di caratteri, lunghezza media delle parole in termini di caratteri, numero di frasi, numero di parole, lunghezza media delle frasi in termini di parole, conteggio dei seguenti simboli {’ ?’, ’ !’, ’"’}, conteggio delle coppie di parentesi, percentuale di parole con più di sei lettere, percentuale di forme pronominali, percentuale delle cosiddette sentiment word. In particolar modo, le ultime tre feature descritte rientrano nel set di feature descritto da Anand et al.[5].

• Discourse Cues[146]: frequenza del primo uni-gram, bi-gram e tri-gram di ciascun testo.

• Repeated Punctuation[146]: conteggio dei simboli di punteggia- tura.

• Linguistic Inquiry and Word Count (LIWC) feature[120]: conteggio delle categorie lessicali individuate, numero di parole per frase (WPS), numero di forme pronominali (Pro), numero di parole relative ad emozioni positive o negative. In particolar modo, ciascuna delle presenti feature è normalizzata in base alla frequenza di accadimento.

• Dependency relation[5]: comprende tre diverse tipologie di feature, aventi in comune una definizione di base descrivente queste ultime come triple (rel, w1, w2), dove rel indica la relazione di dipendenza grammaticale tra i due termini w1 e w2. Le seguenti varianti, denominate secondo il termine di depency relation feature, si distinguono in base alla natura dei termini w1 e w2.

– Syntatic: w1 e w2 sono rappresentati da semplici parole individuate all’interno del testo.

– POS generalized: si sostituisce w1 con la rispettiva etichetta Part-of-Speech (POS).

3.2. ANALISI DEGLI STRUMENTI APPLICATIVI DELLA SC 71

– Opinion generalized: si seleziona, per mezzo di uno opportuno strumenti di analisi del sentiment, quale il lexicon MP- QA[165], il sottoinsieme di dependency relation feature aventi almeno uno dei due termini caratterizzato da un sentiment non neutro. In particolare, per ognuna di esse si rimpiazza la cosiddetta opinion word con la sua rispettiva polarità, ossia positiva o negativa.

• Frame Semantic Features: utilizzo di strumenti, quali Frame- Net [11] e SEMAFOR[33], per creare dei costrutti, i.e. frame, volti a catturare la dimensione semantica di ciascuna proposizione indi- viduata all’interno del testo. In particolar modo, per ogni frame si definiscono tre diverse tipologie di feature.

– Frame-word interaction feature: feature binaria composta da A) il nome del frame dalla quale è definita, B) coppia non ordinata di parole, rappresentanti due particolari elementi del frame in questione, i.e. frame element. Più precisamente, per ogni coppia di frame element si crea, a partire da ogni coppia non ordinata di parole, la cosiddetta frame-word interaction feature, composta da parole appartenenti rispettivamente ai due frame element considerati.

– Frame-pair feature: feature binaria composta da una coppia di parole relative ai nomi dei due frame, nella quale il target del primo è presente all’interno di un frame element appartenente al secondo.

– Frame n-gram feature: rappresenta la versione basata su frame della feature legata ad un n-gram. Più precisamente, dato un uni-gram o un bi-gram dove ogni parola è una open class word, si creano, a partire da quest’ultimo, tutte le possi- bili frame n-gram feature, rimpiazzando una o più parole con il nome del frame se esse rappresentano il suo target, oppure con il ruolo semantico del frame se la parola è presente all’interno di un particolare frame element.

• Skip n-grams: costruzione simile a quella degli n-gram, differen- te tuttavia per il criterio di selezione delle parole per formare gli

n-gram. In particolare, la selezione non è più basata sulla adia- cenza tra parole, bensì si considerano anche elementi con distanza maggiore di 1 in termini di parole.

Tuttavia, solamente alcune delle feature elencate sono state poi im- plementate o utilizzate durante la classificazione per l’ottenimento dei risultati. I motivi variano dalla semplice impossibilità d’uso per questio- ni di utilizzo proprietario (LIWC), complessità implementativa (Frame Semantic Features) e infine lo scarso impatto una volta applicate sui corpora di interesse (Discourse Cues, Opinion Generalized ). Più precisamente, le feature evidenziate in rosso sono quelle per cui non è stata definita un’ implementazione o che non sono state utilizzate durante la classificazione. Infine, oltre alle feature selezionate all’interno dei lavori relativi alla stance classification elencati, sono stati sperimentati i co- siddetti Syntactic n-gram[137] (sn-gram), ossia degli n-gram costruiti sulla base delle relazioni sintattiche ottenute per mezzo di un opportuno parser, limitandoli tuttavia al caso di default dei bi-gram. Il motivo è dato dal fatto che gli esempi riportati nel lavoro di presentazione di tale feature, presentano il processo di individuazione delle dipendenze da par- te dello strumento di analisi Stanford Dependency Parser che differisce da quella ottenuta sperimentalmente. Per questo motivo, seppur a livello logico l’estensione implementativa ai casi in cui il grado n sia maggiore di 2 appaia corretta, si è ritenuto preferibile limitarsi al caso base, in quanto il set di sn-gram individuati coincide per l’appunto con le coppie di dipendenza estratte dallo Stanford Dependency Parser. Tutti i det- tagli implementativi, relativi al procedimento di estrazione di ciascuna feature in termini di codice, sono riportati in dettaglio all’interno della appendice A.

3.3 Procedimento di costruzione di un clas-

sificatore per la

stance classification

Il passo successivo, una volta conclusa la fase di corretta implementazione di tutte le feature precedentemente introdotte, consiste nella definizione di un classificatore in grado di raggiungere un livello di prestazioni comparabile con quanto presentato da Ferreira e Vlachos[46] sul corpus

Nel documento Predizione della struttura di un argomento con feature di stance classification (pagine 71-75)