• Non ci sono risultati.

3.3 Applicazione della classificazione supervisionata

3.3.8 iSA e Voices Analytics

Come anticipato, si riconsiderano la reputazione di Starbucks e il fenome- no di tweeting sulla campagna delle palme in Piazza del Duomo. Vengono quindi impiegati entrambi i dataset. Per questo tipo di analisi ci avvaliamo della piattaforma Voices Analytics, messa a disposizione da Voices From The Blogs. La piattaforma sfrutta la metodologia di Ceron, Iacus e Curini, offren- do la giustificazione scientifica del modello su cui la piattaforma `e costruita. Alla base di Voices Analytics c’`e iSA, Integrated Sentiment Analysis [21], ovvero un algoritmo che riprende il metodo di classificazione supervisionata Hopkins-King e ne propone una versione specificamente disegnata per lavora- re con i social network e con il contesto del web, caratterizzato da abbondanza di rumore rispetto alla quantit`a di informazione rilevante che si pu`o estrarre. L’algoritmo si basa sulla classificazione aggregata [21]: a differenza di quella individuale, qualora si stia analizzando un numero elevato di testi e si vo- gliano conoscere le proporzioni nelle varie classi si utilizza una classificazione aggregata. Per passare dalla classificazione individuale a quella aggregata si utilizza solitamente il metodo definito “Classify-and-Count” [20], ovvero si fa una classificazione individuale e si conta in seguito il numero di testi assegnati a ciascuna categoria. Il problema nell’utilizzo di un processo di questo tipo `e che operando una classificazione individuale e poi contando il numero di testi assegnati a ciascuna categoria si amplificano gli errori di misclassificazione rispetto alla classificazione aggregata [20].

Abbiamo visto la classificazione individuale con i modelli Naive Bayes e Support Vector Machine, in cui la proporzione dei tweet appartenenti alle tre classi `e stata valutata andando a classificare il sentimento di ogni singolo

testo. Il modello su cui `e fondato iSA, invece, `e basato sul metodo aggregato che fu formulato da Hopkins e King [21]. Secondo il metodo aggregato si stima direttamente la distribuzione aggregata del sentimento, usando i testi del training set e, come per quanto visto precedentemente, prevede una fase di codifica manuale, il tagging. La novit`a di questo approccio `e che l’errore di misclassificazione decresce rispetto all’aggregazione dei risultati ottenuti da classificazione individuale, evitando il passaggio intermedio della classifi- cazione individuale.

Indichiamo con P (S) la distribuzione degli stem dell’intero insieme di dati (training set e test set ). Poich´e vale

P (S = s) =

K

X

j=1

P (S = s|D = Dj) × P (Dj)

al variare di s in S, la distribuzione degli stem pu`o essere scomposta in

P (S) = P (S|D)P (D)

dove P (S) `e il vettore che contiene le probabilit`a dei vari stem e P (D) il vettore delle probabilit`a delle categorie.

La matrice P (S|D) contiene le probabilit`a che una particolare sequenza di stem compaia all’interno dei testi che sono classificati secondo una particolare categoria Dj. Questa matrice P (S|D) ha dimensione 2M × k.

Essendo nota la distribuzione P (S|D) solo per i testi del training set, cio`e quelli effettivamente codificati, si deve fare l’ipotesi che le parole utilizzate nel training set (T R) per esprimere Dj siano le stesse usate da tutti i testi

del corpus, ovvero che:

La precedente equazione si pu`o scrivere quindi come:

P (S) = PT R(S|D) × P (D)

Da cui si ricava:

P (D) = PT R(S|D)−1× P (S)

Il vantaggio di questo approccio `e che non viene utilizzata la classificazione individuale e successivamente aggregata, ma viene stimata direttamente la distribuzione aggregata P (D). Questo dovrebbe evitare la “amplificazione dell’errore” che si ottiene con il metodo “Classify-and-Count” [21]. L’aspet- to fondamentale di cui tenere conto per il buon funzionamento di questo metodo, per`o, `e che le categorie scelte siano esaustive: diventa fondamentale l’introduzione della categoria Offtopics, contenente tutti quei testi che non trattano l’argomento in esame. Hopkins e King prevedono come unica ipotesi alla base del loro metodo la rappresentativit`a linguistica dei testi del training set rispetto a tutto il corpus di testi, ovvero che sia verificata l’assunzione PT R(Sj|D) = P (Sj|D) [21]. Questo avviene quando i temi (gli stem) del

training set sono presenti in numero sufficiente da poter individuare e ca- ratterizzare ogni categoria: quando si etichettano manualmente i testi del training set si deve essere certi che questi siano ben rappresentativi del lin- guaggio usato in tutto il corpus di testi. Questo significa che nel training set deve essere presente un numero cospicuo degli stem, anche se non `e necessario che in ciascuna categoria ci sia lo stesso numero di testi: ad esempio, se si ha a che fare con categorie che, per loro natura, sono poco numerose si procede alla ricerca di appositi testi da inserire nel training set in modo da arricchire la variabilit`a di testi in quella categoria e, qualora questo non fosse possibile, si pu`o modificare la catalogazione evitando cos`ı la presenza di categorie poco

numerose – un passaggio, questo, che vedremo proprio in fase applicativa. La fase di etichettatura manuale diventa perci`o particolarmente delicata e richiede la miglior accuratezza possibile. Sulla base della supposizione che PT R(Sj|D) = P (Sj|D), ovvero sulla base della rappresentativit`a dei testi del

training set rispetto all’intero dataset, i risultati ottenuti saranno fortemente dipendenti dalle scelte eseguite in questa fase. Il processo di assegnazione dei testi a ciascuna categoria permetter`a poi al classificatore di imparare le rego- le decisionali che lo portano a stimare le percentuali richieste dal set di testi etichettati manualmente. Chi effettua l’etichettatura manuale deve quindi avere ben presente quale sia il problema e in che modo assegnare corretta- mente i tweet alle categorie, quindi aver compreso esattamente il significato dell’etichetta rappresentata da una determinata categoria. Di nuovo, si ve- dr`a meglio in fase applicativa cosa questo comporti. A questo punto `e utile introdurre l’evoluzione che si intende effettuare con questa seconda analisi, permessa dall’utilizzo della piattaforma Voices Analytics, e quindi il concetto di opinion mining rispetto a quello visto finora di sentiment analysis.

Documenti correlati