iSA e Voices Analytics - Applicazione della classificazione supervisionata

3.3 Applicazione della classificazione supervisionata

3.3.8 iSA e Voices Analytics

Come anticipato, si riconsiderano la reputazione di Starbucks e il fenome- no di tweeting sulla campagna delle palme in Piazza del Duomo. Vengono quindi impiegati entrambi i dataset. Per questo tipo di analisi ci avvaliamo della piattaforma Voices Analytics, messa a disposizione da Voices From The Blogs. La piattaforma sfrutta la metodologia di Ceron, Iacus e Curini, offren- do la giustificazione scientifica del modello su cui la piattaforma è costruita. Alla base di Voices Analytics c’è iSA, Integrated Sentiment Analysis [21], ovvero un algoritmo che riprende il metodo di classificazione supervisionata Hopkins-King e ne propone una versione specificamente disegnata per lavora- re con i social network e con il contesto del web, caratterizzato da abbondanza di rumore rispetto alla quantità di informazione rilevante che si può estrarre. L’algoritmo si basa sulla classificazione aggregata [21]: a differenza di quella individuale, qualora si stia analizzando un numero elevato di testi e si vo- gliano conoscere le proporzioni nelle varie classi si utilizza una classificazione aggregata. Per passare dalla classificazione individuale a quella aggregata si utilizza solitamente il metodo definito “Classify-and-Count” [20], ovvero si fa una classificazione individuale e si conta in seguito il numero di testi assegnati a ciascuna categoria. Il problema nell’utilizzo di un processo di questo tipo è che operando una classificazione individuale e poi contando il numero di testi assegnati a ciascuna categoria si amplificano gli errori di misclassificazione rispetto alla classificazione aggregata [20].

Abbiamo visto la classificazione individuale con i modelli Naive Bayes e Support Vector Machine, in cui la proporzione dei tweet appartenenti alle tre classi `e stata valutata andando a classificare il sentimento di ogni singolo

testo. Il modello su cui è fondato iSA, invece, è basato sul metodo aggregato che fu formulato da Hopkins e King [21]. Secondo il metodo aggregato si stima direttamente la distribuzione aggregata del sentimento, usando i testi del training set e, come per quanto visto precedentemente, prevede una fase di codifica manuale, il tagging. La novità di questo approccio è che l’errore di misclassificazione decresce rispetto all’aggregazione dei risultati ottenuti da classificazione individuale, evitando il passaggio intermedio della classificazione individuale.

Indichiamo con P (S) la distribuzione degli stem dell’intero insieme di dati (training set e test set ). Poich´e vale

P (S = s) =

j=1

P (S = s|D = Dj) × P (Dj)

al variare di s in S, la distribuzione degli stem pu`o essere scomposta in

P (S) = P (S|D)P (D)

dove P (S) è il vettore che contiene le probabilità dei vari stem e P (D) il vettore delle probabilità delle categorie.

La matrice P (S|D) contiene le probabilit`a che una particolare sequenza di stem compaia all’interno dei testi che sono classificati secondo una particolare categoria Dj. Questa matrice P (S|D) ha dimensione 2M × k.

Essendo nota la distribuzione P (S|D) solo per i testi del training set, cio`e quelli effettivamente codificati, si deve fare l’ipotesi che le parole utilizzate nel training set (T R) per esprimere Dj siano le stesse usate da tutti i testi

del corpus, ovvero che:

La precedente equazione si pu`o scrivere quindi come:

P (S) = PT R(S|D) × P (D)

Da cui si ricava:

P (D) = PT R(S|D)−1× P (S)

Il vantaggio di questo approccio è che non viene utilizzata la classificazione individuale e successivamente aggregata, ma viene stimata direttamente la distribuzione aggregata P (D). Questo dovrebbe evitare la “amplificazione dell’errore” che si ottiene con il metodo “Classify-and-Count” [21]. L’aspet- to fondamentale di cui tenere conto per il buon funzionamento di questo metodo, però, è che le categorie scelte siano esaustive: diventa fondamentale l’introduzione della categoria Offtopics, contenente tutti quei testi che non trattano l’argomento in esame. Hopkins e King prevedono come unica ipotesi alla base del loro metodo la rappresentatività linguistica dei testi del training set rispetto a tutto il corpus di testi, ovvero che sia verificata l’assunzione PT R(Sj|D) = P (Sj|D) [21]. Questo avviene quando i temi (gli stem) del

training set sono presenti in numero sufficiente da poter individuare e ca- ratterizzare ogni categoria: quando si etichettano manualmente i testi del training set si deve essere certi che questi siano ben rappresentativi del lin- guaggio usato in tutto il corpus di testi. Questo significa che nel training set deve essere presente un numero cospicuo degli stem, anche se non è necessario che in ciascuna categoria ci sia lo stesso numero di testi: ad esempio, se si ha a che fare con categorie che, per loro natura, sono poco numerose si procede alla ricerca di appositi testi da inserire nel training set in modo da arricchire la variabilità di testi in quella categoria e, qualora questo non fosse possibile, si può modificare la catalogazione evitando cos`ı la presenza di categorie poco

numerose – un passaggio, questo, che vedremo proprio in fase applicativa. La fase di etichettatura manuale diventa perci`o particolarmente delicata e richiede la miglior accuratezza possibile. Sulla base della supposizione che PT R(Sj|D) = P (Sj|D), ovvero sulla base della rappresentativit`a dei testi del

training set rispetto all’intero dataset, i risultati ottenuti saranno fortemente dipendenti dalle scelte eseguite in questa fase. Il processo di assegnazione dei testi a ciascuna categoria permetterà poi al classificatore di imparare le rego- le decisionali che lo portano a stimare le percentuali richieste dal set di testi etichettati manualmente. Chi effettua l’etichettatura manuale deve quindi avere ben presente quale sia il problema e in che modo assegnare corretta- mente i tweet alle categorie, quindi aver compreso esattamente il significato dell’etichetta rappresentata da una determinata categoria. Di nuovo, si ve- drà meglio in fase applicativa cosa questo comporti. A questo punto è utile introdurre l’evoluzione che si intende effettuare con questa seconda analisi, permessa dall’utilizzo della piattaforma Voices Analytics, e quindi il concetto di opinion mining rispetto a quello visto finora di sentiment analysis.

Nel documento Machine learning e fattore umano nella sentiment analysis. Il caso Starbucks a Milano (pagine 77-80)