L’attribuzione di parole chiave (tagging)

3.3 Applicazione della classificazione supervisionata

3.3.11 L’attribuzione di parole chiave (tagging)

La codifica manuale diventa particolarmente delicata in sede di opinion mi- ning, ovvero nel momento in cui ci si confronta con diverse dimensioni. Co- me anticipato nelle considerazioni preliminari, la determinazione di ciò che è sentiment positivo e ciò che è sentiment negativo può rivelarsi a volte difficile anche per il codificatore umano. Nel caso di più dimensioni d’analisi, interpretare correttamente il testo assegnandogli le categorie più adatte a rappresentarne il significato vuol dire incorrere non solo nei problemi già noti dell’ambiguità del testo (le figure retoriche dell’ironia e della preterizio- ne, ad esempio), ma anche il rischio proprio del ricercatore di forzare una classificazione, inserendo il tweet in una categoria che non lo rappresenta completamente al fine di non “perdere” la quantità di informazione conte- nuta nel tweet. Su quest’ultimo aspetto, vale la pena menzionare una delle potenzialità di Voices Analytics ovvero la possibilità di includere, durante la fase di etichettatura, nuove categorie mano a mano che la lettura dei tweet ne fa riscontrare la necessità. Dall’altra parte invece, è possibile a valle dell’indagine, quindi al termine della fase di codifica, decidere di incorporare una o più categorie in un’altra, ritenendo una delle categorie non sufficientemente

“rappresentativa”.

Un esempio pu`o illustrare meglio in che modo effettuare la fase di coding:

Nebbiolina ed umido a Milano. Le palme di Starbucks si domandano: ma

che ce sto a fa’ ?

In questo caso, sarebbe difficile decidere in che modo classificare il sentimento rispetto a Starbucks. Il tweet per`o fornisce informazioni rispetto a:

IMMAGINE MILANO:

-associazioni con spiaggia e mare IMMAGINE PALME:

-esotico

SENTIMENT VERSO LA CAMPAGNA -negativo

MOTIVAZIONI SENTIMENT NEGATIVO -incoerenza

In questo caso invece il tweet non `e particolarmente significativo rispetto alla campagna, ma lo `e rispetto al focus della polemica:

Vai a vedere che gli stessi a cui non piacciono palme e banani in Piazza

Duomo a Milano sono quelli che andranno da #Starbucks per il caff`e

FOCUS:

-chi critica `e incoerente

ciale dell’iniziativa:

Comunque geniali quelli di Starbucks: avessero messo delle piante qualunque

non se li sarebbe filati nessuno. E, invece, le palme....

In questo caso l’interpretazione del codificatore `e importante: il tweet potreb- be essere etichettato come sentiment neutro e fatto cadere sotto il cappello della categoria “immagine palme” come “trovata commerciale”; in questo caso invece si `e deciso che il “geniali” come attributo rappresentasse comunque un valore positivo rispetto alla campagna:

SENTIMENT POSITIVO

MOTIVAZIONI SENTIMENT POSITIVO buona operazione di marketing

E da sottolineare che la fase di coding, proprio per l’arbitrarietà di alcune decisioni come quella appena illustrata, viene generalmente supervisionata da un altro codificatore che abbia la stessa conoscenza del campo di indagine e che quindi possa assicurarsi della bontà della classificazione, intervenendo per minimizzare l’eventuale errore umano (una codifica involontariamente errata a causa di distrazione o inceppamento tecnico) o ancora mettere in discussione una scelta di classificazione ritenuta non idonea. Il problema non è comunque risolto completamente, come dimostrano gli studi effettuati sulle discordanze di codifica che si sono effettutati paragonando le classifica- zioni manuali di codificatori diversi [51]. Un’ultima considerazione riguarda l’impossibilità di assegnare più di una motivazione di sentiment negativo o positivo allo stesso testo: delle categorie di motivazione a disposizione, il co-

dificatore è costretto a sceglierne solo una. Nei casi, quindi, in cui il tweet si prestasse a essere interpretato con più di una motivazione di sentiment, si è scelta quella ritenuta più rappresentativa o inclusiva.

Fatte queste precisazioni, è possibile passare alla fase relativa ai risultati ottenuti. Ci limitiamo soltanto a segnalare la differenza di iSA e quindi dell’uso della piattaforma Voices Analytics rispetto all’analisi condotta precedentemente per quanto riguarda l’aspetto dell’ampiezza del training set. Secondo il modello Hopkins-King, su cui è stato sviluppato iSA, il numero minimo di testi da codificare per l’apprendimento dell’algoritmo non può essere calcolato a priori: ciò che conta è invece avere sufficienti codifiche di ogni categoria considerata [51]. Negli approcci tradizionali esistono delle for- mule che, sulla base del numero di categorie e dell’ampiezza del corpus, ci permettono di determinare il valore di numerosità del training set rispetto al test set come misura percentuale, dipendente quindi dall’ampiezza della popolazione d’osservazione. Nel caso del modello Hopkins-King, invece, non si ha una numerosità a priori di osservazioni da etichettare, bens`ı un numero individuale di codifiche per ogni categoria: la codifica manuale dovrebbe per- ciò proseguire fino a che non si raggiunga un numero sufficientemente elevato di osservazioni catalogate per quella categoria. Non si conosce un numero di codifiche di testi ottimale: empiricamente, si ritiene che secondo il modello Hopkins-King un numero tra le 30 e le 50 codifiche sia sufficiente. La quan- tità di lavoro di codifica manuale richiesta per avere dei risultati accurati dipende quindi:

1) dall’effettiva rappresentativit`a delle categorie: si ricorda a questo pro- posito quanto accennato precedentemente sulla decisione eventuale, in fase di tagging, ovvero di incorporare due categorie in una, includen-

done una troppo specifica (e quindi rara, poco rappresentativa) in una pi`u generale.

2) dalla quantità di osservazioni offtopic, che rendono quindi non signifi- cativa la singola codifica di questa categoria e chiedono al codificatore di procedere con la successiva. La quantità di osservazioni offtopic può essere anche molto elevata, particolarmente nell’ambito dei social network, in cui la raccolta dei dati è affidata alle parole chiave e agli hashtag.

Nel nostro caso, la codifica manuale ha portato ad analizzare un totale di 292 post, 11 dei quali rilevati come offtopic e quindi scartati dall’analisi. È opportuno segnalare che per una delle categorie inizialmente previste per la dimensione “Motivazioni di sentiment positivo”, ovvero la categoria “Rappresentano positivamente il brand Starbucks”, non si sono trovate evi- denze sufficienti; la categoria è stata fatta convogliare in “Buona operazione di marketing”, che era invece già prevista.

Nel documento Machine learning e fattore umano nella sentiment analysis. Il caso Starbucks a Milano (pagine 91-95)