• Non ci sono risultati.

Social Media Monitoring

3.3 Come monitorare

3.3.2 Fase di comprensione

In questa seconda fase di Social Media Monitoring è fondamentale comprendere e riclassificare i dati raccolti. Si comincia con una grossa quantità di dati che sono stati acquisiti in maniera disordinata e l’attività centrale in questa fase consiste nel riordinarli riclassificandoli in modo tale da creare un insieme strutturato, rappresentabile e adatto ad analisi successive.

Non è quindi sufficiente raccogliere i dati, bisogna anche dar loro una forma per poterli utilizzare seguendo gli scopi della ricerca. Per fare ciò, bisogna trovare dei driver di analisi, che permettano di individuare delle dimensioni utili di monitoraggio, come temi, brand, modelli, attori e così via. Solitamente si tende a creare tassonomie, con lo scopo di rappresentare l’informazione inserendo i dati in uno schema gerarchico. Il sistema di classificazione viene chiamato albero, mentre le singole unità che lo compongono sono dette nodi o classi. Le classi dell’albero sono legate tra di loro da relazioni di tipo gerarchiche, nel senso che più si scende lungo l’albero e più le classi diventano specifiche e viceversa. Sono, però anche legate da relazioni di tipo semantiche, ovvero all’appartenenza degli elementi di uno stesso dominio o campo semantico. Per poter circoscrivere il perimetro di analisi, come prima azione è utile individuare il dominio. Una volta fatto questo, occorre tracciare i driver, ovvero quelli che sono i rami del nostro albero, per poter definire le linee guida del monitoraggio. Infine, verranno suddivise le classi, i nuclei fondamentali della tassonomia. A ciascuna classe viene associata una query, formata da stringhe di testo che combinate tra loro restituiscono i dati utili e corrispondenti al concetto richiesto. Questo procedimento permette una maggiore comprensione del dominio di riferimento, ma dà anche il via ad una successiva analisi quantitativa e qualitativa dei dati ottenuti.

Il problema principale di questo tipo di classificazione è la scarsa precisione, poiché si basa principalmente sulla presenza di stringhe di testo e queste sono spesso causa di rumore dovuto alle ambiguità linguistiche. Un esempio particolarmente complesso da gestire possono essere la polisemia e l’omonimia.

Per cercare di ovviare a questi fenomeni, o quantomeno per limitarli, risulta utile effettuare l’analisi semantica. Questo tipo di analisi permette di riconoscere all’interno di un testo i concetti di cui il testo è composto, ma soprattutto le relazioni che intercorrono tra un concetto e l’altro. Quest’ultimo

punto rappresenta il cuore dell’analisi semantica, poiché il significato di un messaggio è dato proprio dalle relazioni che connettono i vari concetti gli uni agli altri.

Il successo dei social network ed il conseguente aumento di recensioni, valutazioni, raccomandazioni, ha portato ad implementare gli studi sull’intelligenza linguistica e sull’analisi semantica, dando origine ad uno specifico campo di indagine: la sentiment analysis. Essa riferisce all’elaborazione del linguaggio e all’analisi del testo per identificare informazioni soggettive nelle fonti. L’applicazione perfetta della sentiment analysis si ha rispetto alle recensioni, ai social media e al servizio clienti, per questo molto spesso l’analisi del sentiment viene anche chiamata social media analysis.

L’obiettivo principale della sentiment analysis è determinare la polarità generale di un documento (sia che si tratti di una recensione, che di un commento ad un post e via dicendo), ossia classificare un documento o frase in positiva, negativa o neutrale. Questa analisi permette di attribuire un ordine, o una struttura ad un testo. Individua e mette in relazione i contenuti rilevanti. Infine, elimina il rumore di fondo, cioè i commenti inutili o non pertinenti ed estrae le sole informazioni di interesse.

La sentiment analysis può essere svolta sia manualmente da parte di esperti analisti, sia in modo automatizzato. Nel primo caso un operatore individua le stringhe di testo di interesse e assegna loro la codifica semantica appropriata. Se il testo analizzato contiene un’opinione nei confronti di un determinato target, allora si procede nell’assegnazione della polarità corretta.

Nel caso in cui, invece l’analisi venga realizzata automaticamente, si cerca di trattare il linguaggio umano in maniera automatizzata. Attraverso l’utilizzo di determinati software si attribuiscono valutazioni positive o negative ai testi neutrali presi in esame.

Indipendentemente dal tipo, lo studio del sentiment parte sempre dalla fase di analisi: durante questa fase vengono stabiliti il perimetro ed il target della ricerca. Successivamente le strade dell’analisi manuale e dell’analisi automatizzata si dividono. Nel primo caso viene poi affidato tutto alle capacità dell’analista, mentre nel secondo ci sono poi due ulteriori fasi. Prima avviene l’implementazione, in questa fase vengono create le regole di classificazione tassonomica e per l’analisi semantica. Poi si passa alla valutazione, dove si analizzano i risultati e la conseguente messa a punto della terminologia e delle regole.

Sia l’analisi manuale, sia quella automatizzata presentano vantaggi e svantaggi. L’analisi manuale permette di ottenere risultati precisi e affidabili, ma richiede anche un dispendio di tempo notevole,in particolare per poter leggere e analizzare tutto il testo. Inoltre, l’analisi può contenere comunque delle imprecisioni dovute all’interpretazione del testo da parte

dell’operatore, oppure dall’applicazione non sistematica e omogenea dei criteri di annotazione, o dall’utilizzo scorretto dei criteri.

L’analisi automatizzata al contrario, permette di ottenere grandi quantità di dati in tempi brevi, i quali però possono contenere diversi errori e di conseguenza poi la fase successiva di validazione dovrà essere ripetuta più volte. Le difficoltà maggiori si riscontrano nell’ambito del trattamento del linguaggio naturale, il quale è per definizione ambiguo ed insidioso. Un esempio concreto potrebbero essere le espressioni ironiche. Per aggirare questi ostacoli inseriti dalla lingua italiana, alcuni sistemi di analisi si basano sul conteggio di termini positivi e negativi, senza fare riferimento ad un target specifico. In questo modo si rischia però, di ottenere un risultato approssimativo. Alcune parole nella lingua italiana sono ambigue, come il termine “cattivo”, che apparentemente potrebbe risultare negativo, ma se riferito ad una macchina per esempio, potrebbe significare “aggressiva, dalle notevoli prestazioni”.

Documenti correlati