• Non ci sono risultati.

2.1. Informatica per la semiotica

2.1.3 Strumenti con competenze semantiche

2.1.3.2 Strumenti di Sentiment Analysis

L’espressione Sentiment Analysis si riferisce alle tecniche informatiche che servono a identificare e classificare in modo automatico le opinioni, i sentimenti e le preferenze espresse dagli autori dei testi che troviamo sul Web. In questo senso gli obiettivi della

Sentiment Analysis sono molto simili a quelli della semiotica che si occupa di

identificare i valori in gioco nei testi. Potremmo dire, infatti, che queste tecniche informatiche tentano di mettere in luce la categoria timica dei testi: in semiotica la timia è la disposizione affettiva di base espressa da qualunque processo comunicativo. Secondo il Dizionario ragionato della teoria del linguaggio di Greimas e Courtés:

La categoria timica si articola a sua volta in euforia/disforia (con aforia come termine neutro) e gioca un ruolo fondamentale nella trasformazione dei microuniversi semantici in assiologie: connotando come euforica una deissi del quadrato semiotico, e come disforica la deissi opposta, provoca la valorizzazione positiva e/o negativa di ciascuno dei termini della struttura elementare della significazione (Greimas e Courtés 1979, voce “timica (categoria -)”)52.

92 La timia è quindi un termine neutro che mostra la disposizione positiva o negativa verso un’unità semantica qualsiasi. Dal punto di vista semiotico, è possibile capire come un’unità semantica è valutata in un testo solo attraverso un processo di interpretazione che la Sentiment Analysis cerca in un certo senso di simulare. Essa infatti è “una tecnica di identificazione automatica delle valutazioni positive o negative espresse nei confronti di entità semantiche rilevanti, siano esse concetti o individui” (Incardona 2012, pp. 18-19) e agisce su testi verbali digitali composti da frasi soggettive. Per questa ragione gli ambienti web in cui l’applicazione di tecniche di

Sentiment Analysis è più efficace sono i social media e tutte le piattaforme che ospitano

recensioni, da TripAdvisor a Booking, da Amazon a ProntoPro. In queste piazze virtuali, infatti, troviamo informazioni testuali ascrivibili alla categoria delle opinioni e valutazioni soggettive, invece che alla descrizione di fatti il più possibile oggettivi, che ad esempio dovrebbe trovarsi nei siti di informazione, perché in questi ambienti le persone producono enunciati in cui esprimono esplicitamente il proprio punto di vista e le proprie idee, condividendo sentimenti positivi o negativi con le altre persone.

Senza dubbio la grande disponibilità di pareri personali su qualsiasi argomento è tra le possibilità più interessanti offerte dal Web. Sempre più spesso, infatti, persone (ad esempio leader politici, ma anche manager), istituzioni (ad esempio pubbliche ammnistrazioni), organizzazioni (ad esempio aziende) si trovano a dover prendere in considerazione le opinioni di grandi masse di persone per prendere decisioni di qualche tipo. Prima del Web ciò avveniva chiedendo pareri a persone più o meno vicine o, in modo metodologicamente più sistematico e rigoroso, facendo interviste a campioni di popolazione, organizzando focus group o commissionando sondaggi di opinioni (cfr. tutte le tecniche della ricerca sociale qualitativa, Corbetta 2003), mentre oggi si tendono a integrare le metodologie tradizionali con la consultazione, più o meno sistematica, di centinaia o migliaia di commenti e recensioni disponibili in rete. Il Web infatti ha offerto alle persone molte più possibilità di esprimere la loro opinione, i loro gusti e interessi di quante ce ne fossero prima della sua diffusione di massa, dando a chiunque la possibilità di produrre user-generated contents relativi a qualsiasi argomento e diffusi per mezzo di social network sites, forum, blog e siti web (Bing 2010). La rilevanza sempre più imponente di questo fenomeno ha portato l’informatica a sviluppare strumenti per determinare la polarità (il sentiment, appunto) di qualunque

93 documento (e di qualunque sua parte), classificandolo come positivo, negativo o neutro. Le possibili applicazioni di queste tecnologie sono numerose e vanno dal marketing, per cui si possono individuare punti di forza e debolezza di un prodotto, un servizio, un brand, alla ricerca scientifica e umanistica, il che garantisce analisi automatiche della polarizzazione di larghi corpora testuali senza lo sforzo che richiederebbe uno lavoro di scandaglio manuale.

2.1.3.2.1 Come funziona la Sentiment Analysis

Fin dalle sue origini con Sentiment Analysis si intendono le tecniche

in grado di elaborare una ricerca su parole chiave e di identificare, per ciascun termine, degli attributi (positivo, neutro, negativo) tali per cui, una volta aggregate le distribuzioni di questi termini, diventa possibile estrarre l’opinione associata a ciascun termine chiave (Ceron et al. 2014, p. 29).

Queste tecniche permettono di estrarre in modo automatico quattro informazioni fondamentali dai testi:

(1) la fonte, cioè il soggetto che esprime l’opinione;

(2) la polarità, cioè il valore negativo, positivo o neutro dell’opinione;

(3) l’intensità, cioè il valore che esprime il grado di forza con cui l’opinione è espressa;

(4) l’argomento, cioè l’oggetto valutato dalla fonte (Incardona 2012).

Le applicazioni disponibili non danno tutte lo stesso valore a questi quattro elementi e generalmente si concentrano su alcuni di essi in base agli obiettivi per cui sono state sviluppate. Ad esempio, uno strumento che raccoglie e analizza le citazioni su un certo tema presenti su una pagina web dovrebbe concentrarsi prevalentemente sull’analisi delle fonti e degli argomenti, mentre uno strumento per il marketing che vuole rendere conto di cosa dicono le persone riguardo a un brand o un prodotto, dovrebbe focalizzarsi soprattutto sulla polarità e sull’argomento, tralasciando alcune informazioni sulle fonti.

94 In generale, i metodi più diffusi per l’analisi automatica del sentiment possono essere suddivisi in tre macro-categorie: rilevamento delle keyword, affinità lessicale e metodi statistici53.

Il metodo più semplice e intuitivo, ma forse anche quello più tendente a produrre errori, è la rilevazione di parole chiave relative a categorie emotive riconoscibili. I sistemi di Sentiment Analysis ad esempio classificano facilmente come positivi i contenuti in cui compaiono termini come “felicità” e “gioia” in tutte le loro accezioni linguistiche. L’affinità lessicale invece è un metodo volto a individuare parole che non rinviano direttamente alle emozioni, ma che sono probabilmente “affini” a una certa categoria emotiva. In questo caso, gli strumenti informatici determinano con quanta probabilità una parola può collegarsi a particolari emozioni provate dal soggetto. Ne è un esempio il termine “crepapelle” che, pur non essendo direttamente collegato a una categoria emotiva, solitamente è usato per descrivere una risata intensa e rumorosa, e permette agli strumenti di Sentiment Analysis di classificare i testi in cui compare come valutazioni probabilmente positive di un certo argomento (ad esempio un film o un romanzo).

Grazie ai metodi statistici, che si basano sull’apprendimento automatico, è infine possibile individuare il soggetto cha ha provato il sentimento e la caratteristica dell’oggetto verso la quale il sentimento è orientato. Ciò però non è immediato e richiede un periodo di addestramento del sistema attraverso modelli che associano una polarità e un topic a un determinato tipo di contenuti. Spesso questa fase consiste nell’annotazione manuale di un corpus testuale sulla base di uno schema predefinito, e il risultato è dato in pasto ad algoritmi di machine learning, che generalizzano le regole di classificazione a partire dal materiale già analizzato. Gli algoritmi quindi “esaminano i testi annotati manualmente, imparando a produrre autonomamente risultati di analisi simili per nuovi documenti” (Incardona 2012, p. 21).

Nonostante l’avanzamento tecnologico degli strumenti per l’analisi automatica dei testi, le tecniche di Sentiment Analysis sono tutt’altro che infallibili. Prima di tutto è risaputo che esse sanno difficilmente cogliere e gestire l’ironia. Una frase come “amo

53 “Cos’è la sentiment analysis? Utilità, limiti e tools (gratis e a pagamento)”, articolo di approfondimento del blog Marketing Freaks, specializzato in tecniche di marketing:

http://www.themarketingfreaks.com/2017/01/cose-la-sentiment-analysis-utilita-limiti-e- tools-gratis-e-a-pagamento/, consultato il 12 settembre 2018.

95 lavorare alla domenica, soprattutto quando fuori c’è il sole” sarà immediatamente riconosciuta come ironica da un interprete umano, mentre sarà probabilmente classificata come positiva da un sistema di Sentiment Analysis. L’algoritmo rileva infatti la presenza del verbo “amare” riferito al lavoro domenicale e non ha i mezzi per capire che l’enunciato in realtà potrebbe avere un significato opposto a quello letterale. Le euristiche per la Sentiment Analysis inoltre sono in grado di individuare automaticamente gli attori che esprimono l’opinione soprattutto quando essa è espressa in maniera diretta (ad esempio “io penso che…” o “Paolo odia…”), mentre faticano a gestire i casi di débrayage enunciativi fortemente oggettivanti (ad esempio “si ritiene che…”) (ivi). A fronte di questa affidabilità parziale, il ricercatore interessato all’analisi qualitativa di grandi corpora testuali dovrebbe fare controlli a campione dei testi codificati cercando di evitare il più possibile i casi di distorsione in fase di codifica (Ceron et al. 2014).

Il/la semiologo/a, dal canto suo, può sfruttare le potenzialità offerte da questi strumenti informatici per farsi un’idea iniziale delle opinioni più diffuse riguardo al tema di suo interesse. Una prima classificazione basata sul giudizio positivo, negativo o neutro di un enunciatore nei confronti di un topic permetterà allo/a studioso/a di analizzare nel dettaglio i diversi testi e di mettere in evidenza sia il modo in cui il tema di interesse è interpretato e giudicato da diversi soggetti, sia gli eventuali fallimenti dello strumento. I tool che possono essere utili da questo punto di vista, e che ho già in parte trattato nel § 2.1.1, si differenziano in base al livello di accuratezza e al numero di servizi di analisi testuale che offrono. Quelli più efficaci, solitamente a pagamento e sviluppati per soddisfare i bisogni di marketing delle grandi aziende, non si limitano a fornire semplici classifiche che mostrano il numero di opinioni positive, negative e neutre su un certo tema, ma offrono anche informazioni demografiche sugli utenti che si sono espressi, informazioni sui trending topics, sulle modalità di diffusione dei contenuti e sulla localizzazione geografica dei soggetti che hanno espresso un parere54.

Ciò da un lato permetterà allo studioso di identificare i cosiddetti “influencer” in un certo ambito, tenendone conto durante l’analisi testuale. Dall’altro, mostrerà da dove

54 Ad esempio Brandwatch, potente tool a pagamento che cerca sul web recensioni, articoli, commenti e conversazioni, per poi categorizzarli e analizzarne il sentiment.

96 provengono gli user-generated contents caratterizzati da una certa polarità, mettendo in luce eventuali differenze sociali e culturali che influenzano i processi interpretativi legati al topic che si sta studiando.