1.9 L’interpretazione corretta delle features considerate
1.9.4 Adozione di lessici annotati
Un lessico annotato per la valutazione del sentiment è più complesso rispetto ad altri lessici basati sul Natural Language Processing (NLP). Due sono le ragioni di questa complessità:
Ogni voce del lessico riporta le informazioni sulla sua polarità in aggiunta alle sue caratteristiche ortogonali, fonologiche, sintattiche e morfologiche. Queste informazioni di polarità sono di solito rappresentate come positive, o negative o neutre. Per esempio, SentiWordNet155 utilizza terzine [obiettivi positivi, negativi,], con valore minimo e massimo tra 0,0 e 1,0. La maggior parte delle parole presentano più orientamenti a seconda del loro uso e del dominio di riferimento. Ad esempio consideriamo la frase “Questo danno è permanente”. In questa frase, “permanente” è una parola positiva, ma l’orientamento generale del commento è negativo. Inoltre, “imprevedibile” è
155 Andreevskaia, A. and S. Bergler: Mining WordNet for fuzzy sentiment: Sentiment
una parola positiva quando viene usata sulla trama di un film, ma diventa negativa per le prestazioni di un forno a microonde.
Il compito di costruzione di un lessico annotato è suddiviso in fasi seguenti:
o Classificare le parole in soggettive e oggettive. Quando l'algoritmo di classificazione è applicato su questi parole, il classificatore ignora semplicemente i termini oggettivi; in questo modo le prestazioni dipendono totalmente dalle parole soggettive.
o Classificare queste parole secondo le regole morfologiche, che lavorano a livello di parola. Queste regole possono cambiare la struttura, il significato e la parte del discorso delle parole. Ad esempio, le regole per la marcatura di un aggettivo con il sostantivo che qualifica, ecc
o Identificare le loro regole grammaticali, che descrivono le possibili strutture di una frase e le posizione del parti del discorso l’una rispetto all'altra
o Individuare le relazioni tra il lessico delle diverse voci. Queste relazioni possono definire sinonimi, contrari e riferimenti incrociati, ecc
o Decidere ed annotare polarità e poi intensità delle voci. In questa fase prima le voci sono classificate come positive o negative e poi ad esse vengono attribuiti i punteggi di intensità. Alcune voci hanno solo orientamenti e alcuni hanno solo intensità (Come modificatori) e alcuni hanno entrambi i valori.
Si presuppone che il lessico sia composto da voci soggettive o oggettivo. I termini oggettivi sono salvati senza alcun segno di polarità, ma i termini soggettivi sono ulteriormente classificati sulle basi di orientamento e intensità in tre tipi come:
o I termini solo con orientamento T(O). Questi sono i termini che sono o assoluti positivi o assoluti negativi. Il grado di positività o negatività non è indicato.
o I termini solo con intensità T(I). Questi sono i termini che non hanno orientamento ma possono intensificare l’orientamento di altre parole nelle frasi.
o Condizioni sia con orientamento sia con intensità T(O,I). Se un termine contiene sia l'orientamento
(positivo o ) negativo e quindi l'intensità si trova in questa categoria ed è contrassegnato con entrambi i valori.
Seconda parte
I Tools di Mercato
Esistono, sul mercato, una serie di applicativi dedicati che integrano strumenti di business intelligence, modelli statistici e analisi semantica, con i quali è possibile esaminare un’ampia copertura di contenuti presenti sul web e sui social media, analizzando migliaia di testi per fornire informazioni su: brand, competitors, reputation. Bisogna precisare che queste applicazioni non forniscono verità assolute ma solo delle linee guida che devono essere utilizzate nel modo migliore per poter estrarre delle informazioni utili.
Gli strumenti di brand reputation monitoring, possono essere sia gratuiti che a pagamento. Nascono con l’intento di analizzare quello che viene scritto sui social network. Alcuni consentono di effettuare anche analisi più approfondite sui vari trends.
Diverse sono le tecnologie che consentono di reperire le più disparate informazioni sul web. Tutte le tecniche disponibili, a prescindere dalla loro natura, si basano su tre step fondamentali:
1. Data Collection; 2. Data Processing; 3. Deliver;
Data collection – E’ un termine utilizzato per descrivere un processo
orientato alla preparazione e alla raccolta dei dati. La accolta dei dati si prefigge l’obiettivo della raccolta dei dati che verranno, successivamente, elaborati per estrapolare da essi informazioni su decisioni e questioni importanti. I dati raccolti riguardano, principalmente, la possibilità di fornire informazioni su di uno specifico argomento. La raccolta dei dati avviene di solito nella fase iniziale di un progetto di miglioramento e, spesso viene formalizzato attraverso un piano di raccolta dei dati, che di solito contiene le seguenti attività:
Pre-collection activity: accordi sugli obiettivi, sui dati di destinazione, sulle definizioni e sui metodi;
Collection: data collection;
Present Findings: di solito comporta una qualche forma di ordinamento analisi e/o presentazione;
Quando si effettua l’estrazione delle informazioni si dovrebbe indicare la grandezza delle fonti, considerare il problema del data-overloading e, inoltre, i dati dovrebbero essere tracciati in tempo reale.
Data processing - Per mezzo di varie fonti, i clienti trasmettono le
loro opinioni sotto forma di dati. Il sistema informativo riceve come input tali dati e produce in uscita informazioni utili. La conversione dei dati grezzi, in informazioni utili, avviene tramite un'applicazione di elaborazione dei dati.
La necessità della conversione dei dati, in informazioni utilizzabili, ha l’obiettivo di ottimizzare le metriche automatizzate relative alla definizione dei topics, alle informazioni demografiche, all’analisi del sentiment e all’individuazione degli influencer.
Il processo può essere automatizzato ed eseguito su un computer. Esso comporta la registrazione, l'analisi, il calcolo, la diffusione e l’archiviazione dei dati.
Delivery - I dati provenienti dal data processing vengono sottoposti
alla fase di presentazione.
La maggior parte delle applicazioni fanno uso di una dashboard utilizzabile dall’utente finale. Queste ultime, solitamente, includono diverse funzionalità e in alcuni casi sono facilmente personalizzabili dall’utente.