L'analisi del contenuto: procedura - – Analisi della comunicazione

CAPITOLO 2 – Analisi della comunicazione

2.2 L'analisi del contenuto: procedura

Dopo aver identificato il motivo della ricerca, si passa alla raccolta dei dati, divisa in quattro momenti: identificare, unificare, preparare e immagazzinare i dati. Come detto in precedenza, il fenomeno dei big data è un’arma a doppio taglio, a causa della immensità delle fonti degli stessi dati. Diventa, dunque, importante campionare, riducendo al minimo, seppur non azzerando, le possibilità di bias: ad esempio, sui social, l’audience di Twitter può essere rappresentativo di un pubblico diverso da quello di Facebook; la posizione di alcuni post può essere alterata dal fatto di essere oggetto di promozione; si ritiene indispensabile, quindi, un campionamento casuale dei post. I metadati possono venirci incontro per testare i risultati ottenuti. Per quanto riguarda la dimensione del campione, le scelte variano sia riguardo il numero di documenti, sia riguardo il numero di parole in un documento; l’ipotesi da adottare è che le unità siano almeno trenta per fare inferenze probabilisticamente accettabili in maniera tale da poter trattare i dati statistici come se avessero una distribuzione normale. Riguardo al numero di parole per documento, Tirunillai e Tellis (2012) scartano documenti che abbiano meno di dieci parole, per evitare una eccessiva frammentarietà e dispersione. Successivamente, i dati identificati

devono essere ripuliti: ad esempio, emoticon o asterischi devono essere sostituiti con caratteri leggibili; eventuali errori grammaticali devono essere lasciati in caso si stiano studiando le competenze linguistiche. A seguito di ciò, i dati sono raggruppati e unificati in documenti che contengono le unità più piccole di paragone; questa procedura può anche essere svolta tramite programmi appositi, quali Word Macro, per tagliare il testo in stringhe identificabili (come paragrafi o frasi), copiarle in un nuovo documento e salvare il nuovo documento; o, in alternativa, lasciare il testo unico ma diviso in corrispondenza delle stringhe, istruendo il programma a riconoscere più parti.

A questo punto si deve rendere operativo il costrutto. I numerosi dati raccolti per una analisi del contenuto non sono, di per sé, comparabili; interviste trascritte, articoli, note devono, dunque, essere resi tali tramite opportuni schemi di codifica oggettivi. Prima di procedere alla effettiva analisi, devono essere individuati dei criteri di selezione che siano esaustivi, in modo da includere ogni aspetto rilevante del testo, e tali da consentire ad altri ricercatori di ottenere i medesimi risultati; solo così viene garantita una buona affidabilità e validità dei risultati stessi. La procedura deve essere la più oggettiva possibile, non influenzata dalle congetture del ricercatore. Il documento deve essere letto per identificare i vari codici da applicare, cioè sottotemi; un codice può essere una parola, una frase o sezioni più grandi di informazioni. Suddette categorie possono essere individuate in maniera induttiva, cercando di identificare nella lettura i temi emergenti, o deduttiva, partendo da teorie preconcette che trovano conferma nel testo. Spesso le due modalità sono usate insieme poiché complementari. Sono sette gli elementi che possono essere conteggiati: parole, temi, personaggi, paragrafi, articoli, concetti (parole che tendono verso uno stesso concetto), semantica; sono anche previsti eventuali mix tra questi. Dopo aver trovato un gran numero di codici, il contenuto di alcuni di questi risulterà ridondante e, quindi, dovranno essere uniti e/o modificati. Successivamente, i codici così formati vengono raggruppati in categorie più ampie, le quali possono, ad esempio, essere comuni (persone, età,

sesso, ruolo…), speciali (limitate ad un certo campo) o teoretiche (che vengono create proprio durante l’analisi stessa). Alcuni codici possono diventare categorie e “inglobare” altri codici; oppure, possono formarsi categorie del tutto nuove, che ospitano i precedenti codici. Tra le varie categorie individuate possono, poi, riconoscersi un limitato numero di concetti base del problema affrontato. In media, da 80-100 codici si passa a 15-20 categorie, per poi identificare 5-7 concetti, tutti ricondotti a una idea centrale e principale di studio (Figura 16). Non vi è un termine oggettivo dell'operazione: si ritiene opportuno concludere la codifica - intesa in senso generale della procedura – quando ci si rende conto di non ottenere nuove informazioni e si raggiunge un punto di saturazione.

Figura 16- Fasi progressive della codifica

Affinché una teoria abbia potere esplicativo, bisogna che le categorie e sotto categorie siano dense concettualmente, non lacunose e collegate tra loro. Più i concetti e, in particolare, la categoria centrale sono astratti, maggiore applicabilità avrà la teoria nascente. Ciò perché questa teoria è vera solamente sotto le ipotesi spazio temporali indicate dal ricercatore; maggiore astrazione aumenterà le possibilità di applicabilità generale. Ultima, ma non per importanza, è la capacità creativa del

ricercatore, che si estrinseca nell’abilità analitica, nella sensibilità alla teoria e alle azioni e interazioni, nella capacità di raccolta dei dati. L’affidabilità dei risultati è una delle caratteristiche da ottenere dal processo, per garantire, inoltre, una replicabilità degli stessi ed una indipendenza dagli strumenti usati, dal ricercatore e dal momento di misurazione. L’affidabilità di categoria dipende dall’abilità del ricercatore di definire le categorie in maniera tale che i giudici siano d’accordo sulle varie inclusioni ed esclusioni. Invece, l’affidabilità inter-giudice indica quanto i giudici sono tra di loro d’accordo nella definizione delle categorie; questa misura viene espressa in percentuale rispetto alle decisioni totali prese. Generalmente, la letteratura riporta valori di affidabilità compresi tra 66% e 95%, con una concentrazione sul 90%. Un coefficiente di affidabilità pari almeno all’85% si ritiene accettabile. Nonostante la sua importanza, un aumento di affidabilità può corrispondere ad una diminuzione della validità

Se il costrutto è abbastanza chiaro, si usa un dizionario standard per l’analisi e il raggruppamento dei temi comuni o se ne crea uno ex novo; altrimenti, si può usare un approccio di classificazione, in cui si cercano due o più categorie dentro cui analizzare gli schemi di linguaggio. Ad esempio, se il ricercatore vuole analizzare le differenze di attaccamento al brand tra consumatori leali e non leali, deve prima capire le due categorie, utilizzando un approccio di classificazione. Le due o più categorie possono anche essere del tutto sconosciute e, quindi, devono essere ricercate induttivamente; la scelta dell’approccio si basa proprio sulla eventuale possibilità di definire i costrutti a priori. Negli approcci top-down, utilizzati in situazioni di chiarezza dei costrutti, si analizzano le ricorrenze di parole tramite dizionari o altre regole; ve ne sono due tipi: approccio basato sul dizionario o basato su regole. Il primo tipo è di facile utilizzo, dal momento che il processo di validazione è lineare, senza particolari algoritmi da utilizzare; inoltre, tramite lo studio del linguaggio, applica teorie prese in prestito dalla psicologia e sociologia.

E’ un metodo adatto per lo studio della semantica e pragmatica; il ricercatore definisce e dopo calcola le misure che rappresentano il costrutto. Una delle misure più usate in questo metodo è il conteggio della frequenza di comparizione, che prescinde però dall’ordine della comparizione stessa, ritenuta non importante. I dizionari utilizzati possono essere standard o creati ad hoc; tra i dizionari standard che misurano il sentimento troviamo LIWC (Linguistic Inquiry Word Count), ANEW (Affective Words for English Words), GI (General Inquirer). VADER (Hutto e Gilbert 2014) è uno dei dizionari più nuovi che include anche emoticon e acronimi, regole di punteggiatura e sintassi. Altri dizionari possono misurare processi sociali e cognitivi, motivazione, piacere. Qualora non vi sia disponibile un dizionario standard per il costrutto che si vuole misurare o si preferisca usare maggiore precisione e specificità, si può creare un dizionario personalizzato. Questo nuovo dizionario può essere creato partendo da una teoria, per formare una lista di parole dalla precedente operazionalizzazione del costrutto o chiedendo agli esperti; oppure, può essere creato empiricamente, partendo dalla lettura e codifica di un sottocampione del testo, per creare categorie in maniera induttiva. In questo caso, campionare il 10- 20% del corpo del testo è sufficiente per creare il dizionario; basandosi sulla frequenza, il ricercatore raggruppa le parole in categorie comuni, successivamente inserisce dentro anche sinonimi, radici, tempi verbali, contrari. Dopo uno sviluppo preliminare, deve essere stimata la validità del dizionario, per analizzare se effettivamente ogni parola rappresenta il costrutto: tre ricercatori votano se includere o escludere una parola dalla categoria; in alternativa, si può fare ricorso a sondaggi con più partecipanti che esprimono opinioni sulle parole da includere. Al termine di ciò, si deve effettuare una validazione successiva, per verificare se l’operazionalizzazione del costrutto è andata a buon fine. Un primo metodo usa programmatori umani: si seleziona un sotto campione di circa 20 voci per concetto e si compara la codifica del computer con le valutazioni di un programmatore; dunque, si calcola l’alfa di Krippendorff, una misura statistica di quanto accordo vi sia riguardo la

codifica, per stimare la concordanza tra queste due codifiche e, quindi, l’affidabilità. Alpha= 1- Do / DE, dove Do è il disaccordo osservato, mentre De è quello atteso nel caso in cui la codifica fosse fatta casualmente. Il valore per ogni categoria e il valore medio delle categorie non devono essere inferiori al 70%. La seconda alternativa prevede un controllo delle categorie da parte di un esperto, che revisiona il dizionario per ridurre omissioni e falsi positivi (parole positive perché troppo generiche); la percentuale di categorie correttamente codificate deve essere almeno dell’80%, mentre quella di categorie non correttamente codificate non deve essere superiore al 10%.

Per quanto riguarda il secondo tipo, quello basato su regole, vengono invece definite delle modalità per rendere operativo il costrutto, tra cui parole chiave, punteggiatura, stile, leggibilità. Negli approcci bottom-up, al contrario degli approcci top-down che partono da dizionari o regole, vengono prima esaminati eventuali schemi nel testo, per poi rendere operativo il costrutto in base agli schemi trovati; sono utili nei casi in cui il costrutto non è ben chiaro o non vi sono schemi standard applicabili. Anche qui troviamo due tipologie: classificazione e ricerca del tema. Nel primo tipo, il ricercatore non riesce ad identificare parole o regole che formino un costrutto come nei precedenti approcci, quindi i testi vengono raggruppati in categorie predefinite basate su un dataset “di supporto” a quello definitivo. Ad esempio, Eliashberg, Hui e Zhang (2007) classificano i film in base ai ritorni sull’investimento e, usando la sceneggiatura, determinano i fattori più importanti per prevedere i risultati ottenuti, come genere e ambientazione; dopo aver trovato questi schemi, cercano di creare una teoria attorno. Dunque, si riduce la necessità di codificazione da parte del ricercatore; piuttosto che sulla frequenza, qui si ricerca l’appartenenza ad una categoria e le modalità con cui parole e schemi riportano alla stessa categoria. Si possono, dunque, scoprire schemi ed elementi latenti che sfuggirebbero ad un approccio top-down basato su criteri a priori. Possiamo trovare diversi

strumenti che ci aiutano nella classificazione. Il primo è il classificatore bayesiano (Naive Bayes), che non presenta algoritmi complessi, ma non è utilizzabile quando le parole sono molto correlate tra loro; ci consente di calcolare la probabilità che un testo appartenga ad una categoria tramite i suoi attributi e l’assunzione che le frequenze delle parole siano indipendenti tra loro. Un altro strumento è l’albero di classificazione, che esamina le combinazioni di parole, spezzando i testi con la parola o categoria che può avere maggiore variazione e, dopo, all’interno di ogni “foglia”, divide ancora i sottogruppi con altri parametri. Questo continua finché il modello raggiunge un tasso di errore accettabile scelto dal ricercatore in precedenza. Un ulteriore metodo è quello dei network neurali, utile per scopi predittivi, ma meno per fornire interpretazioni. Anche nella seconda tipologia di approcci bottom-up, la ricerca del tema, si evitano regole di analisi a priori e categorie predefinite; questo modello identifica se certe parole si trovano spesso insieme all’interno del documento, per formare un tema. Dai temi trovati si può dedurre l’argomento del testo e vedere il rapporto tra i temi e tra i temi e l’argomento totale. Si ha, dunque, un risparmio di tempo e costo. Uno dei metodi appartenenti a queste tipologie è chiamato LDA (Latent Dirichlet Allocation); esso afferma che un documento può presentare diversi argomenti e, date le parole nel documento, stima la probabilità dell’argomento del testo, dando come output k gruppi di parole collegate fra loro; LDA può essere implementato in pacchetti software o librerie come R e Python. È usato per studiare costrutti ambigui, tra cui le percezioni del consumatore. Ad esempio, Tirunillai e Tellis (2014) analizzano 350000 recensioni per raggruppare il contenuto nelle dimensioni che il consumatore prende in considerazione: per i cellulari trovano dimensioni come portabilità, instabilità, recettività del segnale, caratteristiche secondarie; grazie a LDA riescono, dunque, a derivare le dimensioni dei prodotti ed etichettare le parole raggruppate come positive o negative. Nei casi in cui il ricercatore voglia tenere in considerazione non la frequenza delle parole, ma elementi linguistici quali sintassi e pragmatica, si può usare il metodo di clustering delle k

medie, che identifica cluster di documenti minimizzando la distanza tra un documento e i suoi “vicini” nello stesso cluster; dopo aver ottenuto i cluster, il ricercatore li esaminerà e applicherà la teoria per spiegarne i temi. Identificare i temi effettivi è uno step critico, in cui non possono venire in aiuto software, che danno invece una mano nel raggruppamento di parole e documenti che costituiscono un tema; solo l’applicazione della teoria e delle conoscenze specifiche del ricercatore possono compiere questa fase importante.

Il prossimo passo è quello di analizzare ed interpretare i risultati. Ci sono tre modalità per incorporare i risultati di un’analisi del testo nella ricerca: comparazione tra gruppi, correlazione tra elementi testuali e previsione di variabili extra-testuali. La comparazione tra gruppi o lungo il tempo è molto utilizzata nelle analisi sociali e, in particolare, con approcci top- down e basati su dizionario. Un certo arrangiamento del testo viene usato per rappresentare il costrutto e, dopodiché, vengono statisticamente fatti paragoni per trovare differenze tra i testi: per rappresentare il costrutto possono essere scelte le fonti, come nel paragone tra cristiani ed atei di Ritter (2013), in cui si trova che i primi esprimano maggiori parole di emozioni positive; o può essere scelto il tipo di messaggio, come con Bazarova (2012), che paragona messaggi privati e pubblici di Facebook. Le comparazioni temporali rendono visibile come un fenomeno possa cambiare di frequenza in base a variabili esterne; qui ci si focalizza più sull’aspetto semantico che non sulla sintassi o pragmatica, a differenza del metodo precedente.

Dal momento che le frequenze delle parole (tf: term frequency) non hanno una distribuzione normale (Zipf 1932), i ricercatori trasformano i dati prima dell’analisi statistica. Una trasformazione Box-Cox (

con lambda= parametro di trasformazione compreso tra -3 e +3) può ridurre l’asimmetria nella distribuzione di una variabile. Oppure, si può operare una trasformazione delle matrici di frequenza in

una misura normalizzata quale la Term-Frequency Inverse Document Frequency (tf*idf). Dove TF(t) = (numero di volte in cui il termine t appare nel documento) / (numero totale di termini nel documento); IDF(t) = log_e(numero totale di documenti / numero di documenti col termine t). Si calcola per ogni parola chiave del testo, ottenendo una matrice che dà la frequenza pesata per una comparazione statistica; in questo modo, si dà una spinta anche alle parole rare che beneficiano di questa trasformazione.

La correlazione tra elementi testuali è, invece, un metodo utile per osservare la co-presenza e l’associazione o tra elementi del testo o tra elementi testuali e non testuali, come sondaggi e voti. Riportare le correlazioni è, di solito, un’analisi preliminare per poi passare alla comparazione. Un esempio è l’indice di offuscamento delineato da Markowitz e Hancock (2015), composto da più misure con forti correlazioni come astrazione (indicizzata positivamente), emozioni positive e leggibilità (indicizzate negativamente), trovando che queste combinazioni di elementi linguistici indicano un inganno da parte del mittente del messaggio, nei testi analizzati. Grazie alla co-presenza si possono, dunque, mappare le relazioni tra elementi testuali e creare network, per studiare la centralità e capire come i vari concetti si legano fra loro; queste correlazioni ci danno informazioni sulle relazioni semantiche personali o culturali. Inoltre, si può dare un’occhiata alle correlazioni tra elementi linguistici con non linguistici: Brockmeyer (2015) studia la correlazione tra l’uso di pronomi personali e pazienti affetti da depressione, trovando che essi usano un linguaggio più focalizzato su di sé quando ricordano memorie negative. Una corretta analisi della correlazione richiede dei test di robustezza, cioè analisi simili con metodi alternativi per verificarne la congruenza: ad esempio, si può 1-usare una sottosezione casuale dei dati e ripetere l’analisi; 2- esaminare eventuali effetti dovuti alla eterogeneità; 3- eseguire altre analisi di correlazione usando vari tipi di misure di similarità, quali distanza euclidea, distanza di Manhattan, distanza di Jaccard, correlazione di Pearson. I risultati dovrebbero essere gli stessi a

prescindere da quale sottosezione dei dati o misura si utilizza, anche se alcune misure di distanza possono adattarsi meglio in alcune situazioni. La previsione, infine, tiene conto di variabili extra-testuali: ad esempio, Genevsky e Knutson (2015), nell’esaminare le proposte di prestito, rendono operativo l’influenza con percentuali di parole positive e negative e, successivamente, incorporano queste due variabili come indipendenti in una regressione lineare per prevedere i tassi di prestito. Ancora, Anderson e Simester (2014) identificano un insieme di recensioni di 12000 utenti che non hanno effettivamente utilizzato il prodotto recensito, analizzando il rapporto tra la finta recensione e caratteristiche del testo, come numero di parole, lunghezza delle parole, punti esclamativi. I difetti della previsione risiedono nei bias di selezione, di variabili omesse e nei problemi di eterogeneità; i risultati ottenuti sul campione sono, quindi, non generalizzabili qualora questo differisca molto dalla popolazione. Analizzando dati empirici, quali tweet e recensioni, si va molto probabilmente incontro a bias di selezione, poiché il testo non è generato da un campione casuale: spesso, gli utenti decidono di esprimere opinioni proprio quando sono eccessivamente negative o positive; si deve tenere conto anche del momento in cui l’opinione viene espressa, che potrebbe trovarsi in prossimità di shock esterni (quali uno scandalo). Perciò, metodi quali la discontinuità di regressione (comparando le risposte prima e dopo la situazione) o la creazione di un gruppo di controllo possono aiutare nella riduzione delle distorsioni.

Ultimo step finale di una ricerca è quello di validare i risultati. Mentre è relativamente facile dare una validità agli esperimenti interni ad un laboratorio, lo è meno per quanto riguarda la validità esterna. Ci si può indirizzare verso vari tipi di validità utilizzando varie tecniche: validità del costrutto, validità concorrente, discriminante, convergente e predittiva. Per quanto riguarda la validità del costrutto, è necessario che i costrutti siano resi operativi in maniera concordante con il loro effettivo significato; durante la creazione di dizionari, esperti o programmatori

umani valutano la lista delle parole nei pre-test, proprio con questo proposito; o, in maniera più elaborata, pre-test del dizionario che usano campioni più grandi possono assicurare questo tipo di validità. La validità concorrente, l’abilità di fare inferenza su più studi, è maggiore quando i ricercatori utilizzano dizionari standard, già testati; le modalità bottom- up non danno le stesse garanzie. La validità convergente, che indica quanto le misure del costrutto sono correlate tra loro e convergono verso il costrutto, può essere stimata analizzando il costrutto usando diversi aspetti linguistici e comparando l’analisi linguistica con misure esterne al testo. Invece, la validità discriminante indica la correlazione presente tra le misure del costrutto sotto studio e altri costrutti diversi e deve, intuitivamente, essere bassa. Infine, la validità predittiva, la capacità delle misure di prevedere altri costrutti collegati, è un obiettivo centrale in queste ricerche; un modo per testarla è quello di utilizzare campioni non inseriti nella procedura per verificare se il modello ottenuto sia generalizzabile anche a questi dati.

2.3 Analisi del contenuto: natura qualitativa o

Nel documento ZMOT. Il momento zero della verità nel processo decisionale di acquisto: una ricerca empirica (pagine 54-64)