• Non ci sono risultati.

Lo scopo del presente studio è quello di comprendere se, nell’articolare il testo

di una recensione online, gli utenti manifestano particolari similitudini o tendenze nel lessico utilizzato. Inoltre, focus particolare d’attenzione è posto al concetto di

autenticità e alla relazione che lega questo attributo a quello più generale della qualità. L’autenticità, come già accennato nel capitolo precedente, è un concetto che negli

ultimi anni è emerso prepotentemente nel contesto del consumo. I consumatori, infatti, ricercano sempre più prodotti autentici e genuini, mentre rifiutano prodotti e situazioni che giudicano in qualche modo inautentiche. Questo trend si può riscontrare anche e soprattutto nel mercato cinematografico, in cui una porzione rilevante di spettatori preferisce avvicinarsi ad un tipologia di film o ad attori che ritiene maggiormente autentici.

Nel prossimo paragrafo saranno descritte le fasi di svolgimento della ricerca; in particolare, la metodologia di raccolta e preparazione dei dati, nonché le analisi quantitative e qualitative condotte sugli stessi. Infine, saranno esplicati i metodi statistici cui si è fatto ricorso al fine di supportare la tesi sostenuta.

46

3.2.1. Raccolta e preparazione dei dati

Per poter procedere all’analisi del contenuto è stato eseguito il download dal sito

Kaggle80 di un set di dati scaricati da IMDB81 contenente 50.000 recensioni riferite a diversi film. Il dataset si presenta composto da due colonne:

1. Nella prima colonna è contenuto il testo relativo ad ogni recensione;

2. Nella seconda colonna, invece, è indicato il sentiment, ossia la polarità (positiva o negativa) a cui viene associata l’opinione. In particolare, 25.000

recensioni appartengono al polo positivo e le restanti 25.000 a quello negativo. Al fine di realizzare questa distinzione, i commenti sono stati ricondotti ad un determinato sentiment sulla base del rating, ossia l’indice di gradimento che gli stessi riflettevano. Nel dettaglio, una recensione classificata come “negativa” ha un rating ≤ 4/10; mentre una recensione definita come “positiva” ha un punteggio ≥ 7/10. Non sono state incluse nel set di dati le recensioni definite “neutre”82.

Dopo che i dati sono stati rilevati, categorizzati e resi comprensibili, sul set sono state condotte due analisi: una qualitativa e una quantitativa.

Per la parte qualitativa è stato impiegato il software NVIVO, che tra le numerose funzionalità possiede anche quella del “Word Frequency”. Per l’utilizzo di questo

programma sono stati preliminarmente estratti 2 campioni casuali, entrambi composti

80Kaggle, consociata di Google LLC, è una comunità online di data scientist e professionisti dell'apprendimento automatico. Kaggle consente agli utenti di trovare e pubblicare set di dati, esplorare e costruire modelli in un ambiente di data science basato sul web, lavorare con altri data scientist e ingegneri del machine learning e partecipare a concorsi per risolvere le sfide della data science.

81 Internet Movie Database, comunemente indicato con l'acronimo IMDb, è un sito web di proprietà di Amazon.com che gestisce informazioni su film, attori, registi, personale di produzione, programmi televisivi, e anche videogiochi.

82 Per ulteriori approfondimenti si legga: Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011). Ossia, il lavoro che ha dato vita a questo dataset.

47

da 600 recensioni e rispettivamente riferiti uno alle recensioni negative e l’altro a quelle positive. La dimensione del campione è stata scelta sulla base di un livello di confidenza fissato al 95% e un intervallo di confidenza del 5%. Questo implica che c'è una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione. Successivamente i campioni sono stati inseriti nel software che ha restituito la lista di frequenze delle parole presenti nelle due popolazioni considerate, permettendo così di individuare le parole contraddistinte da un maggior uso. In questo modo è stato possibile identificare le technical words utilizzate per esprime dei giudizi di valutazione sulle componenti di un film. Il riconoscimento dei suddetti termini ha permesso, inoltre, di perfezionare il “Dizionario dell’autenticità” (il cui ruolo sarà descritto in seguito) e di osservare se, al variare della polarità considerata, gli aspetti su cui i recensori si concentrano nell’espressione di un giudizio possano variare.

48

Figura 4-Tabella di alcune WordFrequency presenti nelle recensioni positive e negative

Fonte- Elaborazione personale in Excel dei dati ottenuti dal software NVIVO.

L’esito dell’analisi mostra ad esempio che, nel caso di recensioni positive, è più

frequente il riferimento ad aspetti quali la sceneggiatura, la regia, la produzione e il cast di un determinato film; mentre, nei giudizi associati a polarità negativa è più frequente il richiamo alla recitazione, agli attori e alla trama.

Per la parte quantitativa, invece, si è proceduto a raccogliere i dati all’interno

di un dizionario, inteso come una lista di parole che gravitano attorno ad un costrutto o ad un concetto (Humphreys 2014). Nel caso proposto, sono stati usati quattro diversi vocabolari:

Word Sentiment Count

Neg 52 Pos 123 Neg 95 Pos 255 Neg 20 Pos 63 Neg 188 Pos 18 Neg 220 Pos 124 Neg 60 Pos 224 Neg 220 Pos 160 Cast Plot Screenplay Director production acting actors

49

1. I dizionari del software LIWC83. In automatico, infatti, il software classifica i termini tramite i vocabolari e calcola la percentuale di parole, dei testi analizzati, che fanno parte del dizionario considerato. In origine erano 2 i dizionari utilizzati sul software: positive emotion e negative emotion; oggi, invece, sono più di 80 e misurano vari aspetti (la lista delle categorie è consultabile in Appendice I);

2. L’Authenticity Dictionary84, utilizzato per misurare quanto e come si parla di autenticità all’interno delle recensioni. Il presente dizionario si compone di nove categorie (consultabili all’appendice II), alcune delle quali

opportunamente modificate, soprattutto per quanto riguarda i costrutti relativi alla misurazione degli aspetti specifici legati al mondo cinematografico. 3. Dizionario della brand personality impiegato per rilevare il modo con cui un

contenuto cinematografico si porge al pubblico. In altre parole, il risultato degli sforzi di comunicazione della casa di produzione cinematografica diretti a conseguire un chiaro e distintivo posizionamento dell’offerta nella mente dei

consumatori;

4. Il dizionario della concretezza di linguaggio per indagare se le recensioni siano scritte in maniera più o meno astratta.

Conclusa questa prima parte inerente alla Content Analysis, si passa alla seconda in cui si esplicitano tutti i procedimenti statistici, come la correlazione e il confronto tra medie di campioni indipendenti, che hanno dato vita alle interpretazioni dei dati.

83Il Linguistic Inquiry Word Count (LIWC) prevede dei dizionari standard psicometricamente testati per concetti come le emozioni positive e negative, il linguaggio cognitivo e i tempi verbali (Pennebaker, Francis e Booth 2007).

50

Per poter svolgere l’ultima analisi quantitativa si è proceduto ad aggregare

tutti i risultati ottenuti in un unico file Excel e così facendo è stato generato un nuovo dataset che è stato sottoposto ad analisi mediante l’ausilio del software SPSS

(acronimo di Statistical Package for the Social Sciences), ideale per le analisi statistiche e nato per lo studio nel campo delle scienze sociali.

3.2.2. L’analisi statistica

L’indagine statistica è lo strumento statistico mediante il quale si

acquisiscono informazioni su uno o più fenomeni relativi ad una popolazione. L’obiettivo dell’indagine è quello di produrre delle descrizioni sintetiche e riassuntive

del fenomeno oggetto di osservazione.

Le indagini possono essere di natura esplorativa, descrittiva o causale. Le prime sono volte a chiarire la natura di un problema, ad acquisire maggiore comprensione di un fenomeno o a fornire indicazioni per ricerche future. In questa situazione, il dato di ricerca è trattato in modo qualitativo. Queste indagini sono spesso svolte su poche unità campionarie e sono finalizzate alla raccolta di informazioni su caratteri psicologici, con l’obiettivo di osservare il comportamento del consumatore.

Le indagini descrittive, invece, hanno la finalità di rappresentare una situazione, un fenomeno o un comportamento in uno specifico contesto spazio- temporale. L’informazione è trattata in modo quantitativo e il disegno di ricerca si basa su un campione rappresentativo della popolazione di elevata numerosità.

Infine, le indagini di natura causale hanno il fine di definire la relazione causa-effetto tra più variabili, la loro natura e le caratteristiche. Anche in questo caso l’informazione

51

è trattata in modo quantitativo, con l’obiettivo di ricercare le variabili causali che

spiegano il comportamento di altre variabili.

Nella presente ricerca, attraverso l’utilizzo del software SPSS, sono state svolte

tre diverse analisi.

In primo luogo, è stata svolta un’analisi statistica di natura descrittiva, dunque,

per ogni variabile sono state calcolate le distribuzioni di frequenza e gli indicatori sintetici di posizione (media85, moda86,mediana87 e deviazione standard88). L’obiettivo del suddetto studio è quello di indagare i temi più ricorrenti all’interno delle 50.000

recensioni e la struttura lessicale dei testi considerati, indipendentemente dal sentimento che gli stessi riflettono.

Successivamente, si è scelto di indagare la relazione esistente tra le variabili considerate. Al fine di esprimere in maniera quantitativa l’intensità del legame tra i costrutti (confrontati a coppie), è stato necessario calcolare un indice di correlazione. I risultati ottenuti hanno consentito di comprendere meglio le variazioni simultanee che interessano le diverse grandezze e di approfondire l’interpretazione degli esiti a cui la ricerca è giunta. Sappiamo, infatti, che una relazione positiva indica che le recensioni che ottengono valori elevati in una variabile tendono ed ottenere valori elevati sulla seconda variabile. Ed è vero anche il contrario, cioè le recensioni che hanno bassi valori su una variabile tendono ed avere bassi valori sulla seconda variabile. Proprio per questa ragione, l’analisi di correlazione ci ha permesso di

85 Il valore intermedio compreso tra l'estremo superiore e quello inferiore nell'insieme di più valori considerati. 86 Il valore che si presenta in maniera più frequente in una distribuzione.

87 Valore che occupa la posizione centrale e divide in due parti uguali la distribuzione.

88 Esprime la forma di una distribuzione ed è rappresentato dalla media del quadrato della differenza tra il valore assunto dalla variabile e la media della distribuzione.

52

indagare in maniera più accurata il legame che sussiste tra i due costrutti che costituiscono il focus di questa trattazione, ossia l’autenticità e la qualità. Oltre che

essersi rivelata utile anche per comprendere il modo in cui si esprimono i recensori quando parlano di un tema piuttosto che dell’altro.

Infine, è stato svolto il confronto tra medie. In questo caso abbiamo confrontato il valore medio di due campioni in cui le osservazioni in un campione sono indipendenti dalle osservazioni in un secondo campione. La suddetta analisi ha avuto lo scopo di indagare se, al variare del sentiment considerato, i recensori utilizzano linguaggi e/o stili di scrittura differenti.

Gli esiti ottenuti dalle analisi pocanzi citate saranno illustrati in dettaglio nel capitolo successivo.

53

4. RISULTATI

In questo capitolo sono presentati i risultati della ricerca condotta e le interpretazioni degli esiti statistici calcolati grazie al software SPSS. La mole di lavoro è stata imponente, visto il grande numero di recensioni considerato, ma per motivi di spazio ed anche di rilevanza rispetto allo studio, è presentata solo una selezione di analisi, ossia quelle i cui risultati sono stati ritenuti più interessanti. Inoltre, in alcuni casi, non saranno riportati gli output di SPSS poiché troppo ingombranti e dispersivi; vengono però sostituiti da tabelle Excel appositamente create in modo da rendere più intuitiva la comprensione dei risultati.

Gli argomenti affrontati nel presente capitolo si suddividono in due parti. Innanzitutto, sarà presentato un resoconto dei dati osservati, operato mediante l’utilizzo della statistica descrittiva. In particolare, attraverso l’analisi delle frequenze

è stato possibile individuare delle divergenze nei testi considerati riconducibili al sentiment espresso. In seguito, per poter comprendere se tali differenze sono da reputarsi significative, si è proceduto al confronto tra medie attraverso la funzione T- test. Infine, sono illustrati gli esiti ottenuti dall’analisi di correlazione con la quale è

stato possibile indagare il rapporto che lega i costrutti di riferimento.

Nella seconda parte, invece, sono esplicati i risultati riferiti alla relazione che intercorre tra i due attributi che rappresentano il fulcro del suddetto studio, ossia “qualità” e “autenticità”. In particolare, il linguaggio e la sintassi che contraddistingue il lessico

degli individui quando, nello scrivere una recensione, si riferiscono ai sopracitati concetti.

54