• Non ci sono risultati.

Il modello CUB per comprendere i dati ordinali: il caso delle attrazioni turistiche a Venezia

N/A
N/A
Protected

Academic year: 2021

Condividi "Il modello CUB per comprendere i dati ordinali: il caso delle attrazioni turistiche a Venezia"

Copied!
117
0
0

Testo completo

(1)

Corso di Laurea magistrale

in Marketing e Comunicazione d’Impresa

Tesi di Laurea

Il modello CUB per comprendere i dati ordinali:

il caso delle attrazioni turistiche a Venezia

Relatrice

Ch.ma Prof.ssa Isabella Procidano

Laureand

a

Giulia Zagagnin

Matricola 871847

Anno Accademico

(2)
(3)

Indice

Introduzione 1

1 Il turismo nell’era digitale 5

1.1 L’influenza del digitale nel turismo . . . 5

1.2 Il ruolo dell’eWOM . . . 10

1.3 Le piattaforme online . . . 12

1.4 Caratteristiche dei recensori . . . 16

1.5 Gli attuali studi nell’ambito turistico . . . 18

2 Il modello CUB 21 2.1 Il background dei modelli per dati ordinali . . . 22

2.2 Il modello MUB . . . 24

2.3 Modellare il liking . . . 29

2.4 Modellare l’incertezza . . . 30

2.5 Le estensioni del modello . . . 32

2.5.1 L’introduzione delle covariate . . . 32

2.5.2 Shelter effect . . . 34 2.5.3 Overdispersion . . . 37 2.6 I metodi inferenziali . . . 38 3 Caso studio 41 3.1 I dati grezzi . . . 41 3.2 Le variabili considerate . . . 43

3.3 Caratteristiche dei vari punti di interesse . . . 44

(4)

3.3.2 Luoghi secondari . . . 48

4 Applicazione del modello CUB al caso studio 53 4.1 Il modello CUB senza covariate . . . 53

4.1.1 Il circuito principale . . . 54

4.1.2 I luoghi secondari . . . 57

4.2 Il modello CUB con covariate . . . 60

4.2.1 Il circuito principale . . . 60

4.2.2 I luoghi secondari . . . 74

4.3 Risultati . . . 84

Conclusioni 86

Appendice 89

Lista delle tabelle 98

Lista delle figure 102

(5)

Introduzione

L’influenza del mondo digitale sul settore turistico è oggetto di studi in ambiti eterogenei. Quello che verrà analizzato nei capitoli che seguono riguarda l’esternazione delle preferenze dei turisti.

L’affiancamento dell’eWOM, o passaparola elettronico, al passaparola tra-dizionale ha segnato un nuovo modo, per i turisti e futuri turisti, di raccogliere informazioni ed esprimere opinioni. D’altra parte, questa nuova modalità di comunicazione ha cambiato il modo di percepire le preferenze anche per chi si occupa delle destinazioni turistiche.

Il tentativo di comprendere questo cambiamento passa attraverso un’ap-plicazione crescente di modelli statistici ai dati relativi alle preferenze dei turisti, raccolti grazie a piattaforme online che fungono da contenitori di opi-nioni. Lì i turisti sono identificati come utenti con caratteristiche registrate per assicurare la credibilità.

I dati ordinali ricavati da queste piattaforme permettono di applicare una rating analysis, cioè un’analisi su giudizi pubblicati sotto forma di valutazioni. L’esternazione di questi giudizi ha spesso come riferimento la scala Likert, espressa su più livelli (ad esempio da "Pessimo" a "Eccellente").

Tra i modelli più recenti per l’analisi di questa tipologia di dati c’è il modello CUB, un modello mistura che ha lo scopo di misurare due aspetti presenti nei dati: da una parte il feeling, o liking, cioè la preferenza effettiva del rispondente, dall’altra l’incertezza, o uncertainty, cioè la non sicurezza del rispondente nella risposta derivante da vari fattori, tra cui le limitate informazioni a disposizione del rispondente o la sua stanchezza. La forma base del modello presenta un solo parametro per la descrizione di ogni com-ponente. Esistono, però, delle estensioni che permettono, tra le altre cose, di

(6)

prendere in considerazione alcune covariate per arrivare a descrivere meglio i dati.

Partendo da questi presupposti, il modello CUB è stato applicato ai dati relativi ad alcune delle più note attrazioni di Venezia. I dati sono stati ricava-ti dalla piattaforma TripAdvisor, sito di riferimento per le recensioni online. Grazie alla presenza delle caratteristiche dei recensori, è stato possibile va-lutare cosa influisca sulla valutazione delle attrazione e se le componenti di liking e incertezza vengano influenzate in modo diverso.

La tesi è organizzata nel modo seguente:

• Il Capitolo 1 analizza l’evoluzione del turismo tenendo in considerazio-ne lo sviluppo parallelo della tecnologia e la nascita delle piattaforme online dedicate al turismo. Particolare attenzione è data al passapa-rola elettronico e al suo ruolo nel processo di pianificazione e acquisto del viaggio. Vengono, in seguito, descritte le tipologie di studi già pubblicati che si occupano di turismo e piattaforme digitali.

• Nel Capitolo 2 è descritto il funzionamento del modello CUB, partendo dal background che ha portato alla sua nascita. Sono, inoltre, ana-lizzate nel dettaglio le due componenti che caratterizzano il modello, quella relativa al liking e quella relativa all’incertezza. Le estensioni del modello presentate sono tre e riguardano l’introduzione delle covariate, l’effetto shelter, e l’overdispersion.

• Nel Capitolo 3 è introdotto il caso studio: dopo un’introduzione re-lativa alla provenienza dei dati, sono elencate le variabili presenti nel dataset di partenza e il loro significato. I luoghi d’interesse scelti per l’analisi sono suddivisi in due gruppi, in base alla posizione e alla nu-merosità dei campioni studiati. Ne è presentata una descrizione e il loro posizionamento su una mappa.

• Nel Capitolo 4 il modello CUB è applicato ai dati descritti in prece-denza. In un primo momento l’applicazione è quella del modello base:

(7)

per tutti i luoghi d’interesse sono individuati il livello di liking e quello di incertezza, ponendoli poi a confronto. In seguito sono introdotte le covariate: nei casi in cui sono risultate significative, ne è stata descritta l’influenza sulle due componenti del modello.

Il progetto di studio si conclude descrivendo i risultati dell’analisi, sot-tolineandone gli aspetti più significativi. Viene descritta l’utilità di questo modello e ne sono presentati i limiti.

(8)
(9)

Capitolo 1

Il turismo nell’era digitale

L’evoluzione che ha vissuto il settore turistico in seguito alla crescita del mondo digitale è punto focale di questo capitolo. Partendo dall’evoluzione delle fasi del processo turistico, si analizzano le conseguenze sugli individui della nascita delle piattaforme digitali e del passaparola elettronico.

1.1 L’influenza del digitale nel turismo

Valutando il turismo come bene di consumo, si può affermare che abbia l’aspetto di un settore florido e in crescita. Un’analisi presentata nel 2019 dall’azienda Statista (figura 1.1) mette in evidenza la crescita degli arrivi turistici nel contesto internazionale.1

Parallelamente alla crescita dei numeri del turismo, anche la tecnologia Internet ha iniziato a svilupparsi ed influire, giocando un ruolo fondamentale. Sciarelli et al. (2018), in un’analisi del turismo nell’era digitale, ipotizzano per il futuro un’espansione esponenziale del valore del turismo che attraversa le piattaforme online: già nel 2015, questo valore si aggirava intorno ai 500 miliardi di dollari, con un incremento dell’11% all’anno. Nel 2017, la preno-tazione di un viaggio ogni due avveniva tramite un portale online (Sciarelli et al., 2018).

1Per arrivi si fa riferimento al numero di clienti ospitati da esercizi ricettivi in un

determinato periodo. Diverse sono le presenze turistiche, che considerano il numero di notti trascorse dai clienti negli esercizi ricettivi (Istat, 2010).

(10)

Figura 1.1: Numero degli arrivi turistici internazionali espresso in milioni nel periodo compreso tra il 1996 e il 2018, Statista (2019)

Esemplare è il caso di Airbnb, piattaforma online che mette in contatto affittuari (soprattutto privati) e individui che cercano una breve sistemazio-ne. Nel mese di maggio 2019, la lista di alloggi (intesi come stanze o interi appartamenti) disponibili nella città di Venezia raggiungeva il numero di 8469. Dato interessante, in quanto corrisponde a tre sistemazioni ogni cento residenti nella città, e sei sistemazioni ogni cento abitazioni (Inside Airbnb, 2019).

Come è possibile osservare dalla figura 1.2, rispetto al 2018, l’aumento degli alloggi nel 2019 è di 1100 unità, pari a una crescita del 14%. Un processo singolare, questo, che trova le sue radici in un contesto dove tecnologia e social network sono ormai protagonisti.

Per generalizzare le affermazioni relative alle osservazioni del fenomeno Airbnb, è necessario focalizzarsi sul fattore chiave: la progressiva influenza del Web nel processo decisionale turistico.

Sciarelli et al. (2018) elaborano un’analisi relativa all’evoluzione della catena turistica negli ultimi vent’anni (figura 1.3), che si può sintetizzare con il concetto di "processo di disintermediazione".

(11)

sche-Figura 1.2: Numero degli alloggi presenti su Airbnb nel periodo compreso tra il 2015 e il 2019, Inside Airbnb (2019)

ma classico, nel quale i servizi della destinazione interagiscono con i canali distributivi, costituiti prevalentemente da agenzie di viaggio (l’anno di inizio di questa fase fa infatti riferimento alle prime apparizioni di questo tipo di agenzie). In questa fase il passaparola (WOM, dall’inglese Word of Mouth) svolge un ruolo marginale, anche se è sicuramente presente.

La struttura della fase intermedia, identificata nell’arco di tempo com-preso tra il 2001 e il 2006, è più complessa rispetto alla fase precedente, in quanto inizia ad esistere un legame forte tra distribuzione e comunicazione. Qui compare una nuova tipologia di turisti: quelli che autonomamente cer-cano informazioni senza passare dalla tradizionale agenzia. Il termine per descrivere questa tipologia di turisti è DIY, dall’inglese Do It Yourself.

Internet inizia a permeare il mondo del turismo sotto gli aspetti di pro-mozione e distribuzione, e a condizionare i due canali distinti e paralleli che vengono a crearsi sulla base della tipologia di turisti: i turisti DIY e quelli che si rivolgono ad agenzia.

Nella fase attuale, il cui inizio è individuato nel 2007, sono molti gli aspetti interessanti da prendere in considerazione:

• si raggiunge una sovrapposizione tra comunicazione e distribuzione: esemplare il caso di TripAdvisor, nato come canale comunicativo e diventato in seguito anche canale distributivo;

(12)

• l’offerta è grande e differenziata, e questo è dovuto a diversi fattori: il miglioramento dei mezzi di trasporto, le strategie low-cost perseguite da diverse compagnie, la diminuzione dei prezzi di destinazioni molto costose nel passato, la possibilità di raggiungere diverse tipologie di target;

• il numero di informazioni disponibili è estremamente elevato: questo comporta un bisogno, da parte dei potenziali turisti, di schemi che possano ordinare queste informazioni e renderle facili da interpretare. Ad oggi, i turisti possono trovare nelle piattaforme online non solo in-formazioni, ma anche ispirazioni e suggerimenti non presi in considerazione preventivamente.

World Trade Organization (2016) sottolinea come le piattaforme online abbiano permesso l’esistenza di un’economia detta "di condivisione". Le piattaforme online che stimolano la condivisione permettono un’ampliamento dell’offerta: basti pensare alla vendita che non necessita più di intermediari tradizionali, ma per cui è sufficiente un diretto contatto tra privati.

Le piattaforme online offrono una possibilità di scambio di opinioni, at-traverso sistemi di rating e commenti. Grazie a questa caratteristica, il ruolo dell’eWOM, o passaparola elettronico, diventa centrale.

Con eWOM (electronic word-of-mouth) si fa riferimento alle opinioni e raccomandazioni di individui mediate da Internet (Xu, 2014). Risulta un aiuto, questo, nel processo decisionale che deve affrontare un consumatore posto di fronte a innumerevoli opzioni di scelta e informazioni.

(13)
(14)

1.2 Il ruolo dell’eWOM

L’immagine mentale collegata a un’attrazione turistica, descritta come ri-sultato della somma e dell’interazione di componenti, assume fondamentale importanza per i potenziali visitatori. Le componenti di questa immagine mentale possono essere suddivise tra convinzioni, cioè le conoscenze delle caratteristiche della destinazione, ed emozioni, cioè le preferenze personali (Baloglu & McCleary, 1999; Shafiee et al., 2016).

Nel loro studio, Wang e Hsu (2010), analizzano e evidenziano come sia possibile influire su queste componenti, soprattutto dal punto di vista del livello di soddisfazione del turista: ad esempio, l’influenza può essere gene-rata da un aumento della cura nei confronti del turista o tramite l’aumento dell’attrattiva emozionale della destinazione. Maggiore è il livello di soddi-sfazione, maggiore sarà il passaparola positivo, che andrà ad attirare nuovi turisti.

Il controllo dell’immagine mentale collegato a una destinazione turistica è in parte legato ad un controllo diretto di chi si occupa della destinazione. Un esempio è quello dell’ottimizzazione dei motori di ricerca.

Di questo si sono occupati Xiang e Gretzel (2010), che osservano come tut-ti i social media siano coinvoltut-ti nei risultatut-ti presentatut-ti ai viaggiatori dai moto-ri di moto-ricerca. Alcuni tra questi sono diventati più popolamoto-ri e considerati come primaria fonte di informazione tra i social media perché sono specializzati sul tema dei viaggi: si fa riferimento a piattaforme come TripAdvisor.

Chi si occupa di marketing del turismo non può ignorare il ruolo delle informazioni a cui i viaggiatori vengono indirizzati, il rischio che si corre è quello di diventare irrilevanti nel mercato.

L’ottimizzazione dei motori di ricerca è necessaria per assicurare il posi-zionamento delle informazioni provenienti da un sito web relativo ad un’at-trazione turistica. Le informazioni possono essere veicolate, da chi si occupa dell’attrazione, anche nei social media: le soluzioni per un buon posiziona-mento descritte da Xiang e Gretzel (2010) riguardano la tipologia di contenuti e l’integrazione con il sito web, che oltre ad essere possibile è anche facilmente attuabile.

(15)

Questo tipo di controllo di contenuti relativi a determinate attrazioni rientra nell’universo di quelli che Tuten e Solomon (2014) definiscono paid media e owned media: canali controllati direttamente da chi si occupa di promuovere le attrazioni. Diversi sono gli earned media, cioè i canali che contengono messaggi nati senza costi diretti per l’attrazione e che non sono controllabili. Tra questi si trovano il passaparola o WOM (word-of-mouth) e il passaparola elettronico o eWOM (electronic-word-of-mouth).

Westbrook (1987) descrive quest’ultimo come qualsiasi tipo di comunica-zione informale che avviene tramite internet. Con informale si intende non manipolata e non ufficiale, nata autonomamente dagli individui. Molti sono i modi in cui l’eWOM si manifesta, di seguito ne vengono analizzati alcuni.

Se è vero che le informazioni ricevute da amici e parenti sono ritenute le più affidabili, è vero anche che esse sono seguite dalle informazioni trovate nelle piattaforme online, fornite da altri viaggiatori. Queste risultano, infatti, più meritevoli di fiducia rispetto ai canali turistici ufficiali. Le recensioni presenti in piattaforme online come TripAdvisor riducono le incertezze dei futuri viaggiatori e rendono più semplice il processo decisionale (Fotis et al, 2012; Gretzel, et al., 2008).

In un’analisi di Lee e Youn (2009) è messo in evidenza il fatto che la perce-zione delle recensioni negative sia diversa da quelle positive: quelle negative sono viste come più credibili, in quanto più oggettive nel diagnosticare par-ticolari attributi negativi. A recensioni positive è possibile che sia associato, invece, un senso di ambiguità.

Uno studio di Abubakar (2016) analizza la letteratura relativa all’eWOM e, con nuove analisi, trae conclusioni relative alle recensioni positive, che risultano associate a un aumento della volontà di visitare una determina-ta destinazione. L’influenza riguarda anche l’immagine mendetermina-tale legadetermina-ta ad un’attrazione turistica e la scelta della destinazione.

Il processo decisionale inizia prima del viaggio: in questo momento i so-cial media sono usati come fonte di idee per decidere la composizione del viaggio, dalla meta alle diverse attrazioni. La ricerca di Fotis, Buhalis e Ros-sides (2012) mette in evidenza come i social media portino ad una influenza significativa. Tra le altre cose, il 65% del campione analizzato ha riportato

(16)

di aver cambiato la propria idea dopo aver consultato i social media: il 50% con cambiamenti contenuti, il 15% con cambiamenti rilevanti.

A differenza dei social media, la cui capacità di influenza è sostenuta nella letteratura, per quanto riguarda i blog le idee sono contrastanti. Essi sono valutati come significativamente meno affidabili del passaparola tradizionale (WOM), ma, se si tratta di blog i cui contenuti sono pubblicati con frequenza, la credibilità percepita aumenta (Mack et al, 2008; Del Chiappa, 2011).

Il turismo trova nel passaparola elettronico un punto di riferimento in quanto esso è parte dell’industria dei servizi, che per definizione offre aspetti non tangibili e definibili come esperienze (De Matos & Rossi, 2008).

Le tipologie di coinvolgimento degli utenti, che portano alla produzione di questo tipo di messaggi, sono state studiate da Westbrook (1987) e descritte nel modo che segue:

• coinvolgimento rispetto all’attrazione stessa, che porta gli utenti a provare gratificazione nel parlarne e nel consigliarla ad altri;

• coinvolgimento verso sé stessi o egocentrismo, per il quale gli utenti cercano di guadagnare attenzione e riconoscenza da parte degli altri utenti;

• coinvolgimento nei confronti degli altri, che si traduce in una volontà di essere d’aiuto agli altri attraverso la condivisione di una propria esperienza.

1.3 Le piattaforme online

Le piattaforme digitali offerte dai social network sono un supporto per l’e-spressione personale. Si tratta di un modo nuovo di presentare la propria storia, con la creazione e la condivisione di contenuti: il Web diventa un contenitore di autobiografie (Munar, 2010).

L’autenticità sta al centro, le recensioni diventano prospettive personali, esternazione di emozioni e sensazioni legate a realtà precise. Per questo,

(17)

l’attività di recensione di luoghi è direttamente collegata all’individuo che la recensisce.

Non è raro che la condivisione avvenga parlando in prima persona e in-cludendo nella narrazione nomi di familiari o amici: il parere personale è così legittimato dall’esperienza e dalle emozioni descritte, che appaiono reali perché raccontate con elementi propri dell’esperienza del singolo individuo.

Figura 1.4: Fonte di maggiore influenza durante la ricerca di una destinazione di viaggio, Tripbarometer (2018)

Il linguaggio non è commerciale, né tantomeno autoritario, il valore ag-giunto è dato dall’esposizione delle prospettive e delle emozioni individuali. Gli utenti che condividono le loro recensioni hanno spesso un profilo associa-to, nel quale è possibile, ad esempio, vedere quali siano i loro interessi e le città già visitate. Un buon modo, questo, per dare un contesto a parole che altrimenti potrebbero essere percepite come astratte.

Il numero di piattaforme online per la condivisione di opinioni su determi-nate destinazioni turistiche è vasto, il loro contenuto è complesso. Si spazia da siti basati sul concetto di comunità, come TripAdvisor e Lonelyplanet, ad agenzie online che si occupano di transazioni, come Expedia e Booking.com (Gligorijevic, 2016).

(18)

Secondo il report globale di TripAdvisor, Tripbarometer (2018), condotto da Ipsos, azienda di ricerca globale, l’86% dei viaggiatori prenota solamente dopo aver letto alcune recensioni online, e l’89% cerca informazioni sui luoghi da visitare e sui ristoranti in cui mangiare prima di iniziare il viaggio.

Per quanto riguarda l’influenza percepita dagli utenti nella scelta della destinazione, la figura 1.4 mostra come ai primi posti ci siano le piattaforme online di scambio di informazioni tra viaggiatori.

Figura 1.5: Fonte di maggiore influenza durante la ricerca di attrazioni da visitare, Tripbarometer (2018)

Per quanto riguarda l’influenza percepita dagli utenti nella decisione di quali attrazioni visitare, la figura 1.5 mostra come TripAdvisor sia al primo posto, seguito dalle informazioni che possono essere trovate sui siti web propri delle attrazioni e dalle altre recensioni che possono essere trovate online.

TripAdvisor, infatti, è sicuramente la piattaforma online più nota nel-l’ambito turistico. Nella pagina di presentazione del sito si legge che si tratta della "piattaforma di viaggi più grande del mondo, che aiuta 490 milioni di viaggiatori ogni mese a rendere ogni viaggio il loro miglior viaggio"

(19)

(TripAd-visor, 2019). Sono oltre 759 milioni le recensioni consultabili, disponibili in 28 lingue.

TripAdvisor nasce nel 2000 grazie allo statunitense Stephen Kaufer, con l’obiettivo di creare un unico posto in cui raggruppare tutte le opinioni dei turisti riguardo ai luoghi visitati.

In un’intervista di Cosimi (2015), Kaufer afferma che l’idea nasce a se-guito dell’organizzazione di un viaggio in Messico, per il quale aveva raccolto informazioni in un’agenzia di viaggi. Tutto era troppo perfetto per corrispon-dere alla realtà, ma non esisteva nessuna risorsa alternativa da consultare. Per questo, l’obiettivo posto dall’inizio è stato quello di creare una realtà dove i luoghi fossero descritti dalle persone che li avevano visitati, e fosse così possibile capire cosa aspettarsi davvero.

L’idea si è rivelata vincente, e la piattaforma è diventata anche più di quello per cui è stata progettata. Ad oggi, ha assunto le vesti di un vero e proprio social network in cui gli utenti sono i viaggiatori e i potenziali viaggiatori. In esso avviene uno scambio di informazioni, foto, consigli.

Il successo del sito ha portato ad evoluzioni dello stesso, come la nascita della sezione "TripAdvisor for Business", che è destinata ai proprietari delle attività recensite.

Esiste anche un forum, che aumenta la percezione della piattaforma come community e permette agli utenti di scambiarsi informazioni e chiarire dubbi su attrazioni precise o idee di viaggio più generali.

Da uno studio di comScore (2017) sono emersi dati utili a comprendere l’importanza di TripAdvisor nell’ambiente turistico.

• il 61% degli utenti che prenotano voli visitano TripAdvisor prima del-l’acquisto;

• il 74% degli utenti che effettuano una prenotazione in ambito alber-ghiero consultano prima TripAdvisor;

• il 67% degli utenti che prenotano una vacanza tramite OTA (Online Travel Agencies) visitano TripAdvisor prima di completare la prenota-zione.

(20)

Altra osservazione dello studio è che il processo di scelta della destina-zione e acquisto del viaggio ha una durata maggiore del 29% rispetto ai non utilizzatori della piattaforma. Un esempio è che chi utilizza abitualmente TripAdvisor consulta in media 182 pagine di siti online rispetto alle 56 dei non utilizzatori della piattaforma, con una differenza del 225%. Il tempo im-piegato dagli utilizzatori di TripAdvisor per decidere e acquistare è in media di 164 minuti, rispetto ai 46 dei non utilizzatori, con una differenza del 257%. Si osserva, inoltre, che la maggior parte delle prime ricerche per la pia-nificazione di un viaggio sono generiche e non considerano una destinazione precisa, soprattutto per quanto riguarda i più giovani, ma metà degli utenti vengono ispirati da una destinazione grazie a TripAdvisor (Tripbarometer, 2018).

1.4 Caratteristiche dei recensori

La credibilità svolge un ruolo fondamentale in qualsiasi ambito che coinvol-ga i consumatori. Se si parla di opinioni espresse da sconosciuti, è normale l’esigenza di dati oggettivi e facilmente interpretabili che assicurino la possi-bilità di fidarsi. Nel contesto del mondo virtuale non è possibile affidarsi ad indicatori soggettivi, quali l’espressione facciale della persona con cui ci inter-facciamo, ed è per questa ragione che le piattaforme online che si occupano di gestire recensioni generalmente dispongono di chiavi di lettura che supe-rano questo limite, come ad esempio le indicazioni demografiche (O’Connor, 2012). Oltre a queste, un ruolo importante è da attribuire ad altri indici pre-cisi. TripAdvisor raccoglie, tra altre le informazioni, il livello del recensore, la data di iscrizione, il numero di recensioni pubblicate.

Lee et al. (2011) analizzano le principali caratteristiche distintive che possono influenzare la fiducia che i viaggiatori rivolgono alle recensioni. Par-ticolare attenzione è rivolta all’accuratezza con cui vengono redatte le re-censioni: è un indicatore della qualità, ed è influenzata dal tempo trascorso tra l’esperienza e la descrizione della stessa. Nell’elaborato i recensori sono categorizzati come più o meno esperti in base al numero di recensioni da loro pubblicate. Una novità, questa, in quanto negli studi precedenti questa

(21)

ca-tegorizzazione si basava sull’esperienza in senso generale, e dunque su tutte le attività svolte nella piattaforma di recensioni.

Il riconoscimento di una recensione di valore si traduce in un’influenza nelle decisioni dei consumatori. Amaral et al. (2014) hanno studiato cosa, della piattaforma TripAdvisor, sia significativo nella raccolta di informazioni precedente ai viaggi. In particolare, sono stati ipotizzati due assunti:

• H1: Il coinvolgimento dei turisti nei confronti della piattaforma TripAdvisor dipende dal loro numero di recensioni pubblicate;

• H2: Il coinvolgimento dei turisti nei confronti della piattaforma TripAdvisor dipende dal loro livello di esperienza.

Considerando due regioni simili, ma con un turismo diverso, Azzorre e Ha-waii, sono stati analizzati i dati delle recensioni dei ristoranti più importanti nel periodo compreso tra il 23 e il 30 Aprile 2013. Le variabili impiegate nel-l’analisi sono state "Livello di Esperienza", "Numero di Recensioni", "Valu-tazioni Utili". Attraverso un’analisi delle corrispondenze multiple, sono state individuate due variabili, utilizzate poi per generare una clusterizzazione dei clienti.

Tre sono i gruppi creati, descritti nel modo seguente:

• I componenti del primo cluster, a numerosità n = 159, sono stati de-nominati Newbie, in quanto il gruppo contiene a prevalenza individui con un’esperienza minima;

• I componenti del secondo cluster, a numerosità n = 337, sono stati denominati Specialist, in quanto gli individui al suo interno non sono nuovi alla piattaforma e molte delle loro valutazioni sono considerate valutazioni utili;

• I componenti del terzo cluster, a numerosità n = 317, sono stati de-nominati Beginner: il loro livello di coinvolgimento nella piattaforma non è alto, ma il loro numero di recensioni è superiore a quello degli individui del primo cluster.

(22)

Figura 1.6: Cluster relativi agli individui in analisi, Amaral et al. (2014)

La figura (1.6) è utile per osservare come i cluster siano ben separati. Questo sostiene la prima ipotesi: il coinvolgimento dipende dal numero di recensioni pubblicate. Anche la seconda ipotesi risulta supportata: il coin-volgimento dell’utente nei confronti della piattaforma è legato al livello di esperienza dello stesso.

1.5 Gli attuali studi nell’ambito turistico

Il settore turistico si presta particolarmente all’analisi dell’uso dei social me-dia e molti sono gli studi a riguardo. Uno studio di Lu e Stepchenkova (2015) ha raggruppato cento articoli pubblicati su riviste turistiche nei dieci anni precedenti e relativi a contenuti generati dagli utenti sul tema di ospitalità e turismo. Schuckert (2015), poi, cita cinquanta articoli relativi a recen-sioni pubblicate online sottolineando l’interesse crescente nel comprendere l’importanza e il ruolo delle recensioni online.

Gli articoli fanno riferimento ai quesiti di ricerca più differenti. Tra i più frequenti si trovano la motivazione al viaggio, l’analisi delle opinioni e degli stati d’animo conseguenti alla permanenza in determinati luoghi, l’impatto

(23)

delle recensioni nella performance degli hotel, la tipologia e il conseguente utilizzo dei dati raccolti dalle recensioni. Nonostante questi ambiti di ricerca diversi, si può affermare che il fine sia sempre quello di analizzare il ruolo delle recensioni nei social media per ricavarne visioni d’insieme e aspetti non visibili nell’immediato.

Ci sono caratteristiche comuni negli studi oggetto dell’analisi:

• la numerosità campionaria varia da alcune centinaia a qualche centinaia di migliaia, numeri non abbastanza grandi per essere considerati big data. L’intento è però, spesso, quello di identificare nuovi modelli in campioni ristretti e provare poi a generalizzarli a fenomeni più ampi; • il campionamento è stato eseguito adottando alcune regole per filtrare

i dati (scegliendo solo recensioni con un una lunghezza minima o deci-dendo in partenza il numero di recensioni per casistica) oppure, in altri casi, tutti i dati disponibili sono stati utilizzati per l’analisi;

• la modalità con cui i dati sono stati analizzati spazia dall’analisi del contenuto all’estrazione di parti del testo, dalla regressione multivariata alla modellazione econometrica;

• la fonte da cui i dati sono ricavati è unica per quasi tutti gli studi e proveniente, per la gran parte degli articoli, dalle piattaforme online più popolari. Su tutte, la più frequente è TripAdvisor, definita in più occasioni "il più grande sito di recensioni sui viaggi al mondo".

Nel caso di studi con dati provenienti da più di una fonte non è stata considerata la possibile sovrapposizione di dati, e i dati sono stati utilizzati in forma aggregata.

Lo studio di Xiang et al. (2017) mette in discussione la valutazione della qualità dei dati analizzati nei vari studi, in particolare per quanto riguarda l’esperienza del visitatore: è un limite, questo, alla possibilità di generalizza-re i risultati ottenuti, per quanto riguarda l’ambito di ricerche generalizza-relative alle analisi dei dati nei social media turistici.

(24)

Ciò che risulta evidente è il crescente interesse nel comprendere i dati de-rivanti da recensioni, con un focus particolare sulle ragioni non direttamente osservabili che stanno alla loro base. Capire e scindere gli elementi che por-tano ad esternare una determinata preferenza può essere una risorsa utile sia per gli utenti e futuri turisti, a cui è presentata una descrizione oggettiva dei punti d’interesse di cui cercano informazioni, sia per chi si occupa delle attrazioni valutate, per comprendere al meglio quali siano i punti di forza e quali quelli di debolezza, e poter così lavorare al miglioramento dell’immagine dell’attrazione.

(25)

Capitolo 2

Il modello CUB

La raccolta di dati di tipo ordinale è comune nel caso in cui si vogliano conoscere le valutazioni e le preferenze degli individui in relazione a elementi di interesse, generalmente prodotti e servizi.

La modalità attraverso cui viene espressa una preferenza è la conseguenza di meccanismi psicologici che sono stati ampiamente studiati in letteratura. Ciò su cui si basa il modello che sarà analizzato in questo capitolo è un lavoro di D’Elia (2000), che propone di considerare r, cioè la valutazione di tipo ranking assegnata da un individuo, come la realizzazione di una bino-miale, traslata in modo che il supporto si differenzi dal supporto usuale e non comprenda lo zero, R ⇠ SB(⇠,m). Il sentimento che conduce a esternare una preferenza è riconducibile a una variabile latente che è intrinsecamente continua (Thurstone, 1927), ma la scelta ricade sulla distribuzione binomiale, una distribuzione discreta, per comodità. La funzione di probabilità che ne deriva è la seguente: P (R = r) = ✓ m 1 y 1 ◆ (1 ⇠)y 1⇠m r (2.1) con r = 1, 2, ..., m, considerando R = 1 come "più preferito" e R = m come "meno preferito". ⇠ cresce all’aumentare del gradimento del rispondente ed è facile dimostrare che la varianza, calcolata come Var(R) = (m-1) ⇠ (1-⇠), ha il valore massimo nel caso in cui ⇠=1

2, cioè quando è massima l’incertezza

(26)

L’incertezza ricopre dunque un ruolo fondamentale, e D’Elia e Piccolo (2004) la descrivono anche come sentimento di equipreferenza. Per tradurre questo in una distribuzione statistica, si arriva alla scelta della distribuzione discreta uniforme, U ⇠ Ud(m), in quanto in grado di massimizzare l’entropia in un supporto finito e discreto di alternative (Piccolo & D’Elia, 2008). La funzione di probabilità risulta essere:

P (U = r) = 1

m (2.2)

con r = 1, 2, ..., m.

2.1 Il background dei modelli per dati ordinali

La richiesta di esternazione di una preferenza segue due diversi approcci, con scopi diversi: il ranking e il rating.

Per quanto riguarda il primo approccio, all’individuo viene chiesto di or-dinare una serie di alternative a seconda del proprio gradimento. Risulta evi-dente che l’espressione della preferenza è condizionata dalle caratteristiche di tutte le opzioni presenti, e non è espressa in senso assoluto. Il posizionamento di un’opzione va considerato come combinazione di fattori, ma anche il valo-re marginale della stessa può fornivalo-re risposte a quesiti di indagine (Fligner, 1993; Marden, 1996; Moustaki, 2003).

Per quanto riguarda il rating, agli individui è chiesto di indicare, all’inter-no di una serie di opzioni, quale si adatta meglio all’oggetto in esame secondo la propria percezione.

La tecnica delle scale rientra nelle procedure per misurare i meccani-smi psicologici che portano all’esternazione di una determinata preferenza. Queste procedure sono state studiate, tra gli altri, da Bogardus (1926), che affronta il tema della distanza sociale, e da Thurstone (1927), che studia il rapporto tra preferenza e atteggiamenti. La scala Likert (1932), poi, dà una descrizione verbale a una scala ordinata di preferenze.

Il sociologo Bogardus (1926) sviluppa una tecnica per misurare la distan-za sociale tra gruppi etnici, servendosi di un metodo che consiste nel porre

(27)

l’intervistato di fronte a determinate affermazioni riferite ad alcuni comporta-menti. Allo stesso intervistato viene poi chiesto di indicare i comportamenti che accetta e a cui si sente vicino. Queste valutazioni vanno a creare l’indice di contatto sociale, contrapposto all’indice di distanza sociale, riferito alle categorie di comportamento non accettate dall’intervistato. Il procedimento è gerarchico, le affermazioni vengono dunque presentate all’intervistato sulla base delle risposte di volta in volta fornite dallo stesso. L’ipotesi su cui si basa questa tecnica è che la distanza sociale sia un atteggiamento, espresso tramite i comportamenti.

Per Thurstone (1927), la preferenza è determinata dall’ordinamento re-lativo di variabili casuali indipendenti e latenti, e rappresentazione di at-teggiamenti. Gli atteggiamenti, a loro volta, sono la conseguenza di idee, sentimenti e pregiudizi. La modalità con cui viene misurata la preferenza risulta essere quella di proporre all’intervistato un elevato numero di stimoli, sotto forma di affermazioni che prevedono solo risposte dicotomiche, affer-mative o meno. Vengono utilizzati diversi metodi: uno di questi è quello dei confronti a coppie che, presentando le affermazioni due alla volta, permette di creare un ordinamento in base al numero di preferenze ricevute.

Ad oggi, le preferenze degli individui sono generalmente indicate facendo riferimento alla scala Likert (1932), che dà una descrizione verbale a una scala ordinale. La differenza con l’approccio di Thurstone è che l’importanza è spostata dal proporre un numero elevato di stimoli allo studio delle diverse reazioni a stimoli diversi. L’atteggiamento nei confronti di un dato argomen-to è, infatti, valutaargomen-to in base ad affermazioni proposte all’intervistaargomen-to, che è chiamato a indicare il proprio livello di favore o sfavore rispetto alle afferma-zioni stesse. L’assunto su cui l’approccio si basa è che le diverse reaafferma-zioni a stessi stimoli siano la conseguenza di differenze individuali tra soggetti.

Dopo gli anni ’30, con Guttman (1944), la concentrazione passa dal sog-getto alla risposta. Quello che Guttman sostiene è che la reazione dei soggetti agli stimoli dipenda interamente dalla posizione del soggetto e dalla posizione dell’item sulla scala.

Successivamente, gli studi cercano di superare i limiti e le contraddizioni dei primi approcci. Osgood, Suci e Tannembaum (1957) studiano una

(28)

tec-nica, denominata differenziale semantico, per comprendere quale significato assume un determinato concetto per l’intervistato. La tecnica usata è quella degli opposti, proposti all’intervistato come risposta agli stimoli, per rende-re più facile l’esternazione del giudizio. La tecnica permette di coglierende-re le strutture cognitive latenti degli intervistati.

L’analisi del meccanismo psicologico per l’esternazione di un giudizio por-ta a ipotizzare l’esistenza di variabili latenti in corrispondenza delle risposte. Con il termine variabili latenti si fa riferimento a costrutti non diretta-mente misurabili che sottostanno ad un insieme di variabili manifeste, cioè direttamente osservabili. Non è noto il primo utilizzo delle variabili laten-ti, in quanto l’idea che al di sotto di fenomeni osservati ci siano cause non osservate è presente da sempre (Gray & Densten, 1998; Bollen, 2002).

Per analizzare questa tipologia di dati, sono stati frequentemente utiliz-zati Modelli Lineari Generalizutiliz-zati, che presuppongono l’esistenza di variabili latenti, e dunque inosservabili, oltre a quelle manifeste. Spesso queste varia-bili sono considerate come provenienti da una distribuzione continua che ha il proprio centro su un valore medio che cambia per ogni individuo. Questo valore medio viene modellato con una funzione lineare in base alle covariate proprie dell’intervistato (McCullagh & Nelder, 1989; Agresti, 2010; Johnson & Albert, 1999).

Risulta rilevante, dunque, la raccolta di dati relativi alle caratteristiche degli individui che sono chiamati ad esprimere una preferenza: è tramite questa ricerca che risulta possibile effettuare una valutazione dell’influenza nella preferenza da parte delle caratteristiche individuali e comprendere le ragioni di fondo degli intervistati.

A differenza dei Modelli Lineari Generalizzati, nel modello CUB, che verrà analizzato in seguito, le covariate sono introdotte nel modello attraverso un collegamento diretto con i parametri, rendendo più semplice l’interpretazione.

2.2 Il modello MUB

Partendo dai presupposti discussi precedentemente, per descrivere la moda-lità con cui una preferenza viene espressa, D’Elia e Piccolo (2004) per primi

(29)

elaborano un modello che considera due nuove componenti:

• la componente liking, cioè il gradimento del rispondente, inteso co-me una personale preferenza rispetto all’eleco-mento preso in esaco-me. I nomi attribuiti a questa componente, a seconda della circostanza, pos-sono essere i più vari: livello di interesse, misura di affinità, livello di soddisfazione, ecc.;

• la componente incertezza, cioè l’indecisione riguardante la valutazione da esprimere. I fattori che la causano sono diversi: il numero limitato di informazioni sull’elemento da valutare, il coinvolgimento personale ed emotivo, il tempo dedicato alla risposta, la stanchezza del rispon-dente, la mancata comprensione della domanda (Iannario e Piccolo, 2012). Anche gli stili di risposta, analizzati nel dettaglio nella Sezione 2.4, possono essere intesi come parte di questa componente. Essa ri-sulta utile anche a rappresentare due distinte categorie di rispondenti: i riflessivi e gli istintivi.

Il modello pensato per comprendere queste due componenti è il model-lo MUB (Mixed Uniform Binomial). Il modelmodel-lo associa alla dimensione del liking la realizzazione di una binomiale traslata e all’incertezza una distri-buzione discreta uniforme. La loro combinazione descrive il processo che ha portato l’individuo a esprimere una preferenza:

P (R = r) = ⇡pB(r) + (1 ⇡)pU(r) (2.3)

con r = 1, 2, ..., m, dove pB(r) rappresenta la funzione di probabilità della

distribuzione binomiale traslata e pU(r)rappresenta la funzione di probabilità

della distribuzione discreta uniforme.

Dunque, è possibile descrivere R come la realizzazione del modello MUB, R ⇠ MUB(m, ⇡, ⇠) se: P (R = r) = ⇡ ✓ m 1 y 1 ◆ (1 ⇠)y 1⇠m r + (1 ⇡) 1 m (2.4) con r = 1, 2, ..., m.

(30)

I pesi delle due componenti della distribuzione dipendono, come si può osservare dalle precedenti formule, da ⇡ e (1 ⇡), con ⇡ 2 [0, 1].

Si ipotizza l’esistenza di diversi sottogruppi di rispondenti, e i due coef-ficienti ne descrivono la proporzione all’interno del totale. In particolare, considerando i vari casi:

• se ⇡ = 0 si verifica il caso di incertezza maggiore o di equipreferenza, R segue una distribuzione uniforme, che dipende dal numero m; • se ⇡ = 1 si verifica l’assenza di incertezza, R si comporta come una

binomiale traslata e dipendente unicamente dal parametro ⇠.

• se ⇡ 2 (0, 1) è (1 ⇡) che misura il modo in cui l’incertezza subentra nel meccanismo di scelta degli individui.

Il valore atteso della distribuzione è E(R) = ⇡(m 1)(1

2 ⇠) +

m + 1

2 (2.5)

che si traduce in E(R) = m+1

2 nel caso in cui ⇠ = 1

2.

La figura 2.1 risulta utile per descrivere alcune tra le principali caratteri-stiche del modello:

• la coda della distribuzione dipende da (1 ⇡)m , e ciò significa che, nel caso

di assoluta incertezza ⇡=0, la funzione di probabilità vale 1

m;

• per ⇠ = 1

2 la distribuzione presenta una forma simmetrica, in quanto

combinazione lineare di due distribuzioni simmetriche;

(1 - ⇠) è associato alla componente di liking e, se i dati considerati sono di tipo rating, un suo alto valore indica un’alta preferenza e una conseguente alta probabilità che la valutazione espressa sia elevata.

(1 - ⇡) è associato alla componente di incertezza: un suo alto valore non corrisponde a una conseguenza prevedibile nella valutazione. Con il suo aumento, incrementa la variabilità e l’eterogeneità delle risposte: con un

(31)

Figura 2.1: Funzione di probabilità della variabile casuale MUB, con m=12 e ⇡=1 4

(linea continua), 1

2 (linea tratteggiata), 34 (linea punteggiata)

valore alto di incertezza, le tendenze del liking sono ridimensionate, mentre, con un valore basso della stessa, le tendenze del liking sono enfatizzate.

Risulta interessante notare come questo modello permetta una visualiz-zazione grafica utile per comprendere i valori di liking e incertezza nel caso si voglia effettuare un confronto tra diversi elementi. In particolare, il modello può essere rappresentato come un punto in uno spazio parametrico, dalle coordinate ⇡ e ⇠.

Un esempio è dato dalla rappresentazione grafica dei risultati dello stu-dio di Low (2017) con riferimento ad un dataset di TripAdvisor relativo alle

(32)

valutazioni di diversi aspetti di un determinato hotel. La figura 2.2 rende evi-dente come sia visivamente intuitivo il risultato dell’analisi mediante modello CUB, facilitando inoltre il confronto tra diversi elementi.

Figura 2.2: Risultati dell’analisi CUB sulle valutazione degli utenti relativi a cinque aspetti della struttura in esame, Low (2017)

(33)

2.3 Modellare il liking

Piccolo e Iannario (2015) giustificano l’utilizzo di una distribuzione binomiale traslata per descrivere il liking.

I rispondenti sono chiamati a esprimere un giudizio avendo a disposizione un numero m di valutazioni possibili. Viene presa in considerazione X, va-riabile casuale generata dalla selezione di una categoria ordinale di opzioni, x ✏ {1, 2, ..., m}, dove l’aumentare di x si traduce con un aumento della preferenza nei confronti dell’oggetto in esame.

Individuando ⇠ come un numero compreso nell’intervallo [0, 1], la misura dell’attrazione nei confronti di una specifica valutazione è definita come (1-⇠). Questa è la misura del liking, o preferenza dell’individuo rispondente.

Si procede, a questo punto, con un confronto a coppie. D’Elia (2000a) per la prima volta percorre questa strada. La probabilità che una data valutazio-ne sia adatta all’oggetto in questiovalutazio-ne è (1- ⇠), la probabilità che non lo sia è ⇠. Il ragionamento si traduce, dunque, in un insieme di m 1 confronti, che portano a risultati considerabili come successi o insuccessi. Se un rispondente considera x ✏ {1, 2, ..., m} come la valutazione più adeguata, significa che le precedenti x - 1 e successive m - x categorie sono considerate rispettivamente troppo basse e troppo alte per descrivere l’oggetto in questione.

Per questo motivo la preferenza nei confronti di un determinato oggetto in esame può essere espressa da una distribuzione binomiale traslata (in modo che il supporto non comprenda lo zero), e la probabilità di scelta risulta essere: P (X = x) = ✓ m 1 y 1 ◆ (1 ⇠)y 1⇠m r (2.6) Gli eventi messi a confronto sono ipotizzati indipendenti tra loro. La bi-nomiale traslata risulta essere utile per un conteggio di una categoria messa a confronto con le altre. Un vincolo importante è quello dell’ordine della sequenza delle categorie, in quanto ogni valore X = x può essere considerato anche come la scelta cumulata delle alternative precedenti rispetto alle altre. Per fare un esempio, con m = 5, l’evento (X = 4) è l’esplicitazione di un

(34)

rifiuto di tutte le categorie inferiori a quella scelta, ed è quindi possibile af-fermare che esiste un legame con l’evento (X = 2), che rifiuta meno categorie del precedente.

La misura di attrazione nei confronti dell’oggetto in esame è espressa come (1- ⇠), e non come ⇠, in quanto la prima interpretazione di questo approccio derivava da uno studio di ranking (dove la preferenza maggiore ricopre la prima posizione) e non di rating. Per questa ragione, c’è un rovesciamento dell’interpretazione di ⇠.

2.4 Modellare l’incertezza

Dietro a ogni decisione e risposta esiste una quota di incertezza e di inaccura-tezza che spesso non è legata alle circostanze o al contenuto della domanda. In particolare, nel modello MUB questo fattore è descritto e tradotto con una distribuzione discreta uniforme. Viene dunque ipotizzata, su un supporto {1, 2, ..., m}, una probabilità costante: 1/m. L’entropia è così massimizzata, rispetto a tutte le altre distribuzioni con lo stesso supporto.

Il modello MUB si basa unicamente su questa distribuzione nel caso in cui l’interesse del rispondente nei confronti dell’oggetto in esame sia nulla o nel caso non ci sia coinvolgimento nei confronti dello stesso.

Il modello non mira a suddividere i rispondenti tra decisori totalmen-te consapevoli (⇡ = 1) e individui che rispondono in modo casuale (⇡ = 0). Il modello cerca piuttosto di individuare con quale propensione agisce il rispondente, dando così un valore a ⇡ e a (1 - ⇡).

Il modo in cui gli individui esprimono una preferenza è collegato ad abitudini comportamentali che non sono direttamente collegate alle singole domande o al modo in cui sono poste.

Baumgartner and Steenback (2001) fanno per la prima volta riferimento a specifici stili di risposta, che si traducono in problemi attraverso i quali vengono nascosti i reali punteggi attribuiti agli oggetti in esame, in quanto i rispondenti usano una scala ridotta per esprimere le valutazioni.

(35)

Per determinare quali siano gli stili di risposta che causano una variazione del livello di incertezza, Gottard, Iannario e Piccolo (2016) hanno stilato, sulla base della letteratura sull’argomento, una lista:

• Resoluteness in the extremes: si verifica quando il rispondente ha un’i-dea precisa del significato degli estremi della scala di valutazione, ma ipotizza che una risposta comprendente i valori centrali della scala stia a tradurre una scelta incerta. La scelta dei valori centrali non è, dun-que, adeguatamente riflettuta: a conferma di questo, se il questionario viene ripetuto, le risposte in cui sono stati scelti valori centrali variano; • Aquiescence response style: tendenza del rispondente di concordare con le domande, anche se queste gli causano dubbi. Lo stile di risposta opposto è descritto dal disaquiescence response style. Si tratta di un comportamento strettamente legato al contesto, come dimostrato da ricerche cross-culturali;

• Response contraction bias: tendenza del rispondente a non usare inte-ramente la scala di valutazione che gli è stata fornita. Le risposte sono generalmente concentrate nel mezzo della scala di valutazione. Esiste, però, anche la concentrazione one-side, che si verifica quando la scala di valutazione è considerata solo nella sua parte iniziale o finale; • Spike responses: tendenza a considerare prevalentemente determinate

modalità della scala di valutazione. Un esempio è lo stile di risposta centrale, cioè la tendenza ad associare all’oggetto in esame una valuta-zione media, a prescindere dal contesto. Le motivazioni possono essere ricondotte a molteplici fattori: l’indecisione del rispondente o il suo disinteresse sono solo alcuni. Si può considerare anche lo shelter effect, di cui si parlerà in seguito.

Per poter includere queste tipologie di stili di risposta all’interno del mo-dello MUB è stata introdotta una sua generalizzazione, denominata momo-dello VCUB.

(36)

Il modello è definito formalmente nel seguente modo:

P (R = r) = ⇡br(⇠) + (1 ⇡)pVr (2.7)

con r = 1, 2, ..., m, dove br(⇠) si riferisce alla distribuzione binomiale

traslata e pV

r fa riferimento alla distribuzione di probabilità discreta della

variabile che descrive l’incertezza, la cui specificazione è decisa a priori.

2.5 Le estensioni del modello

Molteplici sono le estensioni nate per permettere al modello MUB di descri-vere in modo più accurato i dati. In particolare, in questa sezione ne sono analizzate tre fra le più rilevanti.

2.5.1 L’introduzione delle covariate

Il modello che inizialmente era stato definito MUB da D’Elia e Piccolo (2004), sarà poi rinominato CUB (Combination of a discrete Uniform and a shifted Binomial distributions), per sottolineare il fatto che si tratta di una combi-nazione di componenti, il liking e l’incertezza, e non una mistura standard delle stesse (Iannario, 2012a). Attraverso il modello CUB è infatti possibile valutare, a partire dalle risposte degli individui, come hanno influito le loro caratteristiche sulle preferenze dichiarate.

Piccolo ed Elia (2008) sottolineano come il modo in cui gli individui scel-gono di dare una valutazione piuttosto che un’altra sia il risultato di un’a-zione combinata di una componente liking e una componente incertezza, un risultato però influenzato da aspetti propri del rispondente: esempi posso-no essere l’età, il genere, la professione. Questa relazione tra la valutazione esternata e le caratteristiche del rispondente (che possono essere definite "co-variate"), si può descrivere ricorrendo ad un paradigma descritto da King, Tomz e Wittenberg (2000). Questo paradigma comprende una componente stocastica (con Ri variabile casuale che descrive la risposta ordinale) e una

(37)

funzione deterministica g(✓i), che collega i parametri ✓i e le covariate xi. Nel

dettaglio:

Ri ⇠ f(r; ✓i); ✓i = g(xi ) (2.8)

con i = 1, 2, ..., n. Si indica con Y il vettore di covariate relative all’incer-tezza e con W il vettore delle covariate associate al liking. Considerando la funzione logistica come funzione di collegamento, le formule dei due parametri sono le seguenti: ⇡i = ⇡i( ) = 1 1 + e( yi ) (2.9) ⇠i = ⇠i( ) = 1 1 + e( wi ) (2.10)

con = ( 0, 1, ..., p)0 e = ( 0, 1, ..., q)0 parametri da stimare.

Essen-do la funzione di collegamento una funzione logaritmica, il supporto risulta essere ⇡ 2 [0, 1] e ⇠ 2 [0, 1].

Per quanto riguarda l’effetto marginale delle componenti, possono essere fatte le seguenti considerazioni:

• a parità di condizioni, all’aumento di yij corrisponde una diminuzione

dell’incertezza per ˆj > 0, e un incremento della stessa per ˆj < 0;

• contrariamente alla situazione descritta in precedenza, all’aumento di wij corrisponde un aumento del liking per ˆj > 0, e una diminuzione

dello stesso per ˆj < 0.

Il valore atteso della variabile casuale R, che descrive la preferenza del-l’individuo i-esimo, è calcolato come segue:

E(R|yi, wi) = m + 1 2 + (m 1) tahn( wi 2 ) 2(1 + e yi (2.11)

Con riferimento alle componenti relative all’incertezza e al liking si nota che:

(38)

• il valore atteso della variabile casuale R dipende da entrambi i coeffi-cienti ˆ e ˆ: va considerata dunque la loro variazione combinata. Piccolo (2006) classifica e ordina i modelli CUB secondo una precisa terminologia, presentata nella tabella 2.1.

Tabella 2.1: Notazione standard per il modello CUB, Piccolo (2006)

Modello Tipologia di covariate Vettore dei parametri CUB (0,0) Nessuna covariata ✓ = (⇡, ⇠)0

CUB (p,0) p covariate per ⇡ ✓ = ( 0, ⇠)0 CUB (0,q) q covariate per ⇠ ✓ = (⇡, 0)0 CUB (p,q) p covariate per ⇡ e q covariate per ⇠ ✓ = ( 0, 0)0

Risulta facile notare che il modello CUB (0,0), senza covariate, corrisponde al modello MUB di cui si è parlato nella sezione (2.2).

2.5.2 Shelter effect

Quello che può succedere, nella valutazione su una scala ordinale di uno o più elementi, è che il rispondente, per semplificare il processo di risposta, scelga involontariamente di concentrarsi su una sola opzione, denominata shelter choice. Iannario (2012) ne analizza per prima le caratteristiche.

Le motivazioni che portano a questo accadimento sono molteplici. Un esempio è il fatto che le valutazioni più estreme, quelle al margine della scala, risultano spesso più evidenti e attraenti, utili a evidenziare una risposta incisiva e pensata. La risposta mediana, posta al centro, è la risposta tipica di chi non ha un’opinione ben definita, o di chi non ripone impegno nel rispondere alla richiesta di valutazione.

Sono tutti casi, questi, di shelter choice, e sono riconoscibili dal fatto che il numero di preferenze indicate per questi valori si discosta positivamente dal numero di preferenze attese. Non è possibile riconoscere il fenomeno senza

(39)

un appropriato modello statistico che misuri la significatività della differenza tra frequenze osservate e frequenze attese.

Iannario e Piccolo (2015) analizzano più nel dettaglio il processo mentale che porta a scegliere una valutazione piuttosto che un’altra. In particolare, vengono esplicitate due interpretazioni.

La prima interpretazione segue un percorso composto da due fasi:

• la prima scelta che il rispondente deve affrontare è tra due alternative: una valutazione immediata, in base al proprio istinto, e una valutazione che richiede del tempo di riflessione. La probabilità di scelta di queste due alternative è, rispettivamente, i e 1 i, per i = 1, 2, ..., n. Il caso

in cui viene scelta la valutazione immediata è quello della shelter choice e non si passa ad una seconda fase;

• se la scelta non ricade sulla shelter choice, ma sulla seconda alternati-va, la valutazione indicata sarà una decisione bilanciata tra la propria opinione, positiva o negativa, nei confronti dell’elemento in esame e una scelta totalmente casuale, con rispettivamente propensione di ⇡i e

1 ⇡i.

Anche la seconda interpretazione propone due fasi seguite dal rispondente: • inizialmente, l’individuo decide se considerare le proprie preferenze nei confronti dell’elemento in esame attraverso un preciso ragionamento oppure se adottare un atteggiamento di indecisione, rispettivamente con probabilità i e 1 i, per i = 1, 2, ..., n. Nel caso venga adottato

il secondo comportamento, si passa alla seconda fase;

• il rispondente che non ha seguito un ragionamento dettato dalle proprie preferenze sceglierà dunque se affidarsi al caso oppure se far ricadere la propria valutazione su una scelta comoda, una shelter choice. Le probabilità di, rispettivamente, ⌘i e 1 ⌘i.

Può succedere che una singola risposta R = c, con c 2 {1, 2, ..., m} valore conosciuto, riceva un numero di risposte superiori al numero atteso, per cause

(40)

che possono essere quelle elencate precedentemente. Per verificare la rilevanza statistica di questa differenza, è introdotta una nuova componente, che è definita nel seguente modo:

Dr(c) = 8 < : 1 se r = c 0 altrimenti. (2.12) Con l’introduzione di questa nuova componente il modello CUB, definito per r = 1, 2, ..., m, diventa:

pr(✓) = P r(R = r|✓) = ⇡1br(⇠) + ⇡2Ur+ (1 ⇡1 ⇡2)Dr(c) (2.13)

con ✓ = (⇡1, ⇡2, ⇠)0che rappresenta il vettore dei parametri della distribuzione

della nuova mistura di variabili casuali (Iannario, 2012).

Si definisce quindi una nuova quantità = 1 ⇡1 ⇡2 che esprime il

contributo della shelter choice per r = c. Si nota che, nel caso in cui la somma di ⇡1 e ⇡2 sia 1, assume valore zero, e il modello torna ad avere la

forma standard.

In merito alle due interpretazioni di Iannario e Piccolo (2015), la formula (2.13) può essere riscritta in modi diversi per renderne più chiari i riferimenti. In particolare, la prima interpretazione può essere così esplicitata:

P r(R = r) = i ⇥ D(c)r ⇤+(1 i) ⇥ ⇡ibr(⇠i) + (1 ⇡i)pUr ⇤ (2.14) con r = 1, 2, ..., m. Risulta facile notare che, nel caso in cui valga zero, il modello torna ad avere la forma del modello CUB classico.

Per quanto riguarda la seconda interpretazione, invece, si ha: P r(R = r) = ibr(⇠i) + (1 i) ⇥ ⌘ipUr + (1 ⌘i)D(c)r ⇤ (2.15) con r = 1, 2, ..., m.

Le formule (2.14) e (2.15) sono equivalenti, ma diverse nella forma: la prima risulta essere più immediata nello spiegare visivamente il peso dello shelter effect nel modello.

(41)

2.5.3 Overdispersion

Il concetto di overdispersion nel modello CUB viene introdotta da Iannario (2014). Con overdispersion si fa riferimento alla presenza di una grande dispersione statistica all’interno di un dataset.

Iannario ipotizza che, nel processo che gli individui mettono in atto per dare una valutazione, la componente di eterogeneità delle scelte possa con-durre a una variabilità eccessiva. Per comprendere e adeguare il modello a questa variabilità, al modello CUB viene introdotta una modifica. Al posto della distribuzione Binomiale, si ha ora la distribuzione Beta-Binomiale: la nuova denominazione del modello è CUBE (Combination of a Uniform and a shifted Beta-Binomial). La funzione di probabilità collegata è la seguente: P r(R = r) = ⇡ er(⇠, ) + (1 ⇡)pUr (2.16)

con r = 1, 2, ..., m.

Il parametro è il nuovo parametro relativo all’overdispersion, che assume un ruolo fondamentale nella distribuzione Beta-Binomiale, definita di seguito:

er(⇠, ) = ✓ m 1 r 1 ◆ Qr k=1[1 ⇠ + (k 1)] Qm r+1 k=1 [⇠ + (k 1)] [1 ⇠ + (r 1)] [⇠ + (m r)]Qm 1k=1 [1 + (k 1)] (2.17) con r = 1, 2, ..., m.

Quando il parametro assume il valore zero, il modello CUBE coinci-de con il mocoinci-dello CUB. Si può quindi notare che il mocoinci-dello CUBE sia una generalizzazione del modello precedentemente analizzato: risulta facile, dun-que, confrontare l’adattamento dei due modelli, ad esempio con il test di log-verosimiglianza, di cui si parlerà nella Sezione 2.6.

Iannario (2014) dimostra che nel caso in cui sia maggiore di zero, e quindi l’overdispersion presente, la variabilità del modello sia maggiore del modello CUB corrispondente con uguale a zero.

Sempre Iannario suggerisce una modalità di rappresentazione grafica utile al confronto tra modelli. Come già visto in precedenza, la rappresentazione grafica del modello CUB risulta chiara e facilmente comprensibile: i modelli

(42)

sono rappresentati come punti di un piano. La rappresentazione del modello CUBE deve tenere conto anche della propria caratteristica, cioè il valore dell’overdispersion. Per conservare la chiarezza, questi modelli sono anch’essi rappresentati come punti in un piano, ma la dimensione del punto varia a seconda del valore di .

2.6 I metodi inferenziali

Per quanto riguarda la stima dei parametri del modello, Piccolo e D’Elia (2005) propongono l’adozione dell’algoritmo E-M, originariamente sviluppato nella sua forma base da Dempster (1977).

Necessaria all’esplicitazione delle stime di massima verosimiglianza di ✓, con ✓ = (⇡, ⇠)0 vettore dei parametri, è la funzione di log-verosimiglianza del

modello CUB, definita nel seguente modo: logL(✓) = m X r=1 nr log(pr(✓)) (2.18) con pr = P r(R = r|✓).

L’algoritmo è composto da due fasi che si ripetono iterativamente fino al raggiungimento della convergenza, momento in cui la verosimiglianza non viene più incrementata dal cambiamento del valore dei parametri. Le fasi sono accuratamente descritte e studiate da Piccolo (2006).

Sono quattro i criteri che Iannario e Piccolo (2015) identificano come utili alla validazione del modello stimato:

• significatività dei parametri, calcolata tramite il test di Wald;

• confronto di log-verosimiglianza, nel caso di modelli nidificati: è utile per analizzare la differenza del valore della log-verosimiglianza rispetto al valore del percentile standard 2, per verificare se il modello più

complesso è anche il modello più adatto a descrivere i dati;

• indici globali che comprendono vari indici che prendono in considerazio-ne la log-verosimiglianza e il suo variare in base al numero di parametri

(43)

presenti nel modello. Due esempi sono gli indici BIC (Schwarz et al., 1978) e AIC (Akaike, 1974), di seguito definiti:

BIC = 2`(ˆ✓) + (npar)log(n) (2.19)

AIC = 2`(ˆ✓) + 2(npar) (2.20) Tra gli indici Iannario e Piccolo (2009) citano anche altre due misu-re: una di queste è l’indice ICON (Information CONtent) che misura il miglioramento del modello passando da un modello a distribuzione uniforme al modello CUB. L’indice è così definito:

ICON = 1 + `(ˆ✓)/n

log(m) (2.21)

L’altra misura menzionata per valutare l’adattamento dei dati al mo-dello è l’indice di dissimilarità (Diss), che descrive la proporzione delle unità che andrebbero spostate di categoria per ottenere un adattamen-to perfetadattamen-to del modello. Considerate fr le frequenze relative osservate

e ˆpr = pr(ˆ✓) le frequenze attese, l’indice è così definito:

Diss = 1 2 m X r=1 |fr pˆr| (2.22)

Un modello con una buona adattabilità ha un indice di dissimilarità inferiore a 0,10.

Per rendere immediata la comprensione dell’efficacia nella previsione del modello, è possibile adottare la seguente formula, che esplicita la percentuale di previsioni corrette del modello:

F2 = 1 1 2 m X r=1 |fr pˆr| (2.23)

(44)

Se il modello presenta covariate con k categorie, la formula è genera-lizzata nel seguente modo:

F2 = 1 1 2 k X j=1 nj n m X r=1 |frj pˆrj| (2.24)

• analisi dei residui, controllo e definizione delle caratteristiche dei resi-dui, con metodi classici quali Pearson o analisi specifiche come quelle proposte da Di Iorio e Iannario (2012).

(45)

Capitolo 3

Caso studio

In questo capitolo viene presentata l’origine dei dati e la modalità con cui è stata effettuata una pulizia degli stessi. Il risultato della pulizia è dato da dataset con un numero di variabili inferiore rispetto al numero di partenza, in quanto solo alcune sono utili per la comprensione della preferenza dei viaggiatori nei confronti dei luoghi di interesse studiati.

3.1 I dati grezzi

Il modello descritto nel capitolo precedente è stato utilizzato per isolare l’incertezza dei rispondenti dalla loro effettiva preferenza nel campo delle attrazioni turistiche. In particolare, sono oggetto dell’analisi alcune tra le principali attrazioni di Venezia.

Per fare questo, sono stati scelti i dati dalla piattaforma online TripAdvi-sor, selezionando edifici storici, luoghi d’interesse, musei e chiese. Le recen-sioni sono state considerate a partire dalle prime disponibili sul sito fino a quelle del 2018.

I database su cui è stata condotta l’analisi contenevano originariamente trentadue variabili, che sono state in seguito ridotte e modificate.

Le variabili presenti nei database originali possono essere suddivise, a seconda del fatto che si riferiscano all’attrazione, all’utente o alla valutazione dell’utente all’attrazione, nelle categorie di seguito elencate.

(46)

• Descrizione dell’attrazione: i valori assunti da queste variabili cam-biano tra database diversi, ma sono sempre uguali all’interno di uno stesso database. Tra queste si trovano: "Tipo di Attività", "Nu-mero dell’attrazione", "Nome dell’attrazione", "Link Relativo all’at-trazione", "Numero Totale di Recensioni", "Valutazione Media del-l’attrazione", "Ranking deldel-l’attrazione", "Categoria deldel-l’attrazione", "Latitudine dell’attrazione".

• Dati dell’utente: i valori assunti da queste variabili sono costanti, nei diversi database, in corrispondenza di utenti che abbiano valutato più attrazioni. All’interno dei singoli database ogni utente, e dunque ogni riga, assume, per queste variabili, valori definiti unicamente dalle pro-prie caratteristiche. Tra queste variabili si trovano: "Link al Profilo dell’Utente", "Nome dell’Utente", "Livello dell’Utente", "Anno di Re-gistrazione", "Numero di Recensioni dell’Utente", "Numero di Valu-tazioni Espresse dall’Utente", "Numero di Città Visitate dall’Utente", "Numero di Fotografie Caricate dall’Utente", "Tag Inseriti dall’Uten-te", "Residenza dell’Utendall’Uten-te", "Stato di Residenza dell’Utendall’Uten-te", "Città di Residenza dell’Utente", "Fascia d’età dell’Utente", "Genere dell’U-tente", "Numero di Valutazioni: Eccellente", "Numero di Valutazioni: Molto Buono", "Numero di Valutazioni: Nella Media", "Numero di Valutazioni: Scarso", "Numero di Valutazioni: Pessimo".

• Valutazione dell’utente all’attrazione: in questa categoria rientrano le variabili di collegamento tra l’utente e l’attrazione, sono infatti riferite alla valutazione dell’utente relativamente ad un’attrazione. Tra queste variabili si trovano "Codice della Recensione", "Data della Recensione" e "Valutazione Espressa".

Ogni database è stato pulito con lo scopo di contenere soltanto i dati utili all’analisi. Un esempio di variabile che non è stata considerata è quella dei tag inseriti dal rispondente: essendo una funzione utilizzata da un nu-mero esiguo di utenti, avrebbe significativamente ridotto la nunu-merosità dei campioni. Sono inoltre stati rimossi o aggiustati tutti i valori nulli o assenti.

(47)

3.2 Le variabili considerate

Le colonne conservate e ripulite sono associate alle variabili riportate nell’e-lenco che segue:

• Valutazione: gli utenti sono chiamati ad assegnare ai luoghi valutati un punteggio su una scala da 1 a 5, dove i valori indicano, nell’ordi-ne, un giudizio "Pessimo", "Scarso", "Nella Media", "Molto Buono", "Eccellente";

• Livello: TripAdvisor ha sviluppato un programma per premiare i re-censori più attivi nella piattaforma. Il nome di questo programma è TripCollective e divide gli utenti in sei livelli. Qualunque contributo porta ad acquisire dei punti: ad esempio, per ogni recensione redat-ta l’utente riceve 100 punti, per ogni foto caricaredat-ta 30 punti, per ogni punteggio espresso 5 punti. Essere utenti attivi è l’unico modo per avanzare di livello (TripAdvisor, 2020);

• Anno di iscrizione; • Numero di recensioni; • Numero di voti;

• Numero di città visitate; • Numero di fotografie;

• Provenienza: a partire dalle variabili "Residenza dell’Utente", "Stato di Residenza dell’Utente" e "Città di Residenza dell’Utente" si è indi-viduato lo stato di provenienza del rispondente. A partire da questo, ne è stato indicato anche il continente. Le variabili dicotomiche create a partire da queste operazioni sono tre. La prima fa riferimento alla provenienza dall’Italia, con valore 1 in caso affermativo e 0 in caso ne-gativo. La seconda e la terza fanno riferimento, rispettivamente, alla provenienza da Europa e America, con valore 1 in caso affermativo e 0 in caso negativo;

(48)

• Età: a partire dalla fascia d’età dell’utente sono state create cinque variabili dicotomiche, una per fascia. La prima fa riferimento agli in-dividui con un’età compresa tra i 18 e i 24 anni, la seconda tra i 25 e i 34, la terza tra i 35 e i 49, la quarta tra i 50 e i 64, la quinta comprende gli individui con più di 65 anni;

• Genere: a partire dal genere dell’utente sono state create due varia-bili dicotomiche, rispettivamente "Uomini" e "Donne", entrambe con valore 1 in caso affermativo e 0 in caso negativo.

3.3 Caratteristiche dei vari punti di interesse

I punti d’interesse sono stati suddivisi in due gruppi. Il primo comprende le attrazioni principali, cioè le più conosciute e di conseguenza le più recensite tra quelle analizzate. Nel secondo sono presenti i luoghi secondari.

3.3.1 Il circuito principale

Nel primo gruppo, la numerosità dei campioni è, per tutti i punti d’interesse scelti, superiore alle mille unità.

In particolare, tre dei luoghi di questo gruppo fanno parte del cuore di Venezia: sono infatti collocati nel sestiere di San Marco, la più centrale tra le sei zone in cui è suddivisa la città di Venezia. Tra i luoghi scelti c’è il Palazzo Ducale, simbolo della città, oltre che capolavoro gotico e antica sede del Doge. Troviamo poi il Campanile di San Marco, che insieme all’omonima basilica e alla piazza sottostante è il principale monumento di Venezia, e la cui cima è un importante punto panoramico della città. Infine il Ponte dei Sospiri, caratteristico collegamento tra Palazzo Ducale e le Prigioni Nuove.

Gli altri due luoghi non distano molto dai primi due, ma si trovano nel sestiere di Dorsoduro. Il primo è la Collezione di Peggy Guggenheim, museo sul Canal Grande il cui edificio è conosciuto con il nome di Palazzo Venier. Il secondo è la Basilica di Santa Maria della Salute, chiesa seicentesca esempio di architettura barocca.

(49)

Figura 3.1: Mappa delle attrazioni considerate nel circuito principale

Da un’analisi riportata nel dettaglio nell’Appendice, sono state indivi-duate le caratteristiche dei campioni considerati.

Per quanto riguarda i campioni relativi ai luoghi d’interesse del circuito principale, si nota come il Livello degli utenti considerati sia in media supe-riore al Livello 5 in tutti i casi, ma il valore più alto è raggiunto dagli utenti presenti nel campione relativo a Ponte dei Sospiri (figura 3.2).

Il numero di recensioni pubblicate dagli utenti che compongono i vari campioni sono in media un numero superiore a 150. Nel caso di Ponte dei Sospiri e Basilica di Santa Maria della Salute, questo valore medio è superiore, vicino a 300.

Il numero medio di città visitate è in media simile tra i vari campioni, gli utenti che hanno valutato queste attrazioni hanno visitato, in media, tra 128 e 166 città totali.

Il numero delle fotografie scattate e poi caricate sulla piattaforma TripAd-visor ha una variabilità molto alta all’interno dei vari campioni. Per quanto

Riferimenti

Documenti correlati

In questo caso Viterbo, Castel di Guido, Avio e Tor Vergata, vanno esclusi della convenienza energetica, anche se per l'ultimo il recupero è di 9 anni 4 mesi e 28 giorni,

[r]

Capitolo 3 Moto di una particella carica in presenza di un campo elettromagnetico...37. Effetto delle collisioni sul moto degli ioni e degli

The second background category includes both non-prompt lepton background in which one or two of the selected leptons do not originate from the decay of a massive boson from the

infermieristica e al ruolo dell’infermiere nel contesto sociale e sanitario è il Profilo Professionale dell’Infermiere, un decreto del Ministero della Sanità, D.M. 739/1994, a

However, differences detected between historical samples and zinc white demonstrate that the organic environment introduced by the binder presence cause changes in the

FERRARI The measurement of the b-hadrons production asymmetries is of fundamental impor- tance in order to perform CP violation measurements, since the physical CP asymmetry needs to

La prima illustra gli aspetti generali dell’energia eolica, lo stato dell’arte delle turbine eoliche ad asse verticale e delle piattaforme galleggianti soggette a moti e offre