• Non ci sono risultati.

2.5 Le estensioni del modello

2.5.2 Shelter effect

Quello che può succedere, nella valutazione su una scala ordinale di uno o più elementi, è che il rispondente, per semplificare il processo di risposta, scelga involontariamente di concentrarsi su una sola opzione, denominata shelter choice. Iannario (2012) ne analizza per prima le caratteristiche.

Le motivazioni che portano a questo accadimento sono molteplici. Un esempio è il fatto che le valutazioni più estreme, quelle al margine della scala, risultano spesso più evidenti e attraenti, utili a evidenziare una risposta incisiva e pensata. La risposta mediana, posta al centro, è la risposta tipica di chi non ha un’opinione ben definita, o di chi non ripone impegno nel rispondere alla richiesta di valutazione.

Sono tutti casi, questi, di shelter choice, e sono riconoscibili dal fatto che il numero di preferenze indicate per questi valori si discosta positivamente dal numero di preferenze attese. Non è possibile riconoscere il fenomeno senza

un appropriato modello statistico che misuri la significatività della differenza tra frequenze osservate e frequenze attese.

Iannario e Piccolo (2015) analizzano più nel dettaglio il processo mentale che porta a scegliere una valutazione piuttosto che un’altra. In particolare, vengono esplicitate due interpretazioni.

La prima interpretazione segue un percorso composto da due fasi:

• la prima scelta che il rispondente deve affrontare è tra due alternative: una valutazione immediata, in base al proprio istinto, e una valutazione che richiede del tempo di riflessione. La probabilità di scelta di queste due alternative è, rispettivamente, i e 1 i, per i = 1, 2, ..., n. Il caso

in cui viene scelta la valutazione immediata è quello della shelter choice e non si passa ad una seconda fase;

• se la scelta non ricade sulla shelter choice, ma sulla seconda alternati- va, la valutazione indicata sarà una decisione bilanciata tra la propria opinione, positiva o negativa, nei confronti dell’elemento in esame e una scelta totalmente casuale, con rispettivamente propensione di ⇡i e

1 ⇡i.

Anche la seconda interpretazione propone due fasi seguite dal rispondente: • inizialmente, l’individuo decide se considerare le proprie preferenze nei confronti dell’elemento in esame attraverso un preciso ragionamento oppure se adottare un atteggiamento di indecisione, rispettivamente con probabilità i e 1 i, per i = 1, 2, ..., n. Nel caso venga adottato

il secondo comportamento, si passa alla seconda fase;

• il rispondente che non ha seguito un ragionamento dettato dalle proprie preferenze sceglierà dunque se affidarsi al caso oppure se far ricadere la propria valutazione su una scelta comoda, una shelter choice. Le probabilità di, rispettivamente, ⌘i e 1 ⌘i.

Può succedere che una singola risposta R = c, con c 2 {1, 2, ..., m} valore conosciuto, riceva un numero di risposte superiori al numero atteso, per cause

che possono essere quelle elencate precedentemente. Per verificare la rilevanza statistica di questa differenza, è introdotta una nuova componente, che è definita nel seguente modo:

Dr(c) = 8 < : 1 se r = c 0 altrimenti. (2.12) Con l’introduzione di questa nuova componente il modello CUB, definito per r = 1, 2, ..., m, diventa:

pr(✓) = P r(R = r|✓) = ⇡1br(⇠) + ⇡2Ur+ (1 ⇡1 ⇡2)Dr(c) (2.13)

con ✓ = (⇡1, ⇡2, ⇠)0che rappresenta il vettore dei parametri della distribuzione

della nuova mistura di variabili casuali (Iannario, 2012).

Si definisce quindi una nuova quantità = 1 ⇡1 ⇡2 che esprime il

contributo della shelter choice per r = c. Si nota che, nel caso in cui la somma di ⇡1 e ⇡2 sia 1, assume valore zero, e il modello torna ad avere la

forma standard.

In merito alle due interpretazioni di Iannario e Piccolo (2015), la formula (2.13) può essere riscritta in modi diversi per renderne più chiari i riferimenti. In particolare, la prima interpretazione può essere così esplicitata:

P r(R = r) = i ⇥ D(c)r ⇤+(1 i) ⇥ ⇡ibr(⇠i) + (1 ⇡i)pUr ⇤ (2.14) con r = 1, 2, ..., m. Risulta facile notare che, nel caso in cui valga zero, il modello torna ad avere la forma del modello CUB classico.

Per quanto riguarda la seconda interpretazione, invece, si ha: P r(R = r) = ibr(⇠i) + (1 i) ⇥ ⌘ipUr + (1 ⌘i)D(c)r ⇤ (2.15) con r = 1, 2, ..., m.

Le formule (2.14) e (2.15) sono equivalenti, ma diverse nella forma: la prima risulta essere più immediata nello spiegare visivamente il peso dello shelter effect nel modello.

2.5.3 Overdispersion

Il concetto di overdispersion nel modello CUB viene introdotta da Iannario (2014). Con overdispersion si fa riferimento alla presenza di una grande dispersione statistica all’interno di un dataset.

Iannario ipotizza che, nel processo che gli individui mettono in atto per dare una valutazione, la componente di eterogeneità delle scelte possa con- durre a una variabilità eccessiva. Per comprendere e adeguare il modello a questa variabilità, al modello CUB viene introdotta una modifica. Al posto della distribuzione Binomiale, si ha ora la distribuzione Beta-Binomiale: la nuova denominazione del modello è CUBE (Combination of a Uniform and a shifted Beta-Binomial). La funzione di probabilità collegata è la seguente: P r(R = r) = ⇡ er(⇠, ) + (1 ⇡)pUr (2.16)

con r = 1, 2, ..., m.

Il parametro è il nuovo parametro relativo all’overdispersion, che assume un ruolo fondamentale nella distribuzione Beta-Binomiale, definita di seguito:

er(⇠, ) = ✓ m 1 r 1 ◆ Qr k=1[1 ⇠ + (k 1)] Qm r+1 k=1 [⇠ + (k 1)] [1 ⇠ + (r 1)] [⇠ + (m r)]Qm 1k=1 [1 + (k 1)] (2.17) con r = 1, 2, ..., m.

Quando il parametro assume il valore zero, il modello CUBE coinci- de con il modello CUB. Si può quindi notare che il modello CUBE sia una generalizzazione del modello precedentemente analizzato: risulta facile, dun- que, confrontare l’adattamento dei due modelli, ad esempio con il test di log-verosimiglianza, di cui si parlerà nella Sezione 2.6.

Iannario (2014) dimostra che nel caso in cui sia maggiore di zero, e quindi l’overdispersion presente, la variabilità del modello sia maggiore del modello CUB corrispondente con uguale a zero.

Sempre Iannario suggerisce una modalità di rappresentazione grafica utile al confronto tra modelli. Come già visto in precedenza, la rappresentazione grafica del modello CUB risulta chiara e facilmente comprensibile: i modelli

sono rappresentati come punti di un piano. La rappresentazione del modello CUBE deve tenere conto anche della propria caratteristica, cioè il valore dell’overdispersion. Per conservare la chiarezza, questi modelli sono anch’essi rappresentati come punti in un piano, ma la dimensione del punto varia a seconda del valore di .

2.6 I metodi inferenziali

Per quanto riguarda la stima dei parametri del modello, Piccolo e D’Elia (2005) propongono l’adozione dell’algoritmo E-M, originariamente sviluppato nella sua forma base da Dempster (1977).

Necessaria all’esplicitazione delle stime di massima verosimiglianza di ✓, con ✓ = (⇡, ⇠)0 vettore dei parametri, è la funzione di log-verosimiglianza del

modello CUB, definita nel seguente modo: logL(✓) = m X r=1 nr log(pr(✓)) (2.18) con pr = P r(R = r|✓).

L’algoritmo è composto da due fasi che si ripetono iterativamente fino al raggiungimento della convergenza, momento in cui la verosimiglianza non viene più incrementata dal cambiamento del valore dei parametri. Le fasi sono accuratamente descritte e studiate da Piccolo (2006).

Sono quattro i criteri che Iannario e Piccolo (2015) identificano come utili alla validazione del modello stimato:

• significatività dei parametri, calcolata tramite il test di Wald;

• confronto di log-verosimiglianza, nel caso di modelli nidificati: è utile per analizzare la differenza del valore della log-verosimiglianza rispetto al valore del percentile standard 2, per verificare se il modello più

complesso è anche il modello più adatto a descrivere i dati;

• indici globali che comprendono vari indici che prendono in considerazio- ne la log-verosimiglianza e il suo variare in base al numero di parametri

presenti nel modello. Due esempi sono gli indici BIC (Schwarz et al., 1978) e AIC (Akaike, 1974), di seguito definiti:

BIC = 2`(ˆ✓) + (npar)log(n) (2.19)

AIC = 2`(ˆ✓) + 2(npar) (2.20) Tra gli indici Iannario e Piccolo (2009) citano anche altre due misu- re: una di queste è l’indice ICON (Information CONtent) che misura il miglioramento del modello passando da un modello a distribuzione uniforme al modello CUB. L’indice è così definito:

ICON = 1 + `(ˆ✓)/n

log(m) (2.21)

L’altra misura menzionata per valutare l’adattamento dei dati al mo- dello è l’indice di dissimilarità (Diss), che descrive la proporzione delle unità che andrebbero spostate di categoria per ottenere un adattamen- to perfetto del modello. Considerate fr le frequenze relative osservate

e ˆpr = pr(ˆ✓) le frequenze attese, l’indice è così definito:

Diss = 1 2 m X r=1 |fr pˆr| (2.22)

Un modello con una buona adattabilità ha un indice di dissimilarità inferiore a 0,10.

Per rendere immediata la comprensione dell’efficacia nella previsione del modello, è possibile adottare la seguente formula, che esplicita la percentuale di previsioni corrette del modello:

F2 = 1 1 2 m X r=1 |fr pˆr| (2.23)

Se il modello presenta covariate con k categorie, la formula è genera- lizzata nel seguente modo:

F2 = 1 1 2 k X j=1 nj n m X r=1 |frj pˆrj| (2.24)

• analisi dei residui, controllo e definizione delle caratteristiche dei resi- dui, con metodi classici quali Pearson o analisi specifiche come quelle proposte da Di Iorio e Iannario (2012).

Capitolo 3

Caso studio

In questo capitolo viene presentata l’origine dei dati e la modalità con cui è stata effettuata una pulizia degli stessi. Il risultato della pulizia è dato da dataset con un numero di variabili inferiore rispetto al numero di partenza, in quanto solo alcune sono utili per la comprensione della preferenza dei viaggiatori nei confronti dei luoghi di interesse studiati.

3.1 I dati grezzi

Il modello descritto nel capitolo precedente è stato utilizzato per isolare l’incertezza dei rispondenti dalla loro effettiva preferenza nel campo delle attrazioni turistiche. In particolare, sono oggetto dell’analisi alcune tra le principali attrazioni di Venezia.

Per fare questo, sono stati scelti i dati dalla piattaforma online TripAdvi- sor, selezionando edifici storici, luoghi d’interesse, musei e chiese. Le recen- sioni sono state considerate a partire dalle prime disponibili sul sito fino a quelle del 2018.

I database su cui è stata condotta l’analisi contenevano originariamente trentadue variabili, che sono state in seguito ridotte e modificate.

Le variabili presenti nei database originali possono essere suddivise, a seconda del fatto che si riferiscano all’attrazione, all’utente o alla valutazione dell’utente all’attrazione, nelle categorie di seguito elencate.

• Descrizione dell’attrazione: i valori assunti da queste variabili cam- biano tra database diversi, ma sono sempre uguali all’interno di uno stesso database. Tra queste si trovano: "Tipo di Attività", "Nu- mero dell’attrazione", "Nome dell’attrazione", "Link Relativo all’at- trazione", "Numero Totale di Recensioni", "Valutazione Media del- l’attrazione", "Ranking dell’attrazione", "Categoria dell’attrazione", "Latitudine dell’attrazione".

• Dati dell’utente: i valori assunti da queste variabili sono costanti, nei diversi database, in corrispondenza di utenti che abbiano valutato più attrazioni. All’interno dei singoli database ogni utente, e dunque ogni riga, assume, per queste variabili, valori definiti unicamente dalle pro- prie caratteristiche. Tra queste variabili si trovano: "Link al Profilo dell’Utente", "Nome dell’Utente", "Livello dell’Utente", "Anno di Re- gistrazione", "Numero di Recensioni dell’Utente", "Numero di Valu- tazioni Espresse dall’Utente", "Numero di Città Visitate dall’Utente", "Numero di Fotografie Caricate dall’Utente", "Tag Inseriti dall’Uten- te", "Residenza dell’Utente", "Stato di Residenza dell’Utente", "Città di Residenza dell’Utente", "Fascia d’età dell’Utente", "Genere dell’U- tente", "Numero di Valutazioni: Eccellente", "Numero di Valutazioni: Molto Buono", "Numero di Valutazioni: Nella Media", "Numero di Valutazioni: Scarso", "Numero di Valutazioni: Pessimo".

• Valutazione dell’utente all’attrazione: in questa categoria rientrano le variabili di collegamento tra l’utente e l’attrazione, sono infatti riferite alla valutazione dell’utente relativamente ad un’attrazione. Tra queste variabili si trovano "Codice della Recensione", "Data della Recensione" e "Valutazione Espressa".

Ogni database è stato pulito con lo scopo di contenere soltanto i dati utili all’analisi. Un esempio di variabile che non è stata considerata è quella dei tag inseriti dal rispondente: essendo una funzione utilizzata da un nu- mero esiguo di utenti, avrebbe significativamente ridotto la numerosità dei campioni. Sono inoltre stati rimossi o aggiustati tutti i valori nulli o assenti.

3.2 Le variabili considerate

Le colonne conservate e ripulite sono associate alle variabili riportate nell’e- lenco che segue:

• Valutazione: gli utenti sono chiamati ad assegnare ai luoghi valutati un punteggio su una scala da 1 a 5, dove i valori indicano, nell’ordi- ne, un giudizio "Pessimo", "Scarso", "Nella Media", "Molto Buono", "Eccellente";

• Livello: TripAdvisor ha sviluppato un programma per premiare i re- censori più attivi nella piattaforma. Il nome di questo programma è TripCollective e divide gli utenti in sei livelli. Qualunque contributo porta ad acquisire dei punti: ad esempio, per ogni recensione redat- ta l’utente riceve 100 punti, per ogni foto caricata 30 punti, per ogni punteggio espresso 5 punti. Essere utenti attivi è l’unico modo per avanzare di livello (TripAdvisor, 2020);

• Anno di iscrizione; • Numero di recensioni; • Numero di voti;

• Numero di città visitate; • Numero di fotografie;

• Provenienza: a partire dalle variabili "Residenza dell’Utente", "Stato di Residenza dell’Utente" e "Città di Residenza dell’Utente" si è indi- viduato lo stato di provenienza del rispondente. A partire da questo, ne è stato indicato anche il continente. Le variabili dicotomiche create a partire da queste operazioni sono tre. La prima fa riferimento alla provenienza dall’Italia, con valore 1 in caso affermativo e 0 in caso ne- gativo. La seconda e la terza fanno riferimento, rispettivamente, alla provenienza da Europa e America, con valore 1 in caso affermativo e 0 in caso negativo;

• Età: a partire dalla fascia d’età dell’utente sono state create cinque variabili dicotomiche, una per fascia. La prima fa riferimento agli in- dividui con un’età compresa tra i 18 e i 24 anni, la seconda tra i 25 e i 34, la terza tra i 35 e i 49, la quarta tra i 50 e i 64, la quinta comprende gli individui con più di 65 anni;

• Genere: a partire dal genere dell’utente sono state create due varia- bili dicotomiche, rispettivamente "Uomini" e "Donne", entrambe con valore 1 in caso affermativo e 0 in caso negativo.

Documenti correlati