• Non ci sono risultati.

2.3 COPERTURA, SOTTO-COPERTURA E AUTO-SELEZIONE

2.3.2 L’AUTO-SELEZIONE

In un loro articolo Horvitz e Thompson (1952) ricordano che possono essere compiute delle stime senza errori delle caratteristiche della popolazione solo se si può costruire un campione di una popolazione dove ogni soggetto di quest’ultima ha una probabilità non nulla di essere selezionato nel campione, e tutte queste probabilità sono conosciute dal ricercatore. Quindi solo sotto queste condizioni si possono avere delle stime accurate e corrette.

Purtroppo molte Web surveys non sono basate su un campionamento probabilistico (a meno che per esempio non si voglia mandare un’indagine via e-mail ad una popolazione dove ogni elemento ha sicuramente un indirizzo di posta elettronica. Cosi la web survey potrebbe essere condotta con un campionamento probabilistico). Il questionario è semplicemente messo sul Web. Ed è qui che entra in gioco l’auto-selezione: i rispondenti al questionario solo coloro che hanno Internet, che visitano il sito Web dove si trova l’indagine e decidono di parteciparvi. Il ricercatore non ha nessun potere nell’ambito della selezione degli individui che andranno a comporre il campione.

Il ricercatore deve sperare, per avere il questionario compilato, che nella popolazione ci siano molti individui che: abbiano Internet, si imbattano nel questionario posto sui siti, decidano di compilarlo interamente (senza abbandonarlo durante la compilazione). Perciò non si possono avere né stime senza errore né possono essere condotte delle stime accurate.

La probabilità di selezione è sconosciuta e, inoltre, questo tipo di probabilità di auto- selezione (e quindi di far parte dell’indagine), è considerevolmente più piccola della probabilità tradizionale di inclusione. Siamo di fronte ad una possibile mancanza di rappresentatività del campione che si è creato rispetto alla popolazione di riferimento. Non si possono, considerando queste ipotesi, fare delle stime senza errore, né può essere determinata l’accuratezza della stima, né stimatori senza errori riprendendo l’idea di Horvitz e Thompson.

L’auto-selezione porta con se un altro problema: la non-risposta. Ciò vuol dire non avere nessuna informazione su tutti gli individui che fanno parte della popolazione obiettivo ma che o non hanno Internet, o non incontrano sul Web il questionario o semplicemente decidono di non compilarlo. Questo fenomeno ha degli effetti sostanziali sulla dimensione campionaria: sarà molto più piccola di quella attesa. La ridotta dimensione inficia sull’accuratezza dell’analisi, ma comunque offre valide stime sulla popolazione. Questo, però, è un problema che può essere risolto prendendo la dimensione iniziale campionaria più grande.

Un altro effetto della non-risposta, ben peggiore del precedente, è che le stime delle caratteristiche della popolazione possono essere accompagnate da un errore se nel campione alcuni gruppi della popolazione obiettivo sono sotto o sovra rappresentati e che essi si comportino diversamente dalla popolazione campionaria rispetto alle variabili investigate. La conseguenza, assolutamente da evitare, è trarre conclusioni sbagliate dai dati ottenuti dall’indagine.

Far parte del campione dipende dalla decisione umana se compilare o meno il questionario. Se fosse possibile comprendere chiaramente come questo meccanismo di scelta lavora, questa conoscenza potrebbe essere usata per correggere le stime. Sfortunatamente questa conoscenza non è disponibile.

Vediamo da un punto di vista teorico il concetto dell’auto-selezione e di come si crea un campione auto-selezionato.

Si definisce con:

 U, la popolazione oggetto di indagine;

 N, il numero indefinito degli elementi che compongono la popolazione;  k, un elemento qualsiasi della popolazione;

 Yk, un valore qualsiasi della variabile oggetto di studio;  ak, gli elementi che sono compresi (selezionati) nel campione;

 ph, la probabilità di risposta.

Si ha la popolazione dell’indagine U costituita da N elementi identificati, che sono numerati 1,2,…,N. Ad ogni elemento k è associato un valore sconosciuto Yk della variabile che si sta studiando. Il vettore di tutti i valori della variabile target è cosi indicato:

Y= (Y

1

, Y

2

, …, Y

N

)

.

Obiettivo dell’indagine campionaria è stimare una media della popolazione:

𝑌̅ =

1

𝑁∑ 𝑌

𝐾

𝑁

𝑘=1

Per stimare il parametro di questa popolazione, viene selezionato un campione casuale semplice senza re-immissione. Il campione può essere rappresentato dal vettore

a=(a

1,

a

2, …,

a

N

)’.

Il valore ak assume valore 1 se l’elemento è selezionato nel campione e valore 0 qualora

non ci rientri.

Nel caso di un campionamento casuale semplice senza ripetizione la media del campione:

𝑦̅ =

1

𝑛∑ 𝑎

𝑘

𝑁

𝑘=1

𝑌

𝑘

è uno stimatore senza errore della media della popolazione.

Come, però, è stato più volte ricordato si ha il problema della non-riposta nell’indagine. Per questo di assume che ogni elemento k della popolazione ha una certa e indefinita probabilità di risposta pk. Se l’elemento k è selezionato nel campione, viene attivato un

meccanismo casuale tale per cui si ha una probabilità di risposta pari a pk e una probabilità

di non risposta pari a (1-pk).

Sotto queste condizioni, possono essere introdotti degli indicatori di risposta:

R

1

, R

2, ...,

R

N

con:

 Rk=1 se l’elemento k corrispondente risponde;  Rk=0 negli altri casi.

Quindi se l’individuo risponde al questionario avremo una probabilità pari a:  P(Rk=1)= ph.

Se, invece, l’individuo non risponde, la probabilità sarà:  P(Rk=0)= 1- pk.

Alla luce di quanto appena scritto, i rispondenti al questionario saranno gli elementi k che avranno:

 ak= 1;  Rk= 1.

Quindi, il numero degli elementi disponibili all’indagine sarà pari a:

𝑛

𝑅

= ∑ 𝑎

𝑘

𝑁

𝑘=1

𝑅

𝑘

.

Invece, il i numero dei non-rispondenti sarà pari a:

𝑛

𝑁𝑅

= ∑ 𝑎

𝑘

𝑁

𝑘=1

(1 − 𝑅

𝑘

),

dove n= nR + nNR.

I valori della variabile target, però, diverranno disponibili solo per gli elementi rispondenti nR.

La media di questi valori sarà uguale a:

𝑦

𝑅

̅̅̅ =

1

𝑛

𝑅

∑ 𝑎

𝑘 𝑁 𝑘=1

𝑅

𝑘

𝑌

𝑘

.

La media cosi trovata, quasi sicuramente, non potrà essere uguale alla media che si potrebbe trovare per l’intera popolazione obiettivo perché nei calcoli non possono essere presi in considerazione tutti quegli elementi che avrebbero potuto rispondere al questionario, ma, per qualche motivo, non l’hanno fatto. Più nR sarà più piccolo di n,

maggiore sarà l’errore che accompagna la stima della media.

Per quantificare l’errore è necessario considerare prima il valore atteso, per la popolazione dei rispondenti, della media della variabile target. Quest’ultimo sarà uguale a:

E(𝑦̅̅̅̅̅ ≈ 𝑌̃

𝑅

)

dove

𝑌̃ =

1

𝑁∑

𝑝

𝑘

𝑝̅

𝑁 𝑘=1

𝑌

𝑘

e

𝑝̅ =

1

𝑁∑ 𝑝

𝑘

𝑁

𝑘=1

rappresenta la media di tutte le probabilità di risposta della popolazione che appartiene a Internet. Come si può osservare dall’equazione, il valore atteso della media di coloro che hanno risposto non è la stessa di quella stimata per la popolazione obiettivo. Il motivo della differenza è rappresentato dal peso della propensione a rispondere. Quindi lo stimatore della media è accompagnato dal seguente bias:

𝐵(𝑦̅̅̅) = 𝑌̃ − 𝑌̅ =

𝑅

𝐶

𝑝𝑌

𝑝̅

=

𝑅

𝑝𝑌

𝑆

𝑝

𝑆

𝑌

𝑝̅

Dove

𝐶

𝑝𝑌

= 1

𝑁∑(𝑝

𝑘 𝑁 𝑘=1

− 𝑝̅)(𝑌

𝑘

− 𝑌̅)

è la covarianza tra la probabilità di risposta e i valori della variabile obiettivo; 𝑅𝑝𝑌 è il relativo coefficiente di correlazione, SY è la deviazione standard della variabile Y e Sp è la deviazione standard della probabilità di risposta.

L’approccio appena descritto, prende in considerazione come elemento conseguente dell’auto-selezione la probabilità di risposta, cioè essa è l’elemento che fa variare i valori ottenuti da quelli attesi. Quindi per abbassare il più possibile il bias è necessario lavorare su questa probabilità. Si assume che ogni rispondente abbia una certa probabilità conosciuta di rispondere al questionario, qualora gli venisse chiesto di farlo. Ovviamente questa probabilità è sconosciuta. L’idea è quella di stimare la probabilità di risposta usando i dati disponibili. Se è possibile ottenere buone stime della probabilità di risposta, esse possono essere utilizzate per migliorare gli stimatori delle caratteristiche della popolazione. Stimare la probabilità di risposta dipende principalmente dal modello usato. Un modello che viene spesso usato è un modello logistico (logit model) che tenta di predire la probabilità di risposta usando variabili ausiliarie. Tuttavia questo approccio richiede che siano disponibili i valori di queste variabili sia per i partecipanti che per i non-partecipanti all’indagine.

Nel caso studiato, sfortunatamente, non si ha modo di stimare le probabilità di risposta dei singoli rispondenti. Per questo motivo si ipotizza una probabilità di risposta costante

all’interno di ogni strato (nel paragrafo successivo si parlerà della stratificazione) in cui è divisa la popolazione campionaria e obiettivo. La probabilità sarà uguale al rapporto tra il numero dei rispondenti e i rispondenti possibili. Quindi la probabilità di risposta sarà presa in considerazione, non per singolo individuo ma per strato.

La probabilità, intesa come rapporto tra numero dei rispondenti e i rispondenti possibili per singolo strato, può essere vista come un peso utilizzato per correggere le stime. Quindi la distorsione dell’auto-selezione, cosi come quella della sotto-copertura, verrà affrontata attraverso il metodo della post-stratificazione.

Documenti correlati