• Non ci sono risultati.

Individuati i problemi da affrontare e descritti da un punto di vista teorico si ritiene opportuno aggiungere alcune considerazioni necessarie per meglio comprendere come l’analisi dei dati ha avuto modo di essere sviluppata.

Dal punto di vista teorico, per affrontare il problema dell’auto-selezione si dovrebbe conoscere la probabilità (propensione) a rispondere al questionario per ogni individuo, ma in questo elaborato questo dato non è possibile ricavarlo.

Non essendo possibile avere la propensione per singolo individuo è stato necessario assumere l’ipotesi che gli individui all’interno dello stesso strato avessero la medesima propensione di risposta e che quindi avessero lo stesso comportamento all’interno del medesimo strato. Quindi la propensione a rispondere la tengo in considerazione come strumento d’analisi ma, la considero costante per ogni strato.

Per semplificare il processo di analisi si suppone che le unità che costituiscono i vari strati siano state selezionate con un campionamento casuale semplice. Sotto questa ipotesi è verosimile ipotizzare che, per strato, i rispondenti dei vari strati abbiano la stessa propensione a rispondere.

La stratificazione della popolazione, in 4 strati, è stata effettuata tramite la variabile ausiliaria “Provenienza geografica” (nel questionario c’è una domanda con la quale si chiede la regione di provenienza del rispondente). Gli utenti dei vari strati che hanno risposto sono stati considerati tutti nell’analisi dei risultati, senza fare un ulteriore campionamento fra i rispondenti stratificati. Essi rappresentano il campione dei possibili rispondenti (gli utenti unici) di ogni strato.

Visto l’utilizzo degli strati e del campionamento casuale semplice, è opportuno fare un elenco di tutte le etichette che si incontreranno nel proseguo del lavoro. Denotiamo quindi con:

 Nh la dimensione dell’h-esimo strato;

 H il numero degli strati e di righe nelle tabelle;  h= 1,…, H;

 k= 1,…, K;

 ph,k= numero di individui dello strato h-esimo che ha scelto l’opzione k-esima;

 ∑ 𝑁ℎ h=N, dimensione totale della popolazione obiettivo;

 𝑛h (∑ℎ𝑛ℎ=𝑛) la dimensione del campione (la dimensione dello strato dei rispondenti) nel generico strato h;

 𝑌̅ la vera media nello strato h;

 𝑦̅̅̅ lo stimatore della media campionaria nello strato h; ℎ  𝑆2 la varianza elementare nello strato h;

 𝑠2 la varianza elementare del campione nello strato h;  𝑊 =𝑁ℎ

𝑁

⁄ la proporzione della popolazione nello strato h e il conseguente peso di ogni strato;

 ∑ 𝑊 = 1.

 ci è il correction weights (con i che rappresenta gli elementi nello strato h) e si

ottiene calcolando, per strato, il rapporto tra le frequenze relative della popolazione obiettivo e quelle della popolazione campionaria;

 di è l’inclusion weights, ovvero il reciproco della frazione di campionamento,

quindi 𝑁 𝑛;  wi = ci*di.

Tenendo ben presente la simbologia appena elencata, la media della popolazione degli item studiati per ogni strato è calcolata come:

𝑦

̅̅̅ =

𝑘 ∗ 𝑝

ℎ,𝑘

𝑛

La media complessiva di un certo item sarà perciò:

𝑌̅ = ∑𝑘 ∗ 𝑝

ℎ,𝑘

𝑛

𝐻

ℎ=1

Per risolvere i ben noti problemi di sotto-copertura e auto-selezione si associa un peso ad ogni strato in cui la popolazione è stata divisa. Ci sono 2 modi per calcolare i pesi, che però portano agli stessi risultati31.

Il primo considera il peso come Wh= 𝑁ℎ

𝑁, mentre il secondo come wi=ci*di. Nel primo caso la formula per calcolare la media della popolazione sarà:

𝑌̅ = ∑ 𝑊

𝐻 ℎ=1

∑𝑘 ∗ 𝑝

ℎ,𝑘

𝑛

𝐻 ℎ=1

Con l’equazione appena scritta trovo una media rappresentativa dell’intero item e non una per ogni possibilità di risposta (vale a dire una per ogni k). Le medie delle possibili opzioni di risposta sono state sintetizzate e pesate per avere un unico valore corretto. La seconda metodologia è un po’ più articolata e permette di calcolare nuovamente la frequenza assoluta dalla quale viene estratto il campione come verifica che i pesi utilizzati sono effettivamente corretti.

L’ inclusion weight di è calcolato come il reciproco della frazione di campionamento, cioè

𝑁

𝑛. Questo valore costituisce il numero di persone della popolazione obiettivo alle quali corrisponde ogni singolo elemento del campione stratificato. Se mi trovassi nel caso effettivo di un campionamento casuale semplice non avrei bisogno di post-stratificare perché questo rapporto sarebbe costante. Ma così non è. Per questo motivo, al valore di

devo associare ci (correction weight) per correggerlo. Il valore di ci al contrario di di varia

per ogni strato. Da di ne devo prendere una quantità pari a ci, cioè il valore di di sarà

abbassato dove la popolazione è sovra-rappresentata e aumentato quando la popolazione è sotto-rappresentata. Moltiplicando di*ci trovo il peso reale per il quale si devono moltiplicare le frequenze assolute del campione per ottenere le frequenze assolute della popolazione. Tutto ciò serve per riproporzionare il campione rispetto alla popolazione.

31 Il motivo per cui si hanno i medesimi risultati è perchè se si semplificano le 2 formule di partenza esse

Il peso ci è trovato come il rapporto:

𝑐

𝑖

=

𝑁

⁄𝑁

𝑛

⁄𝑛

=

𝑁

∗ 𝑛

𝑁 ∗ 𝑛

Come nel primo metodo, la formula per calcolare la media di strato sarà:

𝑌̅ = ∑ 𝑐

𝑖 𝐻 ℎ=1

∑𝑘 ∗ 𝑝

ℎ,𝑘

𝑛

𝐻 ℎ=1

Vediamo con un esempio teorico come con questo metodo si trovano i pesi corretti affinché ci sia un corretto ri-proporzionamento tra popolazione campionaria e popolazione obiettivo. Per prima cosa si stratifica la popolazione campionaria e obiettivo in h strati (per comodità anche in questo caso teorico si stratificherà con la provenienza geografica). Poi per ogni strato si calcolano le frequenze assolute e relative delle 2 popolazioni. Quanto detto si può ritrovare nella tabella sottostante:

Tabella 3: Calcolo delle frequenze assolute e relative

Prov. Geografica

F.A. Camp F.R. Camp. F.A. Pop. F.R. Pop.

ITALIA NO nno nno /n Nno Nno/N

ITALIA NE nne nne /n Nne Nne/N

ITALIA C nc nc /n Nc Nc/N

ITALIA S ns ns/n Ns Ns/N

TOTALE n n/n N N/N

Fonte 8: libro “Web surveys”

I correction weights di ogni strato si calcolano facendo il rapporto tra le frequenze relative della popolazione e quelle del campione. Per cui i ci saranno trovati come:

Tabella 4: Calcolo del peso ci

Prov. Geografica F.R. Camp. F.R. Pop. Ci

ITALIA NO nno/n Nno/N (Nno/N)/( nno /n)

ITALIA NE nne /n Nne/N (Nne/N)/( nne /n)

ITALIA C nc /n Nc/N (Nc/N)/( nc/n)

ITALIA S ns/n Ns/N (Ns/N)/( ns /n)

TOTALE n/n N/N (N/N)/(n/n)

Moltiplicando i valori di ci per l’inclusion weight di (

𝑁

𝑛)si trova il valore di rappresentazione che moltiplicato ulteriormente per la frequenza campionaria riporta al valore della frequenza assoluta della popolazione obiettivo per ogni strato. In formule:

𝑁

= 𝑐

𝑖

∗ 𝑑

𝑖

∗ 𝑛

Il metodo che è stato appena descritto serve, quindi per tornare alle distribuzioni di frequenza iniziali.

Per ogni media che viene calcolata rispetto a certi valori è possibile calcolare la relativa varianza. Purtroppo non c’è un’espressione analitica esatta per la varianza post- stratificata dello stimatore della media post-stratificato. C’è però un’approssimazione per grandi campioni pari a:

V(𝑦̅̅̅̅̅) =

𝑃𝑆 𝑁−𝑛 𝑛𝑁

*∑

(

𝑁 𝑁 𝐻 ℎ=1

)𝑆

ℎ2

+

1 𝑛2

𝑁−𝑛 𝑁−1

∗ ∑

(

𝑁−𝑁 𝑁 𝐻 ℎ=1

)𝑆

ℎ2

con Sh2 che rappresenta la varianza di ogni singolo strato e sarà pari a

𝑠

2

=

(𝑦

𝑖

− 𝑦̅)

2

𝑛

Si divide per nh e non per Nh perché i dati che si hanno a disposizione sono sul campione

e non sulla popolazione intera. Poi una volta ottenuti i dati sul campione li estenderò all’intera popolazione di riferimento (quella degli utenti unici). La varianza post- stratificata, che a seconda del raccoglitore studiato subirà qualche piccolo cambiamento, sarà poi successivamente utilizzata per calcolare gli intervalli di fiducia, con un livello di confidenza al 99%, 95% e 90%.

Per intervallo di confidenza di un parametro (per esempio la media 𝑌̅) si intende un intervallo racchiuso in 2 limiti: Linf (limite inferiore) e Lsup (limite superiore) che abbia una determinata probabilità (1-α) di contenere il vero parametro della popolazione. (1-α) è il livello di confidenza che rappresenta il grado di attendibilità del nostro intervallo.

In formule:

con:

 1-α= grado di confidenza  α= probabilità di errore

Esplicitando il limite inferiore e superiore l’intervallo di confidenza per 𝑋̅ sarà:

I.C.=( 𝑌̅-𝑧

α 2

*√

V(𝑦̅ps) 𝑛

; 𝑌̅+𝑧

α2

*√

V(𝑦̅ps) 𝑛

)

dove:

 𝑋̅ è lo stimatore media campionaria;  Z𝛼

2 è il quantile della distribuzione normale standard;  V(𝑦̅ps) è la varianza della popolazione di riferimento;

 n è l’ampiezza campionaria, che però è già stato preso in considerazione nella formula della varianza post-stratificata e quindi non lo dovrò prendere nuovamente in considerazione. Alla luce di ciò la formula sarà più corretta scritta cosi:

I.C.=( 𝑋̅-𝑧

α 2

*√

V(𝑦

̅

ps)

; 𝑌̅+𝑧

α 2

*√

V(𝑦

̅

ps)

)

A questo punto, dopo aver spiegato dal punto di vista teorico ogni formula che sarà utilizzata nell’elaborato, è arrivato il momento di addentrarsi nel vivo dell’indagine. Nei prossimi capitoli vedremo l’applicazione pratica di quanto è stato detto fino ad ora.

Documenti correlati