2.3 COPERTURA, SOTTO-COPERTURA E AUTO-SELEZIONE
2.3.3 LA POST-STRATIFICAZIONE
La post-stratificazione è una tecnica comune utilizzata per ottenere stime più precise nei campioni statistici nelle indagini. Questa tecnica se usata correttamente, aumenta la rappresentatività del campione avendo così una fiducia maggiore nell’inferenza fatta sulla popolazione oggetto di studio.
I vantaggi della stratificazione sono sostanzialmente 2: avere un campione più rappresentativo della popolazione e aumentare la precisione degli stimatori riducendo la loro varianza.
La post-stratificazione comporta che la popolazione obiettivo dello studio sia suddivisa in alcuni gruppi denominati strati. Un campione viene selezionato da ogni gruppo, cosi le stime possono essere calcolate per ogni gruppo separatamente. Il passo successivo sarà quello di combinare le stime dei vari gruppi per avere una stima dell’intera popolazione. Per essere applicata, la post-stratificazione, richiede l’uso di alcune variabili ausiliarie, cioè variabili che sono misurate nell’indagine e per le quali è disponibile sia la distribuzione della popolazione campionaria che della popolazione obiettivo.
Tipiche variabili ausiliarie possono essere il genere, l’età, lo stato civile, la regione di provenienza.
Le variabili ausiliare per la post-stratificazione devono soddisfare 3 condizioni: Devono essere misurate sia nel campione che nella popolazione;
La distribuzione della loro popolazione (N1, N2, …, NL) deve essere conosciuta; Devono essere strettamente collegate con tutte le variabili oggetto di studio. Si può valutare se le risposte dell’indagine siano rappresentative per la popolazione (rispetto alla variabile ausiliare scelta) comparando la distribuzione delle risposte nel
campione stratificato con quella stessa variabile della popolazione alla quale il campione si riferisce dopo che entrambe le popolazioni, campionaria e obiettivo, sono state suddivise in gruppi secondo la variabile ausiliaria scelta. Se queste 2 distribuzioni differiscono considerevolmente, il ricercatore dovrebbe dire che il campione manca di rappresentatività rispetto alla popolazione obiettivo. Per ovviare a questo problema e correggerlo, si devono compiere delle correzioni con dei pesi da associare ai risultati ottenuti nel campione. Così facendo le stime della popolazione sono ottenute usando valori “pesati” invece che i valori reali.
La post-stratificazione, quindi, è una tecnica che tenta di creare un campione rappresentativo dopo che i dati sono stati raccolti. E questo risultato si ottiene, come detto, assegnando dei pesi ai vari strati.
Se si hanno dei gruppi sotto-rappresentati sarà associato loro un peso maggiore di 1, oppure minori di 1 in caso di sovra-rappresentazione. Si può considerare il problema della sovra- rappresentazione che della sotto-rappresentazione sia all’interno degli strati del campione, quindi avere degli strati più rappresentativi di altri, sia che all’interno degli strati della popolazione da cui viene estratto il campione. Successivamente saranno fatti i calcoli ad hoc per l’indagine studiata.
La post-stratificazione è particolarmente efficiente negli strati omogenei. Questo significa che le persone all’interno di uno strato si somigliano tra loro. In questo caso post- stratificare non aumenterà solo la precisione delle stime, ma ridurrà anche i possibili bias. La post-stratificazione è usata come metodo per affrontare sia la sotto-copertura che l’auto-selezione.
Vediamo la post-stratificazione da un punto di vista teorico.
Si suppone di avere una variabile ausiliaria X che è divisa in L categorie. La popolazione obiettivo viene suddivisa secondo gli L strati della variabile X. La popolazione è indicata con U e gli strati ottenuti saranno U1, U2,…UL.
Il numero di elementi della popolazione individuati in ogni strato sarà Nh con h=1, 2,…L. Quindi la dimensione della popolazione N è uguale a:
N=N1+N2+…..NL.
Si suppone di selezionare un campione casuale semplice di dimensione n dalla popolazione che ha l’accesso a Internet. Se nh indica il numero degli elementi del
campione dello strato h, si avrà che:
I valori di nh sono il risultato di un processo di selezione casuale. Si ricorda che la
popolazione che ha una connessione Internet è un sottoinsieme della popolazione generale, e solamente questa sub-popolazione potrà essere analizzata (UI ∩ Uh).
La post-stratificazione assegna un peso identico a tutti gli elementi che appartengono allo stesso strato. Il peso wk per un elemento k nello strato h è uguale a:
𝑤
𝑘=
𝑁
ℎ⁄𝑁
𝑛
ℎ⁄𝑛
Applicando la post-stratificazione contro la sotto-copertura allo stimatore della media della popolazione trovata precedentemente si ottiene la media pesata:
𝑦̅
𝐼,𝑃𝑆=
1𝑛
∑
𝑎
𝑘𝑤
𝑘𝐼
𝑘𝑌
𝑘𝑁 𝑘=1
Sostituendo i pesi e sviluppando l’equazione si ottiene lo stimatore post-stratificato della media:
𝑦̅
𝐼,𝑃𝑆=
1
𝑁∑ 𝑁
ℎ 𝐿 ℎ=1𝑦̅
𝐼(ℎ)= ∑ 𝑊
ℎ𝑦̅
𝐼(ℎ) 𝐿 ℎ=1 Dove: 𝑦̅𝐼(ℎ)è la media del campione nello strato h; 𝑊𝐻 =𝑁ℎ
𝑁 è il peso dovuto alla dimensione dello strato h rispetto al totale. Il valore atteso30 dello stimatore post-stratificato è uguale a:
𝐸(𝑦̅
𝐼,𝑃𝑆) =
1 𝑁∑
𝑁
ℎ 𝐿 ℎ=1E(𝑦
𝐼 (ℎ)̅̅̅̅̅
)= ∑
𝐿𝑘=1𝑊
ℎ𝑌̅
𝐼(ℎ)= 𝑌̃
𝐼dove 𝑌̅𝐼(ℎ) è la media della variabile oggetto di studio nello strato h della popolazione che ha accesso a Internet. In genere, come già detto più volte, questa media non è uguale alla media 𝑌̅̅̅̅̅, cioè della media della popolazione oggetto di studio nello strato h. Sarà (ℎ) presente un errore (una differenza) tra le 2 medie, ma quest’ultimo sarà mitigato dalla presenza del peso.
30 Rispetto ad una variabile casuale discreta (cioè che assume solo un numero finito o un’infinità
Di seguito si propone la formula per il calcolo dell’errore con la post-stratificazione:
𝐵(𝑦̅
𝐼,𝑃𝑆) = 𝐸(𝑦̅̅̅̅̅̅) − 𝑌̅=𝑌
𝐼,𝑃𝑆̃ − 𝑌̅ = ∑
𝐼 𝐿𝑊
ℎ(𝑌̅ − 𝑌
𝐼̅̅̅̅̅
(ℎ) ℎ=1=
=∑
𝑊
ℎ𝑁𝑁𝐼,ℎ 𝑁ℎ(𝑌
𝐼 (ℎ)̅̅̅̅̅
− 𝑌̅̅̅̅̅
𝑁𝐼(ℎ))
𝐿 𝑘=1dove NNI,h è il numero degli elementi dello strato h che non hanno accesso a Internet, di cui, perciò, non avremo informazioni e ciò contribuirà ad aumentare il bias.
Il bias sarà più piccolo se non c’è (rispetto alla media) differenza tra gli elementi con e senza Internet. Questa situazione si ha nel caso in cui c’è una forte relazione tra la variabile studiata Y e la variabile ausiliaria X. Gli strati sono omogenei rispetto alla variabile studiata.
Se dopo l’applicazione della post-stratificazione l’errore sarà ridotto, la metodologia applicata avrà avuto successo.
Come già scritto in precedenza, non è possibile determinare con certezza la probabilità di essere selezionati nel campione, quindi, è stato ritenuto opportuno, per poter condurre la ricerca, considerare coloro che hanno compilato il questionario come se fossero il frutto di un campionamento casuale semplice. Con questo tipo di campionamento si può conoscere a priori la probabilità di essere inclusi nel campione, e questa probabilità di inclusione è pari a 𝑛
𝑁 . Tutti i componenti della popolazione, e quindi anche tutti i membri dei vari strati hanno la medesima probabilità e possibilità di essere inclusi nel campione. Con la presenza del peso Wh , anche le formule relative alla auto-selezione saranno
differenti. Infatti avremo per lo strato h (con h cha va da 1 a H) la media campionaria per coloro che hanno risposto sarà pari a
𝑦̅̅̅̅̅̅ =
𝑅,𝑃𝑆1
𝑛
𝑅∑ 𝑊
ℎ𝑎
ℎ𝐻
ℎ=1
𝑅
ℎ𝑌
ℎche potrebbe essere anche vista come:
𝑦
𝑅,𝑃𝑆̅̅̅̅̅̅ = ∑ 𝑊
ℎ𝐻
ℎ=1
𝑦̅
𝑅(ℎ)Il valore atteso di questo stimatore post-stratificato sarà pari a:
𝐸(𝑦̅̅̅̅̅̅ = ∑ 𝑊
𝑃𝑆)
ℎ𝐻
ℎ=1
𝑌̃
(ℎ)In genere il valore atteso non sarà mai uguale alla media della variabile studiata nello strato h, quindi ci sarà un errore frutto di questa differenza. Per diminuire anche questa differenza sarà utilizzato il peso Wh. Il bias sarà quindi:
𝐵(𝑦̅̅̅̅̅) = ∑ 𝑊
𝑃𝑆 ℎ 𝐻 ℎ=1(𝑌̃ − 𝑌
(ℎ)̅̅̅̅̅) = ∑ 𝑊
(ℎ) ℎ 𝐻 ℎ=1𝑅
𝑝𝑌(ℎ)𝑆
𝑝(ℎ)𝑆
𝑌(ℎ)𝑝
(ℎ)̅̅̅̅̅
Dove l’apice h indica che le quantità in questione sono calcolate solo per lo strato h e non per l’intera popolazione.
Il bias sarà minore se:
La propensione di risposta è simile all’interno degli strati;
I valori della variabile studiata sono simili all’interno degli strati;
Non c’è correlazione tra il comportamento di risposta e la variabile studiata all’interno degli strati.
Queste condizioni possono essere realizzare se c’è una forte relazione tra la variabile studiata (target) e la variabile con cui si è stratificato il campione e la popolazione; poi la variazione dei valori della variabile target si manifestano tra gli strati e non all’interno dello strato. In altre parole, gli strati sono omogenei rispetto alla variabile studiata. Dal punto di vista teorico siamo di fronte ad una situazione racchiusa nelle equazioni scritte sopra che spiegano che i fenomeni appena descritti possono portare ad avere dei risultati assolutamente non rappresentativi della popolazione. Questi ultimi devono essere quindi corretti tramite la post-stratificazione delle metodologie per riuscire a far diminuire il più possibile gli errori che caratterizzano questo tipo di indagine. Nella misura in cui mi allontano da quanto detto sopra per correggere le distorsioni, più si avranno dei valori lontani dalla verità.