• Non ci sono risultati.

Coefficienti di regressione dei modelli Variabili ausiliarie Modello con variabili

Nel documento 6 La valutazione della qualità (pagine 143-147)

Disegno di campionamento, processo di stima e attendibilità delle stime prodotte 60

Tavola 1-3 Coefficienti di regressione dei modelli Variabili ausiliarie Modello con variabili

individuali

Modello con variabili individuali e di area Modello completo Intercetta -5,711 -6,905 -7,067 Classe di età 10-29 0,075 0,074 0,072 Classe di età 30-49 0,048 0,046 0,041 Classe di età 50-74 -0,555 -0,555 -0,564 Classe di età ≥75 -0,481 -0,480 -0,488 Sesso (femmine) -0,164 -0,166 -0,168 Flag straniero 2,395 2,395 2,848 Tasso disoccupazione 10,411 10,489 Città universitaria 0,826 0,826

Densità di popolazione 9,505e-05 9,178e-05

Tasso stranieri 4,594 6,817

Flag straniero * Tasso stranieri -5,795

Una volta calcolate le probabilità di esser stato conteggiato, o meno, al Censimento, esse sono state mediate a livello comunale, così da produrre un dettaglio locale dei valori d’interesse.

La distribuzione ordinata dei valori predetti, relativi ai 252 comuni campione, è stata suddivisa in tre categorie, sulla base del 40° e dell’80° percentile, ottenendo una partizione, del tipo, 40 per cento-40 per cento-20 per cento della distribuzione.

Pertanto i comuni più virtuosi (il 40 per cento del totale di quelli campione), dal punto di vista della corretta enumerazione degli individui abitualmente dimoranti, sono stati categorizzati con la modalità HtC p 1, i comuni che si trovano in una situazione intermedia, con la modalità HtC

2 

stata assegnata la modalitàp3 dell’indice. Le modalità dell’indice HtC utilizzate nel modello sono:

p1 ‘enumerazione facile’;

p2 ‘enumerazione di media difficoltà’;

p3 ‘enumerazione difficile’.

Essendo interessati alla categorizzazione della totalità dei comuni italiani, questa categorizzazione delle probabilità predette è stata applicata anche alle probabilità dei comuni fuori dal campione selezionato, calcolate usando la sola parte sintetica del modello logistico multilevel descritto sopra. La ricchezza di informazioni disponibili ha permesso uno studio dettagliato, mai svolto finora, sugli individui più difficili da raggiungere nel corso del Censimento della popolazione. La figura 1.4 mostra la distribuzione dell’HtC nei comuni italiani:

Figura 1.4 - Distribuzione del HtC nei comuni italiani

Livello 1 in verde, livello 2 in blu, livello 3 in rosso.

I comuni più virtuosi, contrassegnati dal colore verde, sono distribuiti prevalentemente lungo le zone alpine ed appenniniche, in centri prevalentemente medio-piccoli. I comuni che si trovano in una situazione intermedia rispetto al fenomeno d’interesse, colorati in blu, sono i più numerosi e coprono la maggior parte del territorio nazionale. Le situazioni più problematiche, contraddistinte dal colore rosso nel cartogramma, mettono in evidenza come i grandi centri (Roma, Milano, Napoli, Firenze, Bari ecc.) abbiano più problemi di sovra e sotto copertura rispetto ai piccoli comuni. Dalla figura emerge anche una predominanza di comuni con HtC3 lungo le coste, soprattutto in zone balneari; tale problematica si collega a quella della copertura per evidenti motivi legati alle case di villeggiatura e alla mobilità dei lavoratori stagionali.

1.7 Attendibilità delle stime dei tassi di sotto e sovra-copertura

Le stime prodotte da un’indagine campionaria sono sempre affette da errore; per questo motivo, è necessario associare ad ogni stima una misura della sua precisione o incertezza. Limitatamente alla variabilità campionaria e quindi all’errore campionario86, il problema della stima della precisione degli stimatori è correntemente noto come problema della stima della varianza, in considerazione della preminenza degli stimatori corretti o asintoticamente corretti. La determinazione di stime statisticamente e computazionalmente efficienti della varianza delle stime dei parametri di interesse è, pertanto, un aspetto cruciale per la valutazione della qualità delle stime stesse. A tale scopo, vengono generalmente utilizzati altri indicatori (coefficiente di variazione, intervalli di confidenza) immediatamente derivabili dalla varianza.

L’attendibilità delle stime dei parametri di interesse dell’indagine PES è stata valutata in base ai valori dei coefficienti di variazione e degli intervalli di confidenza, basati sulla stima della varianza delle stime prodotte dall’indagine calcolata applicando il metodo bootstrap.

Questo metodo, proposto solo di recente (Efron, 1979), è sostanzialmente un metodo di valutazione per via numerica, dalle caratteristiche distributive di uno stimatore di qualsiasi natura e, quindi, particolarmente utile nel caso di stimatori dalla struttura analitica complessa, con riferimento ai quali i metodi standard e il metodo di linearizzazione di Taylor richiedono complesse derivazioni matematiche per il calcolo della varianza delle stime. Esso, inoltre, è adattabile anche al contesto di piani di campionamento a più stadi di selezione (Efron, Tibshirani, 1993; Wolter, 2007).

Qui di seguito si descrivono le fasi metodologicamente più importanti per applicare il metodo bootstrap all’indagine in esame:

a) la prima fase persegue la finalità di costruire una pseudo-popolazione dalla quale generare i campioni bootstrap.

A tale scopo, è necessario riflettere in essa la struttura della popolazione usata nella formazione del campione PES, che presenta in ciascuno degli strati d’indagine le seguenti caratteristiche essenziali:

 stratificazione delle unità di primo stadio, ossia dei comuni;

 selezione di un solo comune campione dagli strati NAR con probabilità variabile;

 stratificazione della popolazione delle unità di secondo stadio, costituite dalle sezioni di Censimento, sia dentro ciascun comune campione NAR che in ciascun comune AR costituente strato a sé stante, in base alla dimensione demografica delle sezioni di Censimento secondo le tre modalità definite dai terzili della distribuzione della popolazione in questione;

 selezione, con probabilità uguali e senza ripetizione, di un prefissato numero di sezioni di Censimento da ciascuno degli strati di cui al precedente punto.

Passiamo ora a descrivere i punti salienti della procedura utilizzata per la costruzione della pseudo-popolazione in discussione:

in ciascuno degli strati NAR, si copia il corrispondente comune campione un numero di volte pari al rispettivo peso campionario (pseudo-popolazione di primo stadio).

      

86 L’errore campionario deriva dall’aver osservato la o le variabili di interesse solo su una parte (campione) della popolazione a differenza dell’errore non campionario che deriva ad esempio da errori nelle liste della popolazione usate per selezionare le unità del campione o mancate risposte parziali dovute a risposte mancanti o non ammissibili a causa di errori di rilevazione o di registrazione.

Si copia poi ciascuna delle sezioni di Censimento campione, afferenti ad ognuno degli strati di secondo stadio definiti nel suddetto comune, un numero di volte pari al rispettivo peso campionario (pseudo-popolazione di secondo stadio).

 Riunendo la pseudo-popolazione di primo stadio e le tre di secondo stadio, si ottengono tre pseudo-popolazioni costituite da due stadi di selezione.

 per ciascuno degli strati AR (ossia, per ogni comune AR), si costruiscono le pseudo-popolazioni relative ai tre strati di sezioni di Censimento con un procedimento analogo a quello esposto per il comune NAR.

b) la seconda fase consiste nel costruire le repliche bootstrap estraendo  con ripetizione  dalle pseudo-popolazioni sopra descritte un certo numero di campioni di dimensioni uguali a quelle del campione PES.

c) per ciascuno dei B ( B1.000) campioni così costruiti (campioni bootstrap) si calcolano le stime bootstrap ˆ (b b1 ,, ,B) del parametro  mediante uno stimatore avente una forma funzionale uguale a quella dello stimatore ˆ adottato per l’ottenimento delle stime dell’indagine (basate sull’utilizzo dei dati osservati con il campione originario).

d) la varianza di campionamento bootstrap dello stimatore ˆ è agevolmente ottenibile tramite l’utilizzo della formula

   

 

2 1 1 1 ˆ 1 1 ˆ ˆ

 

    B b B b b b BS B B V    .        (39) 

e) a questo punto, è possibile:

 calcolare il coefficiente di variazione percentuale espresso da

 

 

ˆ ˆ ˆ

 

ˆ 100    BS BS V CV        (40) 

definire un intervallo di confidenza standard al livello di fiducia del 95 per cento, assumendo che lo stimatore sia distribuito secondo una normale o in modo approssimativamente normale

  ˆ1,96 VˆBS

 

ˆ .       (41) 

I coefficienti di variazione e gli intervalli di confidenza, inerenti alle stime dei tassi di copertura obiettivo della presente indagine, ottenuti attraverso la metodologia appena descritta, sono riportati nel capitolo quarto, per ogni dominio di stima.

CAPITOLO 2

Fasi post-rilevazione

87

Nel documento 6 La valutazione della qualità (pagine 143-147)