• Non ci sono risultati.

3. COSTRUZIONE DI UN INDICE AGGREGATO S

3.3 IMPUTAZIONE DEI DATI MANCANTI

Nella ricerca empirica è abbastanza comune imbattersi nel problema dei dati mancanti, soprattutto quando vengono condotte indagini statistiche basaste su questionari. La presenza di dati mancanti può avere influenze sulle proprietà di stimatori come media, varianza, coefficienti di regressione, ottenendo di conseguenza risultati inferenziali non corretti. È utile sia determinare se il meccanismo che ha generato i dati mancanti è di tipo casuale sia appurare la presenza di relazioni tra i valori mancanti e i dati effettivamente rilevati (Boscaino, Sulis, 2006).

I dati statistici sono esposti al rischio d’errori di rilevazione. Vi sono due cause principali di incompletezza dei dati in una ricerca statistica,

la mancata risposta totale (unit non-response)

il totale fallimento della rilevazione presso un’unità statistica comporta la totale assenza dell’informazione per quella unità;

mancata risposta parziale (MRP)

è assente la risposta ad una singola domanda, quindi per una unità non sono disponibili i valori di alcune variabili (Guarnera, 2004).

La mancata risposta è considerata errore perchè, soprattutto per certe variabili

critiche, le unità che non collaborano del tutto o in parte alla rilevazione (“non rispondenti”) tendono a essere diverse da quelle che collaborano (“rispondenti”), e ciò restringe, o comunque complica la possibilità di generalizzare i risultati dell’analisi (Fabbris, 1997). Le due strategie maggiormente utilizzate per affrontare il problema dei dati mancanti sono:

analisi dei casi completi

che impone di scartare tutte le unità con valori mancanti, come descritto meglio nel successivo paragrafo 3.3.1;

imputazione dei dati mancanti

in cui i valori mancanti vengono sostituiti con valori prodotti artificialmente in modo da riprodurre un set di dati completo; l’aspetto critico di questo metodo riguarda il fatto che, dopo aver ottenuto un dataset completo, i valori imputati tendono ad essere considerati al pari dei valori osservati.

64

In letteratura sono stati prodotti diversi approcci per trattare il problema dell’effetto dei dati mancanti sulla precisione delle stime nelle indagini statistiche; essi si suddividono in tecniche di imputazione singola e tecniche di imputazione multipla (Guarnera, 2004).

La mancanza di dati può rappresentare un ostacolo allo sviluppo di un robusto indicatore composto poiché rende i risultati dell’indice meno affidabili e, nell’ambito di studi volti a creare classifiche tra i paesi, provoca una distorsione nel posizionamento relativo di questi all’interno della graduatoria finale.

Da un punto di vista teorico si possono individuare tre tipi di struttura di dati mancanti. In primo luogo vi sono i dati “mancanti completamente a caso”, missing

completely at random (MCAR) nel senso che la probabilità di osservare dati mancanti è indipendente sia dalle variabili osservate sia da quelle non osservate dell’insieme completo dei dati (Bacci, 2006). Ad esempio, durante un indagine sul reddito i dati mancanti potrebbero essere MCAR se le persone che non riferiscono il proprio reddito hanno in media lo stesso reddito delle persone che lo comunicano e se ognuna delle altre variabili del dataset potrebbe essere, in media, la stessa sia per chi comunica il proprio reddito sia per chi non lo comunica (Nardo, Saisana, Saltelli, Tarantola, 2005).

Vi sono poi i dati mancanti a caso, missing at random (MAR), quando la probabilità di osservare dati mancanti dipende solo dalla parte osservata dell’insieme dei dati. Nel caso di dati mancanti di tipo MAR avremmo che in un’indagine statistica sul reddito la probabilità di dati mancanti dipende dallo stato coniugale ma che, all’interno di ogni categoria di stato coniugale, la probabilità di avere dati mancanti sul reddito è incorrelata col valore del reddito. L’assunzione MAR come meccanismo di generazione dei dati mancanti, implica, quindi, che i valori mancanti siano prevedibili in base alle risposte osservate nelle altre variabili.

Vi sono infine i dati mancanti non a caso, not missing at random (NMAR), quando la probabilità di riscontrare dati mancanti è dipendente sia dai dati osservati sia da quelli non osservati (Bacci, 2006). Nel caso NMAR i valori mancanti dipendono dai valori stessi; ad esempio è meno probabile che famiglie con alto reddito riferiscano il proprio reddito (Nardo, Saisana, Saltelli, Tarantola, 2005). Con una generazione di dati mancanti di tipo NMAR le informazioni contenute nel dataset non sono sufficienti a predire i dati non osservati (Boscaino, Sulis, 2006).

65

I principali approcci adottati per trattare il problema dei dati mancanti sono l’eliminazione dei casi per i quali mancano i dati e l'utilizzo di tecniche di imputazione singola o multipla di valori stimati. Vediamo ora entrambi gli approcci.

La mancanza di dati può rappresentare un ostacolo allo sviluppo di un robusto indicatore composto poiché rende i risultati dell’indice meno affidabili e, nell’ambito di studi volti a creare classifiche tra i paesi, provoca una distorsione nel posizionamento relativo di questi all’interno della graduatoria finale.

Da un punto di vista teorico si possono individuare tre tipi di struttura di dati mancanti. In primo luogo vi sono i dati “mancanti completamente a caso”, missing

completely at random (MCAR) nel senso che la probabilità di osservare dati mancanti è indipendente sia dalle variabili osservate sia da quelle non osservate dell’insieme completo dei dati (Bacci, 2006). Ad esempio, durante un indagine sul reddito i dati mancanti potrebbero essere MCAR se le persone che non riferiscono il proprio reddito hanno in media lo stesso reddito delle persone che lo comunicano e se ognuna delle altre variabili del dataset potrebbe essere, in media, la stessa sia per chi comunica il proprio reddito sia per chi non lo comunica (Nardo, Saisana, Saltelli, Tarantola, 2005).

Vi sono poi i dati mancanti a caso, missing at random (MAR), quando la probabilità di osservare dati mancanti dipende solo dalla parte osservata dell’insieme dei dati. Nel caso di dati mancanti di tipo MAR avremmo che in un’indagine statistica sul reddito la probabilità di dati mancanti dipende dallo stato coniugale ma che, all’interno di ogni categoria di stato coniugale, la probabilità di avere dati mancanti sul reddito è incorrelata col valore del reddito. L’assunzione MAR come meccanismo di generazione dei dati mancanti, implica, quindi, che i valori mancanti siano prevedibili in base alle risposte osservate nelle altre variabili.

Vi sono infine i dati mancanti non a caso, not missing at random (NMAR), quando la probabilità di riscontrare dati mancanti è dipendente sia dai dati osservati sia da quelli non osservati (Bacci, 2006). Nel caso NMAR i valori mancanti dipendono dai valori stessi; ad esempio è meno probabile che famiglie con alto reddito riferiscano il proprio reddito (Nardo, Saisana, Saltelli, Tarantola, 2005). Con una generazione di dati mancanti di tipo NMAR le informazioni contenute nel dataset non sono sufficienti a predire i dati non osservati (Boscaino, Sulis, 2006).

I principali approcci adottati per trattare il problema dei dati mancanti sono l’eliminazione dei casi per i quali mancano i dati e l'utilizzo di tecniche di imputazione singola o multipla di valori stimati. Vediamo ora entrambi gli approcci.

66 3.3.1 ANALISI DEI CASI COMPLETI

Il metodo dell’analisi dei casi completi, prende in considerazione solo i casi nei quali sono presenti tutte le osservazioni, le variabili mancanti vengono semplicemente omesse. Viene, così, appiattita la differenza tra i modelli completi e incompleti. Ad esempio se mancano i dati di un indicatore per un paese, l’indicatore o il paese non vengono più considerati nella ricerca.

Il vantaggio principale del metodo è la sua semplicità: può essere applicato senza modificazioni del modello. Gli svantaggi derivano dalla perdita potenziale di informazioni e dal pericolo di produrre stime distorte19, a meno che i casi completi non

rappresentino un sotto-campione casuale del campione originale e la mancata risposta sia indipendente da tutte le variabili di interesse (meccanismo MAR). Comunque, anche in presenza di un meccanismo di dati mancanti completamente a caso, il mancato utilizzo di tutta l’informazione disponibile comporta un aumento degli errori standard e, quindi, stime meno precise (Guarnera, 2004).

A questo proposito si può osservare che molti software statistici adottano automaticamente il metodo dei casi completi escludendo direttamente le variabili per le quali mancano le osservazioni.

3.3.2 IMPUTAZIONE SINGOLA

In letteratura i metodi di imputazione singola sono distinti in parametrici e non parametrici a seconda che vengano utilizzati, rispettivamente, modelli espliciti o impliciti.

Di seguito una sintetica descrizione dei principali metodi impliciti, non parametrici, utilizzabili per imputare i dati mancanti.

Hot deck imputation

I valori mancanti vengono rimpiazzati da valori che provengono da variabili simili. Letteralmente il metodo fa riferimento al mazzo delle carte da gioco del computer; alla fine del processo di imputazione si otterrà una distribuzione di dati formata dai valori effettivamente rilevati e da valori che rimpiazzano i dati mancanti. I valori individuali di sostituzione vengono ricavati da gruppi corrispondenti simili. Per fare un esempio, durante un indagine sul reddito i valori mancanti relativi al reddito di alcuni individui possono essere sostituiti con i valori del reddito di altri individui con

19 Si definisce stimatore corretto quello stimatore che, in media, assume esattamente il valore del

parametro che deve stimare, lo stimatore è distorto se il valore atteso del parametro differisce dal parametro stesso, e quindi in media lo stimatore non assume il valore del parametro che deve stimare.

67

caratteristiche simili di età, sesso, lavoro ecc. L’imputazione è molto comune nella pratica anche se la letteratura relativa a questo metodo è scarsa e poco chiara e comporta l’elaborazione di schemi complessi per la selezione dei gruppi di imputazione (Little, Rubin, 1989).

Sostituzione

Vengono sostituiti gruppi di osservazioni mancanti con gruppi alternativi non appartenenti al campione selezionato. Per esempio, se una famiglia non può essere contattata durante un lavoro di indagine, allora una famiglia non selezionata preventivamente nel gruppo di indagine, può essere sostituita. Bisogna stare attenti a trattare il campione che ne risulta come completo, in quanto le variabili imputate sono sistematicamente differenti dai valori non osservati, perciò a livello di analisi bisognerebbe tener conto del particolare tipo di valori imputati con i quali stiamo lavorando (Little, Rubin, 1989).

Cold deck imputation

Sostituisce un valore mancante di una determinata dimensione di analisi, con un valore costante proveniente da una fonte esterna, come ad esempio un valore che proviene dalla realizzazione di una ricerca precedente. Anche in questo caso la pratica corrente solitamente considera i dati che ne risultano come un campione completo, cioè ignora le conseguenze dell’imputazione. Manca una teoria soddisfacente per l’analisi ei dati ottenuti attraverso questo approccio (Little, Rubin, 1989).

I modelli espliciti si basano su un modello statistico formale in grado di effettuare una stima della distribuzione, di seguito vengono descritti alcuni di essi.

Imputazione della media

La media (in alternativa la moda o la mediana) dei dati osservati per gli indicatori del modello viene sostituita ai valori mancanti.

Imputazione mediante regressione

Si sostituiscono i valori mancanti con i valori stimati da una regressione dell’elemento mancante sugli elementi osservati di un gruppo di variabili (Little, Rubin 1989). Ad esempio se ho un set di indicatori osservati (x1...xk-1) e un indicatore xk

osservato solo per r paesi ma mancante per i restanti M-r, l’imputazione comporta la regressione di xk su (x1...xk-1) usando le r complete osservazioni e imputando i valori

68 i=1...M-r

Un buon metodo consiste nel stimare più sottoinsiemi diversi di valori e poi scegliere i valori migliori, cioè le stime migliori, usando come criterio il valore di R2 (Nardo,

Saisana, Saltelli, Tarantola, 2005). 3.3.3 IMPUTAZIONE MULTIPLA

Se i metodi di imputazione singola si basano sulla sostituzione di valori mancanti con un unico insieme di valori stimati, al contrario l’imputazione multipla consente di effettuare analisi inferenziali su un’ampia classe di dataset (Guarnera, 2004; Nardo, Saisana, Saltelli, Tarantola, 2005). Con metodo di imputazione multipla proposto da Rubin, forse il più conosciuto, il processo di imputazione viene ripetuto n volte in modo da creare n dataset completi. Vengono poi svolte analisi indipendenti sui singoli

dataset e combinati opportunamente i risultati fino ad ottenere stime corrette dei parametri e dei relativi errori standard. Il limite di questo metodo sta nella difficoltà di gestire n dataset per ogni insieme di dati incompleto da trattare, soprattutto in presenza di ricerche che utilizzano grandi quantità di dati (Guarnera, 2004).

"L’imputazione multipla è essenzialmente un metodo Monte Carlo che consente di effettuare un’ampia classe di analisi inferenziali in presenza di non-risposta mediante analisi stansard su diversi dataset completi" (Guarnera, 2004).

Il Metodo Monte Carlo è un metodo statistico non parametrico, è utile a trarre stime attraverso simulazioni. Si basa su un algoritmo che genera serie di numeri tra loro incorrelati, che seguono la distribuzione di probabilità che si suppone abbia il fenomeno da indagare. La simulazione calcola una serie di realizzazioni possibili del fenomeno da indagare; una volta calcolato il campione rappresentativo esegue delle misure delle grandezze di interesse sul campione.

Documenti correlati