Imputazione dei valori mancanti tramite reti Bayesiane

Dopo aver denito alcune metodologie per l'apprendimento della struttura

G di una rete bayesiana ed aver stimato i parametri θ delle distribuzioni di

probabilità condizionali per tutti i nodi della rete, diviene possibile mettere a frutto l'informazione aquisita per tentare di imputare i valori mancanti nel dataset parzialmente incompleto.

Le reti bayesiane, in quanto strumento utilizzato per l'individuazione e la stima delle relazioni congiunte tra variabili, si candidano come metodologia indicata per l'imputazione dei valori mancanti, mirando ad assicurare la consistenza dei valori imputati in termini preservazione delle relazioni statistiche tra le variabili (consistenza statistica) e di preservazione dei vincoli logici tra i dati (consistenza logica). Per loro stessa natura infatti, attraverso l'informazione campionaria e sotto l'assunzione di ignorabilità del meccanismo generatore delle mancate risposte, esse tendono a ricostruire il processo generatore dai dati.

Di seguito, vengono descritte le due tecniche di imputazione tramite BN utilizzate nel presente lavoro: imputazioni tramite nodi genitori [23], imputazioni tramite Markov blanket [24, 26].

3.3.1 Imputazione tramite nodi genitori

Per ciascun record del del dataset, viene individuato l'insieme di variabili che presentano dei dati mancante. Per ogni variabile missing, il valore da imputare viene estratto casualmente, tenendo conto della tabella di probabilità condizionata alle realizzazioni dei nodi genitori. I valori mancanti dei nodi radice, ovvero di quelle variabili che non hanno genitori, vengono estratti campionando dalla distribuzione marginale della stessa variabile, quindi senza condiziona- menti rispetto ad altri nodi. L'ordine con cui viene eettuata l'imputazione all'interno di ciascun record è dato dalla struttura G individuata con uno degli algoritmi 3.2 o 3.3. La metodologia originaria di imputazione si avvale, per l'individuazione della struttura della rete, dell'algoritmo PC [82]. Quest'ultimo, dopo aver individuato il grafo di indipendenza condizionale, i cui archi non sono orientati, necessita come input di un ordinamento dei nodi al ne di stabilire le relazioni di dipendenza probabilistica. Il criterio adottato dagli autori è stato quello di ordinare le variabili in base alla numerosità delle realizzazioni disponibili, per cui, nell'ambito dello stesso record viene imputata

prima la variabile che complessivamente registra il minore numero di missing e poi, a seguire, le altre.

In questo contesto, avendo introdotto metodi che non necessitano di indi- cazioni relativamente all'ordinamento dei nodi, la sequenza delle imputazioni è condizionata dalla struttura trovata.

3.3.2 Imputazione tramite Markov blanket

L'imputazione tramite Markov blanket dierisce dalla tecnica precedentemen- te proposta perchè il valore da imputare nella variabile missing non dipende soltanto alla distribuzione di probabilità condizionata ai nodi genitori, bensì al suo Markov blanket (MB). Dato un indieme di variabili casuali X e consi-

derato un nodo Xj ∈ X, il suo MB Mb(Xj)sarà dato dall'insieme di variabili

tali che I(Xj, M b(Xj), X \ M b(Xj)). In particolare, il MB di un nodo è dato

dai nodi genitori, dai nodi gli e dai nodi genitori dei gli. Il MB può essere

denito anche per un insieme di nodi XAed è dato da ∪

j∈AM b(Xj) \ A. Ad

esempio, considerata la gura 3.3, Mb(X4) = {X1, X2, X7, X5}, Mb(X5) =

{X3, X7, X8, X4, X6}, Mb(X4, X5) = {X1, X2, X3, X6, X7, X8}. Considerato

un record del dataset con un insieme A di variabili i cui valori sono missing, tali valori saranno imputati secondo la distribuzione di probabilità congiunta di XAdato il Mb(XA). Anche in questa circostanza, rispetto alla metodologia

originale, la decisione di introdurre metodi alternativi rispetto all'algoritmo PC per l'apprendimento della struttura G, ha comportato che il criterio di ordinamento dei nodi non sia più dettato della quota di di dati mancanti per ciascuna variabile, bensì possa variare a seconda dell'output della procedura di apprendimento.

Capitolo 4

Applicazioni

Nel presente capitolo vengono presentate alcune applicazioni dei metodi de- scritti nei capitoli 2 e 3. L'intento è quello di misurarne la capacità di imputazione, attraverso indicatori appositi, già esistenti in letteratura [11]. Le prestazioni dei metodi di cluster analysis e di quelli basati sulle reti bayesiane sono valutate dapprima separatamente, rendendo così possibile analizzare le qualità speciche di ciascuna metodologia e poi congiuntamente.

In particolare, per quanto riguarda la cluster analysis sono stati scelti dei dataset preclassicati, ovvero matrici di J + 1 colonne, essendo una di esse la variabile relativa alla classe di appartenenza. In questo modo è possibile mo- nitorare la validità della classicazione ottenuta in condizioni di incompletezza dei dati.

I dataset utilizzati per l'imputazione con le reti bayesiane sono stati ge- nerati da network preesistenti, mediante il software Hugin [64]. Tale scelta consente di valutare le tecniche di structural learning in base alla precisione nella individuazione delle associazioni tra le variabili.

Tutti i dataset sono stati sporcati eliminando, con meccanismo di tipo MCAR, una quota crescente di realizzazioni, generando 5 matrici con una percentuale complessiva di missing pari rispettivamente al 10%, 20%, 30%, 40% e 50% . La selezione casuale dei valori mancanti è stata eettuata tenendo conto dei seguenti vincoli:

1. ogni vettore riga deve presentare almeno un valore non missing; 2. ogni vettore colonna deve presentare almeno un valore non missing; 3. le modalità appartenenti al dominio di una variabile devono essere pre-

senti almeno una volta.

Quest'ultimo vincolo è dettato da necessità di tipo computazionale: esso consente alle procedure implementate di individuare l'esatto numero di catego-

rie di ogni variabile direttamente nel vettore delle replicazioni, senza doverlo specicare a parte.

Tutte le metodologie utilizzate sono state implementate nel linguaggio pro- prio del package statistico R [73] e per ciascun dataset considerato sono stati calcolati gli indicatori di performance come medie su 100 simulazioni.

4.1 Criteri per la valutazione delle imputazioni

La qualità dell'imputazione, avendo a disposizione il dataset completo, si può misurare quanticando la discrepanza tra i dati stimati e quelli veri. In pre- senza di dataset di variabili categoriali, obiettivo principale dei test è quello di valutare le seguenti proprietà [11]:

1. la capacità di preservare i valori originali (predictive accuracy);

2. la capacità di preservare la distribuzione originale (distributional accuracy).

Per una singola variabile, è possibile misurare la proprietà 1 mediante il seguente indicatore [11]: Dj = PI i=1I(ˆxij 6= xij)mij PI i=1mij (4.1) essendo mij denito nella (1.1), ˆxij la modalità della variabile j imputata

per l'osservazione i e xij quella originale. Dj rappresenta la quota di imputazio-

ni errate per Xj ed assume valore pari a zero, se tutti i valori sono coincidenti

con quelli veri, mentre è pari a uno se tutte le imputazioni sono errate. La quota totale di imputazioni errate per l'intero dataset è data da:

D = PJ j=1 PI i=1I(ˆxij 6= xij)mij PJ j=1 PI i=1mij (4.2) Anche l'indicatore (4.2) varia tra zero se le imputazioni sono tutte esatte ed uno se le imputazioni sono tutte errate. La proprietà 2 può essere misurata su una singola variabile, mediante il seguente indice di consistenza [23]:

∆j = 1 2 PI i=1 PLj l=1|ˆyijl− yijl| mij PI i=1mij ! = 1 2 Lj X l=1 I(mis)jl I(mis)j − Iˆ(mis)jl ˆ I(mis)j (4.3)

essendo I(mis)jl il numero di osservazioni con valore mancante per la va-

I(mis)jl è il numero di osservazioni con valore mancante per la variabile j per

le quali è stata stimata la modalità l mentre I(mis)j è il numero totale di unità

non osservate rispetto alla variabile j. yijl è un numero binario denito nella

(2.2) ed ˆyijl la sua stima. L'indice di consistenza calcolato sulla distribuzione

congiunta di tutte le variabili del dataset è dato da:

∆ = 1 2 H X h=1 I(mis)h I(mis) − Iˆ(mis)h I(mis) (4.4) I(mis)h è il numero di volte che si presenta il prolo h nel dataset com-

pleto, relativamente ai casi mancanti del dataset osservato, ˆI(mis)h è la stima

del numero di volte che si presenta il prolo h nel dataset imputato, sempre relativamente ai casi mancanti del dataset osservato, mentre h = 1, ..., H e

H = QJ

j=1Lj, ovvero il numero di proli possibili, dato dal prodotto carte-

siano tra gli attributi che le J variabili possono assumere. Inne, I(mis) =

i=1I

j=1mij > 0 è il totale delle osservazioni che presentano almeno un

valore mancante.

Quando il numero di variabili e, a loro volta, delle modalità che le carat- terizzano è molto elevato, l'indice (4.4) diviene estremamente complicato da calcolare, a causa dell'elevato numero di proli che si verrebbero a congurare. In alternativa, si può utilizzare come indice di consistenza la media rispetto alle J variabili dell' indici (4.3):

ˆ ∆ = 1 2J J X j=1 PI i=1 PLj l=1|ˆyijl− yijl| mij PI i=1mij ! = J X j=1 ∆j J (4.5)

4.2 Applicazioni dei metodi nello spazio delle

Nel documento Metodi per l'imputazione dei dati mancanti in dataset di variabili nominali (pagine 61-65)