Conclusioni - Metodi per l'imputazione dei dati mancanti in dataset di variabili nominali

Per chi si occupa di analisi di dati, è frequente gestire dataset di elevate di- mensioni, per numero di casi e per varietà di attributi rilevati, aventi al loro interno numerose mancate risposte. Cercare di ricostruire l'informazione man- cante, valorizzando sia il legame tra le osservazioni che le associazioni tra le variabili, è un modo per estrarre informazione aggiuntiva. Essa potrà così essere aancata a quella preesistente, in modo da pervenire ad una interpretazione del fenomeno oggetto di studio quanto più possibile fedele alla realtà.

L'obiettivo del presente lavoro è stato quello di introdurre alcuni metodi per l'imputazione di dataset di variabili categoriali parzialmente osservate. Le diverse simulazioni hanno mostrato risultati incoraggianti, soprattutto alla lu- ce del fatto che sono state eettuate stressando molto le procedure. Infatti, occorre rimarcare che tutti i dataset utilizzati erano privi di variabili completamente osservate e che sono state sottoposte ad analisi matrici aventi no al 50% di dati mancanti. Le indicazioni ottenute forniscono spunti per future applicazioni e ed ulteriori approfondimenti.

Per ciò che concerne la fuzzy cluster analysis, ci si propone di individuare metodi automatizzati per la scelta del parametro di fuzzicazione m (come già proposto, nel caso di variabili continue da Luo & altri [61]). Occorre inoltre valutare la robustezza delle procedure, al variare del numero di clusters inizialmente scelti. L'inizializzazione della matrice dei centri può essere basa- ta su criteri legati alla struttura dei dati [85], piuttosto che essere generata casualmente. Si rende necessario sviluppare tecniche di validazione della classicazione ottenuta [40] in presenza di dati mancanti. Gli algoritmi genetici potrebbero essere utilizzati come alternativa all'ottimizzazione in tre passi della funzione obiettivo (come proposto da Benati [7]). Come per le reti bayesiane, l'imputazione dei dati potrebbe essere con criterio random draw, assumendo i valori caratterizzanti i centroidi fuzzy, come probabilità a posteriori.

Riguardo alle reti bayesiane, si potrebbe considerare come obiettivo dello structural learning quello di stimare una classe di equivalenza di DAG, anzichè stimarne uno specico, con un guadagno in termini di ecienza [21]. Inoltre, le performance degli algoritmi genetici possono essere migliorate aumentan- do la popolazione iniziale, operando su diverse e più ampie congurazioni dei parametri di input, valutando funzioni obiettivo alternative. Se si ipotizza l'e- sistenza di una o più variabili latenti, si potrebbe valutare la capacità di classicazione dei metodi di apprendimento introdotti, rispetto ad altri già esistenti in letteratura [13] e rispetto alla cluster analysis. In alternativa, in presenza di nodi latenti si potrebbe pensare ad una integrazione fra fuzzy cluster e reti

bayesiane, con le prime che rendono esplicita la variabile di classicazione e le seconde che studiano l'associazione tra questa e i nodi osservati.

In generale, la robustezza delle procedure proposte può essere testata su dataset caratterizzati da meccanismi generatori di dati mancanti di tipo non ignorabile, oppure NMAR. Va inoltre analizzato il comportamento dei metodi in presenza di congurazioni diverse di dati mancanti, ad esempio se tra le variabili ve ne sono alcune parzialmente osservate ed altre completamente osservate. Inne, si potrà approfondire l'analisi dei risultati delle imputazio- ni a livello di singola variabile, focalizzando l'attenzione anche sull'eventuale presenza di zeri strutturali.

Appendice A

Cenni sugli insiemi fuzzy

Sia X uno spazio di oggetti con x ∈ X. Un insieme fuzzy [92] A in X è caratterizzato da una funzione di appartenenza µA(x), la quale associa a ogni

punto in X un numero reale nell'intervallo [0, 1], con il valore di µA(x) in x

che rappresenta il grado di appartenenza di x in A. Cosicché più è vicino all'unità il valore di µA(x), più alto risulta il grado di appartenenza di x in

A. Quando A è un insieme nel senso ordinario del termine (insieme classico),

la sua funzione di appartenenza può assumere soltanto due valori 0 o 1, con

µA(x) = 1 o 0 a seconda che x appartenga o non appartenga ad A. In questo

caso dunque µA(x) = IA(x), funzione caratteristica di A (Fig. A.1).

Figura A.1: Insieme classico e insieme fuzzy

La funzione di appartenenza si compone di tre elementi 1 _{(Fig. A.2):}

• il supporto, cioè tutti i punti x di X in A, tali che la funzione di appartenenza sia maggiore di 0, {x ∈ X|µA(x) > 0};

1_{Le gure che seguono sono tratte da un lavoro di Lazzerini del 2008 [58].}

• il core, ossia tutti i punti x di X in A, tali che la funzione di appartenenza sia uguale ad 1, {x ∈ X|µA(x) = 1};

• l'altezza, ovvero il valore assunto dalla funzione di appartenenza nel suo

estremo superiore, h(A) = sup

x∈X

µA(x).

In generale, si può considerare come estensione della funzione di appartenenza un intervallo [α, β]. A è normale se h(A) = 1.

Figura A.2: Caratteristiche della funzione di appartenenza

Di seguito, vengono fornite alcune denizioni che coinvolgono gli insiemi fuzzy e che sono estensioni delle corrispondenti denizioni relative agli insiemi ordinari.

Un insieme fuzzy A è vuoto se e solo se la sua funzione di appartenenza è

uguale a 0 su tutto X, A = ∅ ⇔ {∀x ∈ X|µA(x) = 0}.

Due insiemi fuzzy A e B sono uguali, se e solo se le loro funzioni di appar-

tenenza sono uguali per tutte le x in X, A = B ⇔ {∀x ∈ X|µA(x) = µB(x)}.

L'unione di A e B (Fig. A.3) è l'insieme fuzzy più piccolo che contiene sia

A che B, µA∪B(x) = max

Figura A.3: Unione di insiemi fuzzy

L'intersezione di A e B (Fig. A.4) è l'insieme fuzzy più grande che è

contenuto sia in A che in B, µA∩B(x) = min

x∈X {µA(x), µB(x)}.

Figura A.4: Intersezione di insiemi fuzzy

Il complemento di un insieme fuzzy (Fig. A.5) è così denito: µA(x) =

Figura A.5: Complemento di un insieme fuzzy

L'inclusione di insiemi fuzzy (Fig. A.6) si ha quando dati gli insiemi A e

B, A è contenuto in B se e solo se la funzione di appartenenza di A è minore

uguale di quella di B, per tutte le x in X, A ⊆ B ⇔ {∀x ∈ X|µA(x) ≤ µB(x)}

Figura A.6: Inclusione di insiemi fuzzy

La legge del terzo escluso aerma: L'operazione di unione tra un insieme ed il suo complemento produce l'insieme universo. Nel caso degli insiemi fuzzy essa non è valida (Fig. A.7), infatti:

µ_A∪A(x) = max

x∈X {µA(x), µA(x)}

= max

x∈X {µA(x), 1 − µA(x)}

Cioè, esiste almeno una x in X tale che la funzione di appartenenza dell'unione di A e ¯A è diversa da 1, {∃x ∈ X|µ_A∪A(x) 6= 1} .

Figura A.7: Non validità della legge del terzo escluso

La legge di non contraddizione aerma: Un generico elemento x non può appartenere all'insieme A e al suo complemento A. Nel caso degli insiemi fuzzy essa non è valida (Fig. A.8), infatti:

µ_A∩A(x) = min

x∈X{µA(x), µA(x)}

= min

x∈X{µA(x), 1 − µA(x)}

6= µ∅(x)

Cioè, esiste almeno una x in X tale che la funzione di appartenenza del- l'intersezione di A e ¯A è diversa da 0, {∃x ∈ X|µ_A∩A(x) 6= 0}.

Appendice B

Programmi in R

B.1 L'ambiente R

R [73] è un linguaggio e un ambiente open source per l'analisi statistica.

Fornisce un elevato numero di routine statistiche e grache ed è altamente estensibile. Di seguito sono esposte i sorgenti di tutte le procedure descritte nel presente lavoro.

B.2 Programma per l'imputazione di dataset di

Nel documento Metodi per l'imputazione dei dati mancanti in dataset di variabili nominali (pagine 108-115)