• Non ci sono risultati.

4.3 Preprocessing e Data Mining

4.3.2 L’albero di decisione

Anche la costruzione dell’albero di decisione è avvenuta tramite Clementine, mentre con Weka non è stato possibile costruire un albero avente una confidenza al

di sopra del 75%. Questo è dovuto a causa dei lunghi tempi di elaborazione richiesti da Weka per la definizione degli alberi, soprattutto nel caso in cui il numero di attributi presenti nel Data Set e consistente. Di conseguenza nella fase di preprocessing è stato apportato il tentativo di selezionare un numero più ristretto di attributi, ma ovviamente questo ha comportato il fatto che l’albero risultante avesse una confidenza che lo ha reso poco attendibile.

Con KDDML l’albero di decisione ottenuto aveva una confidenza abbastanza elevata (82%), ma l’assenza dell’opzione di pruning, da parte del software, ha fatto si che l’albero sia risultato tento profondo da renderlo illeggibile. Il pruning al contrario consente di “potare” l’albero, eliminando i rami meno significati.

Come si diceva, con Clementine è stato possibile ottenere un albero decisionale da analizzare. Anche in questo caso la lunghezza e la profondità dell’albero prodotto non consentono di riportarlo interamente in questa sede. Ma Clementine ha la possibilità di fornire i risultati dell’albero sotto forma di regole, cosi da poter prendere in considerazione solo quelle ritenute interessanti. Ogni regole corrisponde ad un possibile cammino dell’albero, dalla radice alle foglie.

Di seguito si fornisce un piccolo frammento dell’albero di decsione:

Figura 12

Per questa analisi l’attributo target prescelto è stato Diagn_Discr, che indica le diverse patologie rilevate nei ricoveri.

Questo albero decisionale ci ha fornito informazioni importanti: come si nota nel ramo evidenziato dal cerchio, l’albero di decisione ha predetto per i soggetti con una età minore di 16 anni, in condizioni di temperatura elevata (si ricorda che il livello della temperatura e degli agenti inquinanti è stato calcolato in base alla media dei valori rilevati nei quattro giorni antecedenti alla data del ricovero, cap3) e di esposizione ad un livello Alto di PM (particolato), il valore Malt_Appar_Respir della variabile target. Questo dimostra l’influenza dell’inquinamento atmosferico sullo stato di salute degli individui, a conferma dei risultati ottenuti con le analisi OLAP (par 4.2.3).

Clementine offre anche l’opportunità di vedere l’albero di decisione come un insieme di regole. Questa visualizzazione ci consente di analizzare solo quei rami dell’albero che portano ad un risultato accettabile, e quindi sveltire il processo di evaluation descritto nel modello CRISP-DM.

Di seguito se ne riporta un esempio:

Figura 13

I risultati ottenuti sono simili ai precedenti. Per gli individui di età compresa tra i 7 ed i 16 anni, in condizioni di temperatura alta, un livello normale di CO ed un livello alto di PM, l’algoritmo C5.0 predice con una confidenza del 0.846 Malat_Appar_Respir come valore dell’attributo target.

4.3.3 Clustering

Anche nel caso del clustering i risultati più soddisfacenti si sono avuti con Clementine. L’algoritmo messo a disposizione da Clementine per il mining di

cluster è il K-means (cap1). L’esecuzione di K-means sui dati ha prodotto come risultato sei cluster; dei cluster prodotti ne riportiamo uno, sicuramente il più significativo. Dall’analisi del seguente cluster sono state avute ulteriori conferme circa i risultati ottenuti dalle analisi OLAP e dal “decision tree”.

Questa volta però cambia il punto di vista dell’analisi. Mentre gli alberi di decisione si pongono come predittori dei valori dell’attributo target, il clustering raggruppa i dati identificando zone densamente popolate all’interno di uno spazio multidimensionale, non avendo come output un determinato attributo, ma tutti le dimensioni del data set.

Figura 14

Analizzando il cluster sopra riportato possiamo notare come questo raggruppi tutti quei ricoveri avvenuti nel momento in cui tutti i livelli delle sostanza inquinanti sono alti. Da notare anche che i mesi in cui sono stati effettuati questi ricoveri sono i due mesi più freddi dell’anno, Gennaio e Febbraio, dato confermato anche dai valori dell’attributo riportante la temperatura (Temp_Discr).

Se poi si aggiunge che la pressione atmosferica segna valori alti, possiamo concludere che questo cluster descrive una situazione tipicamente invernale, in cui il freddo e la pressione alta contribuiscono allo ristagnare delle sostanze inquinanti nelle città.

Figura 15

Analizzando ora le percentuali dell’attributo Diagn_Discr, notiamo che la percentuale relativa alle malattie dell’apparato respiratorio è più alta se confrontata a quella ottenuta dall’analisi della distribuzione riportata sopra (7,6% > 5.68), a testimonianza del fatto che le condizioni descritte contribuiscono alla formazioni di disturbi respiratori.

4.3.4 Regole di associazione

L’utilizzo dell’algoritmo Apriori per l’individuazione di regole associative non ha prodotto risultati soddisfacenti. Mentre con il Clustering e l’albero di classificazione è stato possibile individuare dei risultati evidenti su cui poter fondare delle analisi conclusive, le regole associative estratte dall’algoritmo non ci hanno consentito di effettuare analisi o di avere conferme circa gli esiti dei precedenti modelli.

Ma questo non vuol dire che non sono stati ottenuti risultati. Questi ci sono stati e per poter estrarre conoscenza utile devono essere posti all’attenzione dell’esperto del dominio che con le sue conoscenze può darne una migliore interpretazione.

Dalla figura qui sopra possiamo vedere che le regole individuate non hanno un nesso logico evidente, oltre che presentare un supporto ed una confidenza tali da non ritenerle rilevanti. Nessuna delle regole individuate da Apriori rivela una confidenza superiore al 75% ed un supporto maggiore del 0.01%.

Capitolo 5

Analisi particolari

5.1 Un ulteriore studio

Le analisi riportate nel capitolo 4 sono state effettuate sulla totalità delle diagnosi. L’attributo target scelto per tale analisi è stato Diagn_Discr, attributo che indica la diagnosi principale risalente la motivazione del ricovero. Come descritto sono stati ottenuti ottimi risultati con l’utilizzo di C5.0 per gli alberi di decisione e di K-means per il clustering; mentre l’algoritmo Apriori non ha portato a risultati evidenti.

Questo ci ha spinto ad effettuare un ulteriore analisi, considerando solo determinate diagnosi.

A questo scopo sono state create cinque nuove variabili, di tipo flag (Y/N), una per ogni patologia ritenuta interessante per analisi approfondite.

Malat_Sist_Circol: questo attributo ha valore SI se il ricovero è avvenuto per malattie circolatorie e valore NO altrimenti.

Malat_Sist_Resp: questo attributo ha valore SI se il ricovero è avvenuto per malattie respiratorie e valore NO altrimenti.

Malat_Sist_Nervoso: questo attributo ha valore SI se il ricovero è avvenuto per malattie del sistema nervoso e valore NO altrimenti.

Malat_App_Diger: questo attributo ha valore SI se il ricovero è avvenuto per malattie dell’apparato digerente e valore NO altrimenti.

Tumori: questo attributo ha valore SI se il ricovero è avvenuto per malattie dell’apparato digerente e valore NO altrimenti.

La scelta è ricaduta su tali patologie per un duplice motivo: le cinque patologie descritte sono le più frequenti tra i cittadini di Pisa e sono le più interessanti da analizzare congiuntamente al’inquinamento atmosferico.

Documenti correlati