• Non ci sono risultati.

Knowledge Discovery in Databases

Il concetto di data mining `e lo step fondamentale di un processo pi`u ampio che consiste non solo nell’estrazione di informazioni dai dati e/o nelle predi-zioni possibili di eventi futuri, ma affinch`e le tecniche di data mining vengano applicate in maniera esauriente senza condurre a risultati ingannevoli, `e ne-cessaria l’adozione di alcuni passi che processino i dati per eliminare eventuali criticit`a e selezionarli, integrarli e organizzarli in base al tipo di analisi da effettuare. Con il termine Knowledge Discovery in Databases (KDD) si in-tende il processo che racchiude, in generale, i concetti di organizzazione dei dati, ricerca di schemi significativi (pattern), valutazione della conoscenza acquisita e la generazione di un’interpretazione pi`u semplice possibile per gli utilizzi futuri.

Figura 3.1: Overview relativa agli step che compongono il processo KDD [7]

Gli step che compongono il processo di Knowledge Discovery in Databases [7] sono raffigurati in Figura 3.1:

3 - Data Mining

1. Data selection: acquisire, in base all’ambito applicativo in questione, una conoscenza tale da selezionare un set di dati significativo su cui eseguire l’analisi;

2. Preprocessing: questa fase include due sub-step principali per il trat-tamento dei dati selezionati nel passo 1, in modo da gestire problemi di criticit`a dei dati:

• Data cleaning: questo step si occupa di “pulire” i dati risolvendo inconsistenze, incompatibilit`a e valori mancanti;

• Data integration: questa sezione include le tecniche per integra-re dati estratti da pi`u sorgenti differenti, identificare e risolvere conflitti e gestire le ridondanze;

3. Data transformation: consiste in un’operazione di trasformazione dati in modo da ricavarne strutture idonee per l’applicazione di determinate tecniche di mining. Una delle operazioni solitamente utile inerente a questa fase `e denominata Data Reduction che consiste nel ridurre il dataset originale in termini di volume, lasciandone invariata l’integrit`a;

4. Data mining: processo che prevede l’applicazione di alcune tecniche prevalentemente automatizzate con lo scopo di estrarre alcuni data-pattern di interesse in una particolare forma di rappresentazione o su un insieme di rappresentazioni diverse;

5. Pattern evaluation and interpretation: valutazione e identificazione dei modelli ritenuti pi`u interessanti relativamente al contesto e possibile ritorno alle fasi iniziali per ulteriori iterazioni.

Di seguito verranno introdotte le sezioni pi`u salienti circa il processo sopra esposto, specificandone meglio le tecniche e lo scopo.

3.3.1 Data Cleaning e principali problemi

Dopo aver estratto gli attributi essenziali all’analisi nella fase di “selection data” tenendo conto sia del dominio dei dati sia dell’obiettivo che si cerca di ottenere per mezzo del processo di data mining, `e necessario applicare l’operazione di data cleaning affinch`e vengano eliminate eventuali criticit`a e inconsistenze insite nel dataset. Con il termine “data cleaning” [8, 13] si fa riferimento ad un generico processo capace di garantire, con una certa soglia di affidabilit`a, la correttezza di una grande mole di dati. L’obiettivo di que-sta fase `e quello di migliorare la qualit`a dei dati grezzi reperiti direttamente

dalla fonte, in modo da tener conto di vari fattori che potrebbero compro-mettere la validit`a dei risultati ottenuti a fine analisi. Se questo processo venisse trascurato, i dati allo stato iniziale non potrebbero indurre a risultati consistenti dopo l’applicazione degli approcci di data mining.

In relazione a un insieme di dati da analizzare, la possibilit`a di imbat-tersi in questo fenomeno `e molto probabile e le motivazioni possono essere pi`u o meno numerose in base al tipo di contesto applicativo. Le ragioni che portano ad avere valori mancanti nel dataset, rendendo alcuni attributi non accurati o incompleti, possono dipendere da problemi legati a malfunziona-menti della meccanica inerente agli strumalfunziona-menti adottati per rilevare i dati o alle ristrette potenzialit`a di questi ultimi; altri problemi possono insorgere semplicemente dal fatto che alcuni utenti preferiscono tralasciare alcuni cam-pi nel riemcam-pimento di qualsivoglia form, perch´e ritenuti molto confidenziali o di scarsa importanza. Alcuni metodi noti per ovviare al problema sopra descritto, sono i seguenti:

- sostituire i campi mancanti con una variabile unica per tutti: questo metodo permette di eliminare i valori mancanti e sostituirli con una qualsiasi etichetta. Qualora i valori rilevati con questa etichetta doves-sero essere troppi, si arriverebbe per`o ad alcune considerazioni errate tali da dover essere accuratamente gestite;

- eliminare le tuple che contengono valori mancanti: questo approccio risulta utile nel caso in cui i valori mancanti siano davvero pochi e ininfluenti;

- utilizzare un valore ritenuto pi`u probabile mediante l’utilizzo di op-portuni strumenti probabilistici, analizzando l’intero insieme di valori inerenti all’atributo interessato.

Un ulteriore grande problema relativo alla consistenza dei dati riguarda il concetto di rumore. Quest’ultimo indica un errore casuale che influisce negativamente sulla raccolta dei dati e se mantenuto, anche sull’applicazione delle tecniche di data mining. Le fonti di errore scaturiscono principalmente da errori impliciti introdotti da strumenti di misurazione o da errori casuali introdotti durante la fase di raccolta dei dati in database. Una delle tecni-che maggiormente utilizzate consiste nell’operazione di “Binning”. Questa tecnica tende a eliminare il problema del rumore uniformando il valore di un determinato dato attraverso l’analisi di tutti i valori, o di una parte, appar-tenenti allo stesso attributo o comunque aventi lo stesso significato. Dopo aver ordinato e raggruppato i dati in bin, attraverso criteri di vario tipo, si

3 - Data Mining

procede ad uniformarli attraverso la loro sostituzione con un valore rappre-sentativo del bin stesso, come ad esempio la media. Un’altra tecnica consiste nel rilevare gli errori attraverso l’utilizzo di tecniche di clustering che, co-me discusso nel paragrafo 3.2.6, perco-mettono di escludere valori non ritenuti consoni agli altri.

3.3.2 Data Integration e Data Transformation: proble-mi e soluzioni

Con il termine Data Integration si intende l’operazione di incorporare dati ottenuti da sorgenti diverse, al fine di ottenere un unico database comple-to e fornicomple-to di tutte le informazioni utili per l’analisi successiva. Questa operazione pu`o per`o risultare soggetta ad alcuni problemi rilevanti.

Uno dei principali problemi scaturito da questa fase `e quello della ridon-danza. L’operazione di integrazione di dati [8] appartenenti a fonti differenti tra di loro, pu`o condurre ad ottenere attributi di ugual significato o facil-mente deducibili da altri. Una delle soluzioni potrebbe essere l’analisi di correlazione, che permette di misurare quanto gli attributi siano fortemente correlati tra di loro, in modo da eliminarne uno ritenuto totalmente ridon-dante. Un altro problema legato al concetto di data integration riguarda la semantica dei dati, la quale solitamente risulta differente tra le varie sorgenti in termini di informazioni e granularit`a di acquisizione.

Dopo aver integrato pi`u fonti di dati in modo da avere una visione unica del dataset da analizzare, si procede con la fase di data trasformation, te-nendo in considerazione successivamente la possibilit`a di ridurre il dataset risultante in termini di numero di attributi o di range di valori numerici pos-sibili per determinati attributi. La fase di data transformation consiste nel trasformare e modificare la struttura dei dati in maniera tale da eliminare ul-teriori criticit`a presenti nel dataset risultante dall’applicazione delle tecniche relative alla fase di data integration, ma soprattutto consiste di operazioni tali da rendere la forma dei dati idonea per le successive tecniche di data mining. I passi principali che costituiscono questa fase includono:

• la formulazione di nuovi attributi per mezzo delle informazioni risie-denti altrove all’interno del dataset, per favorire ambienti di analisi specifici;

• la gestione di valori anomali `e solitamente un passo fondamentale, ma potrebbe non essere necessario in base al tipo di contesto, come ad esempio nel caso del rilevamento di frode, in cui, mediante l’utilizzo

delle tecniche di clustering, `e possibile determinare quali valori siano o meno sospetti;

• il concetto di aggregazione, il quale consiste solitamente nel modificare la granularit`a temporale dei dati in modo da compattarli secondo tec-niche specifiche e in base al tipo di analisi da effettuare nella fase di data mining;

• la discretizzazione `e uno step necessario per la modifica della distribu-zione dei dati prevalentemente di tipo numerico, in modo da normaliz-zarli e da delinearne una distribuzione discreta suddividendoli in range, con lo scopo di adottare al meglio alcune tecniche successive che non supportano l’elaborazione di variabili continue.

Documenti correlati