Organizzazione della Tesi

(1)

Introduzione

Da qualche anno è nata una nuova generazione di tecniche e di strumenti per analizzare, in modo automatico e intelligente, grandi volumi di dati, “miniere”

di dati, allo scopo di “estrarre” la conoscenza ivi nascosta.

Ogni giorno infatti, in molteplici ambiti, viene memorizzata una quantità sempre crescente di dati che rappresentano una miniera molto interessante di informazioni.

Soprattutto da un punto di vista aziendale, queste informazioni rappresentano una possibilità di incremento di competitività delle aziende stesse e sempre più frequentemente vengono utilizzate nuove tecniche e strumenti di analisi

“intelligente”dei dati.

Considerando questo spunto si può dire che l’informazione è un bene a valore crescente, necessario per pianificare, gestire e tenere sotto controllo tutte le attività aziendali, costituendo la materia prima che viene trasformata e veicolata dai sistemi informativi. Purtroppo, l’equazione dati = informazione non è sempre corretta: spesso la disponibilità di troppi dati rende arduo, se non impossibile, estrapolare le informazioni veramente significative.

In questa ottica, i sistemi di supporto alle decisioni (Decision Support Systems – DSS) nascono dal bisogno di trattare l’accumulo di dati generati e scambiati tra organizzazioni che si è registrato nell’ultimo decennio, e dalla pressante richiesta di utilizzo di tali dati per scopi che vanno oltre l’elaborazione delle attività giornaliere, verso una precisa e puntuale trattazione in ottica direzionale.

Caratteristica comune a tutti i processi strategici, tattici ed operativi, trovandosi a confrontare con problematiche poco strutturate o non strutturate, è la necessità di strumenti che possano ricavare dall’enorme quantità di dati immagazzinati nei database o resi disponibili dalle varie fonti:

• informazioni di sintesi che permettano la valutazione di un fenomeno;

(2)

• la scoperta di correlazioni significative;

• l’acquisizione di conoscenza utile a stabilire una strategia decisionale.

La funzione svolta dai database in ambito aziendale è stata, fino a tempi recenti, quella di memorizzare dati generati da operazioni principalmente di carattere amministrativo, che vengono correntemente svolte all’interno di attività caratteristiche (gestione acquisti, gestione vendite, fatturazione). Tuttavia, per ogni azienda, è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni strategiche sono estrapolate dalla mole dei dati operazionali, attraverso un procedimento di selezione e sintesi progressiva.

Un DSS è, di fatto, un’architettura informatica che aiuta l’utente a prendere decisioni, senza sostituirsi ad esso, per fornire al decisore attraverso procedure interattive:

• la disponibilità di tutte le informazioni necessarie per la comprensione del problema;

• la possibilità di esplorare i dati secondo diversi punti di vista in base alle esigenze dello stesso utente;

• la possibilità di valutare gli scenari conseguenti alle scelte compiute.

La differenza principale con i sistemi tradizionali è la richiesta simbiosi tra utente e sistema, in quanto un DSS fornisce supporto, ma non si sostituisce al decisore: la sintesi si ottiene combinando le valutazioni umane alle informazioni elaborate.

Queste sono le basi che hanno contribuito a generare un nuovo ambito interessante di ricerca che va sotto il nome di KDD. Il termine Knowledge

(3)

Discovery Database (KDD) si riferisce all’intero processo, interattivo ed iterativo, di scoperta della conoscenza che consiste nell’identificazione di relazioni tra dati che siano valide, nuove, potenzialmente utili e comprensibili.

Questo consiste in un insieme di attività che coinvolgono la preparazione dei dati, la ricerca di relazioni, la valutazione e il raffinamento della conoscenza estratta, assumendo che il processo sia non banale.

Il significato di questa affermazione risiede nel fatto che le relazioni scoperte non sono già note e ritenute valide con un grado di certezza prefissato, ma sono replicabili anche su dati diversi da quelli usati per la scoperta delle stesse, creando il supporto necessario ad affrontare il problema decisionale e condurre a delle azioni utili. Il processo di estrazione della conoscenza in sintesi deve:

• produrre dati eterogenei;

• essere efficiente e scalabile;

• assicurare la qualità delle informazioni estratte;

• utilizzare criteri diversificati di estrazione;

• garantire la riservatezza dei dati.

Queste sono le basi su cui poggia questo progetto di Tesi. Infatti, in questo lavoro, ci proponiamo di fornire la definizione e realizzazione di un linguaggio di querying che rappresenta un ambiente in cui sia possibile modellare e quindi esprimere tutto il processo di KDD. Allo stesso modo cercheremo di analizzare i requisiti e le caratteristiche fondamentali ad un linguaggio visuale per fornire all’utente un modo comodo e intuitivo di accedere alla modellazione del processo di KDD.

(4)

Organizzazione della Tesi

Lo scopo di questo progetto di tesi è quello di pensare, analizzare e realizzare un paradigma di programmazione grafica per l’ambiebnte di Knowledge Discovery KDDML.

Il sistema, ad oggi, per la sottomissione di query, richiede una accurata conoscenza del linguaggio KDDML e prevede anche la possibilità di immettere query (XML based) scritte esternamente dal sistema.

Per essere accessibile a un maggior numero di utenti, un motore di estrazione di conoscenza, per la composizione di query, deve avere necessariamente una interfaccia ben organizzata semplice, intuitiva e potente (pur preservando la caratteristica di input esterno del sistema) .

Oltre ad avere un ambiente user-friendly, abbiamo pensato ad un sistema grafico che possa guidare ed assistere l’utente durante tutte le fasi del processo di Knowledge Dyscovery, sia per quanto riguarda l’inserimento dei vari operatori sia per l’immissione dei parametri sia per la visualizzazione ed il salvataggio del work flow. Questo passo consiste nella realizzazione vera e propria di un paradigma di programmazione grafica per il sistema sottostante che richiede alcuni passaggi fondamentali che saranno trattati nei capitoli successivi.

Dal punto di vista progettuale, invece, è necessario pensare ad una interfaccia staccata dal sistema ma che interagisca con i livelli più bassi per sfruttarne a fondo le potenzialità.

Saranno trattati in seguito le varie problematiche relative all’estensione di KDDML con un sistema grafico per input-queries da molti punti di vista:

integrazione, realizzazione di un linguaggio esteso per la memorizzazione di query grafiche, metaesecuzione di query, supporto all’utente durante la stesura di query, predisposizione all’espandibilità.

Al fine di una comprensione chiara e completa verranno illustrate le

(5)

caratteristiche di base che deve possedere un linguaggio visuale passando brevemente in rassegna alcune applicazioni che prevedono già un sistema di input di questo tipo, rimandando ai riferimenti spiegazioni più dettagliate.

Il software prodotto è stato sviluppato tenendo presente il ciclo di vita CRISP- DM che rappresenta un approccio standard ai progetti di data mining.

Più in particolare questo documento e i capitoli successivi sono organizzati nel modo seguente:

o Capitolo 1 : Viene presentata una panoramica sullo stato dell’arte ponendo particolare enfasi sul processo del KDD e delle sue applicazioni nella vita quotidiana. Una specifica trattazione è riservata alla fase centrale del processo di KDD, il Data Mining, presentando molto brevemente le principali tecniche e i modelli utilizzati in questo ambito . Questo capitolo rappresenta un punto di partenza indispensabile per poter comprendere come è stato sviluppato il progetto e come viene rappresentato il processo KDD nel KDDML.

o Capitolo 2 : Il capitolo 2 è quasi interamente dedicato alla presentazione del sistema KDDML e del metalinguaggio basato su XML, ad esso associato. Verrà descritte oltre a ciò, anche l’architettura del sistema e le funzionalità principali non perdendo di vista quali sono gli obiettivi di questo documento. Inoltre per comprendere meglio tale linguaggio viene fornita una breve introduzione al linguaggi di markup XML e PMML con lo scopo di toccare i puntzi fondamentali che interessano parallelamente anche il KDDML.

o Capitolo 3 : In questo capitolo viene brevemente presentato lo stato dell’arte, con particolare riferimento a [TESI_2]. Verranno mostrati i paradigmi di Input visuale di alcuni sistemi per la modellazione del processo di KDD. Verrà inoltre posto un accento particolare alle

(6)

problematiche che riguardano la realizzazione dell’interfaccia del sistema KDDML con un breve accenno a possibili soluzioni.

o Capitolo 4 : In questo capitolo vengono analizzati i requisiti della metafora grafica da realizzare per il sistema KKDML e vengono presentate tutte le scelte che sono alla base della implementazione mettendo in evidenza i pro e i contro delle decisioni prese in fase di progettazione del sottosistema GUI, giustificandole, ove necessario, formalmente.

o Capitolo 5 : A questo punto viene proposto il disegno complessivo della parte che riguarda la GUI mettendo in evidenza in che punto del sistema KDDML si aggancia. Inoltre verranno presentati in dettaglio i moduli del sottosistema GUI che interagiscono con il Core del KDDML evidenziando le idee per la soluzione dei problemi discussi nel capitolo 4. Saranno discusse, a questo punto, anche le scelte implementative, sia per quello che riguarda le librerie utilizzate, sia per ciò che concerne le strutture dati utilizzate.

Particolare importanza rivestono le scelte fatte riguardo al modello di rappresentazione grafica. La parte finale di questo capitolo è dedicata alla definizione di una estensione del meta-linguaggio del sistema KDDML che permette di salvare e caricare delle query parziali.

o Capitolo 6 : L’ultimo capitolo è interamente dedicato alla fase di sperimentazione. Verrà presentato un esempio significativo di utilizzo del tool sviluppato cercando di mettere in evidenza i punti di forza e di debolezza del progetto.

La parte finale del capitolo è dedicata alla descrizione dei package e delle classi di cui il sistema grafico si compone, cercando di spiegarne brevemente le funzionalità più importanti.