• Non ci sono risultati.

Data Mining: un metodo di analisi alternativo

7.3 Software per data mining

Il mondo dei software offre una vasta scelta di soluzioni per attività di data mining, dagli applicativi per una singola metodologia statistica di analisi a dei pacchetti software “all in one”, in grado di gestire l’intero processo di data mining [32].

Le motivazioni nell’utilizzare un prodotto piuttosto che un altro si devono cercare nella valutazione di diversi fattori:

• Costo: il costo dei prodotti per l’analisi dei dati è in genere molto elevato. Nonostante il prezzo sia spesso sinonimo di qualità e garanzia dei risultati, esistono dei tools “free” per il data mining molto validi, essendo questi il risultato di un lavoro di ricerca a livello universitario.

• Tipologia algoritmi: la prerogativa fondamentale dei software per data mining è di mettere a disposizione una suite completa di algoritmi, sia per la fase di preprocessing che per la fase di creazione dei modelli.

• Interfaccia grafica: la presenza di un’interfaccia grafica intuitiva e curata facilita il compito per un utente inesperto, ma non altera la qualità dei risultati finali. Ovviamente i software proprietari sono più curati sotto questo aspetto, per essere resi più appetibili al pubblico.

Fra i tools open source si possono prendere in considerazione Weka e KDDML, mentre due dei software proprietari più utilizzati sono Clementine e Knowledge Studio.

7.3.1 Weka

Weka è un completo toolbench per il machine learning e per il data mining; è stato realizzato dall’Università di Waikado in Nuova Zelanda, scritto in Java e mette a disposizione un’ampia gamma di algoritmi: per il preprocessing, per la classificazione, clustering, visualizzazione dei dati, regole associative. L’interfaccia grafica è discreta, non curata nei particolari, ma gradevole. Presenta ancora alcuni difetti ma è sicuramente il software free più completo.

In figura 7.1 viene riportato un esempio dell’interfaccia grafica di Weka Explorer.

In questa figura vengono individuate quattro sottoaree. Nella sottoarea “1” si trovano tutti i pulsanti che implementano l’insieme di algoritmi messi a disposizione da Weka, sia per la fase di preprocessing che per la creazione dei modelli di analisi. Nella zona “2” vengono indicati tutti gli attributi appartenenti al data set; in questa zona è possibile selezionare gli attributi o eliminarli se non si intende portarli avanti nella fase di analisi. Nella sottoarea “3” si trovano alcuni dati statistici e analisi preliminari degli attributi (media, varianza, massimo, minimo). Nella “4” invece

vengono rappresentati i grafici di distribuzione degli attributi selezionabili con un menù a tendina.

Fig 7.1 – Interfaccia grafica di Weka Explorer

7.3.2 KDDML

Il KDDML (KDD Markup Language) è una creazione del laboratorio di KDD dell’Università di Pisa, ancora in fase di realizzazione, infatti la versione attualmente a disposizione è una versione alfa.

La particolarità di questo software consiste nel fatto che è basato sul linguaggio XML dove i tags XML corrispondono alle operazioni da effettuare sui dati o sui modelli, e gli attributi dei tags corrispondono ai parametri degli operatori. La struttura di KDDML consente di renderlo facilmente estendibile, sia per quanto riguarda le sorgenti dati, che per gli algoritmi di preprocessing e di mining.

In figura 7.2 viene riportato un esempio dell’interfaccia di KDDML.

Nella zona “1” viene scritta la query XML; nella “2” si trovano tutte le operazioni possibili che si possono fare sui dati, sia operazioni di preprocessing, sia algoritmi di mining, che operazioni di caricamento dei dati. Nella sottoarea “3” il software indica lo stato di avanzamento del processo di mining o di caricamento dei dati, e l’esito delle compilazioni delle query.

Fig. 7.2 – Interfaccia grafica di KDDML

7.3.3 Clementine

Clementine costituisce sicuramente la soluzione ideale per il data mining. Propone una suite completa di algoritmi sia per il preprocessing che per l’analisi dei dati, anche se non a livello di Weka, lavora ottimamente anche con grandi quantità di record e attributi.

L’interfaccia grafica è molto curata e le soluzioni a disposizione per la visualizzazione dei dati sono molteplici. Il punto a suo sfavore è il costo, in genere molto elevato, soprattutto se acquistato da un privato.

La figura 7.3 rappresenta l’interfaccia di Clementine come si presenta all’apertura del programma.

Anche in questo caso l’interfaccia può essere suddivisa in quattro sottoaree. Nella zona “1” vengono indicati i modelli generati. Cliccando su questi modelli è possibile effettuare operazioni di salvataggio, caricamento o di browser.

La sottoarea “2” è la zona dell’interfaccia dedicata alla rappresentazione del flusso dei dati. Ogni nodo del grafico rappresenta un’operazione che si intende fare sui dati. Il nodo radice è il nodo di input tramite il quale si importano i dati. I nodi foglia sono sempre nodi output, cioè quei nodi che generano i modelli o i grafici di rappresentazione dei dati. I nodi intermedi servono per implementare le varie operazioni di preprocessing.

Nelle zone “3” e “4” si trovano tutti gli algoritmi che Clementine mette a disposizione per le analisi. Nella “3” vengono indicati i tipi di input accettati dal

sottoarea “4”, invece, si trovano tutti gli algoritmi di mining disponibili per la creazione di modelli (K-means, C5.0, Apriori Regressione Lineare, Reti Neurali, ecc...), e tutte le rappresentazioni grafiche dei dati (Plot, grafici di distribuzione, istogrammi, ecc...). Infine, si trovano anche i nodi di output che consentono di esportare i dati in altri formati o di effettuare delle analisi statistiche preliminari.

Fig. 7.3 – Interfaccia grafica di Clementine 6.5

7.3.4 Knowledge Studio

Knowledge Studio è un software completo e di facile utilizzo. Mette a disposizione dell’utente una grande varietà di grafici con la possibilità di un alto livello di personalizzazione degli stessi.

La figura 7.4 mostra l’interfaccia grafica di questo software divisa in due sezioni.

Nella sezione di sinistra vengono memorizzate tutte le operazioni effettuate sui dati, o i grafici creati. Mentre Clementine per rappresentare le operazioni effettuate sui dati utilizza un diagramma a flussi, come si può osservare in figura 7.3, si può dire che Knowledge Studio implementa una metodologia a cascata, in cui in sequenza cronologica vengono riportati i modelli o i grafici creati.

Nella sezione di destra, invece, si riportano i risultati delle analisi, siano essi grafici o report di dati.

Fig. 7.4 – Interfaccia grafica di Knowledge Studio