ESERCIZIO BONUS 4 (+0.2) – Utilizzo del software WEKA per l’ implementazione di processi di data mining

(1)

ESERCIZIO BONUS 4 (+0.2) – Utilizzo del software WEKA per

l’ implementazione di processi di data mining 16/12/2020, Consegna: 8/1/2021, ore 23.55

Modalità di consegna à Attraverso la piattaforma di e-learning VIRTUALE (https://virtuale.unibo.it) di UNIBO. Passi da svolgere:

1) Collegarsi a: https://virtuale.unibo.it, utilizzando le proprie credenziali istituzionali UNIBO (email/password) per l’accesso.

2) Scegliere il corso di Basi di dati della Laurea in Informatica per il Management, anno accademico 2020/2021 (codice: 70155).

3) Cliccare su Esercizio Bonus 3 à Consegna File, e procedere con l’upload del file contenente la soluzione dell’esercizio. E’ possibile ripetere l’operazione di upload.

4) Quando si vuole consegnare l’elaborato DEFINITIVO, cliccare su “Consegna Compito”.

Da questo momento, nessun ulteriore upload è possibile. Se non si clicca su “Consegna Compito”, il docente NON vede l’elaborato.

5) La sottomissione è possibile dal 16/12/2020 al 8/1/2021, ore 23.55

COSA CONSEGNARE?

• Allegare un singolo file consegna4.pdf, contenente la soluzione degli esercizi proposti.

---

Facendo riferimento al dataset: wikeWEKA.arff (disponibile sulla pagina del corso), ed utilizzando il software WEKA (disponibile presso l’URL:

http://www.cs.waikato.ac.nz/ml/weka/), svolgere i seguenti esercizi:

a) Confrontare l’accuracy dei seguenti algoritmi di classificazione, utilizzando un test di cross-validation (10 folds, attributo da classificare: Class):

Ø ZeroR (path: weka àclassifiers à rules à ZeroR)

Ø RandomTree (path: weka à classifiers à trees à RandomTree)

Ø RandomForest (path: weka à classifiers à trees à RandomForest) con #Tree=500

Ø NaiveBayes (path: weka à classifiers à bayes à NaiveBayes)

Ø KNN (path: weka à classifiers à lazy à IBk), ripetendo l’analisi con K=2, 3, 4

Produrre la tabella sotto indicata. Quale algoritmo produce l’accuracy più alta?

Nome Algoritmo Accuratezza (%)

(2)

b) Riportare la confusion matrix relativa all’algoritmo di NaiveBayes. Per quale classe si registra il maggior numero di istanze classificate correttamente?

c) Ripetere l’analisi per il classificatore NaiveBayes nel caso in cui si applichi una selezione degli attributi (WEKAà Select Attributes, osservare la lista degli attributi selezionati, e successivamente eliminare, con il comando di Remove, quelli non presenti nella lista) presenti nel data-set. Indicare gli attributi selezionati, e la nuova accuracy ottenuta.

Confrontare il risultato con quanto ottenuto al punto (a).

d) Ripetere l’analisi per il classificatore NaiveBayes nel caso in cui si sostituscano i valori mancanti (“?”) di un attributo con il rispettivo valor medio (Applicare filtro di WEKA: weka à filters à unsupervised à attribute à ReplaceMissingValues). Indicare la nuova accuracy ottenuta. Confrontare il risultato con quanto ottenuto al punto (a).

e) Applicare iterativamente l’algoritmo di clustering K-means (weka à clusterers à SimpleKMeans), aumentando il numero di clusters creato ad ogni iterazione (#cluster iniziali=2), fin quando l’errore (within cluster sum of squared errors) diventa minore del valore soglia, posto uguale a 1500.

Ø Quanti clusters sono creati?

---

VINCOLI DI CONSEGNA

• NON sono consentite consegne di gruppo. Consegne multiple (ossia stesse consegne da parte di più studenti) NON sono valutate.

• La consegna deve avvenire attraverso la piattaforma indicata nella prima pagina, ed entro la deadline stabilita. Consegne via email NON saranno valutate.

• L’assegnamento del bonus è una funzione booleana (assegnato/non assegnato).