• Non ci sono risultati.

ESERCIZIO BONUS 4 (+0.2) – Utilizzo del software WEKA per l’ implementazione di processi di data mining

N/A
N/A
Protected

Academic year: 2021

Condividi "ESERCIZIO BONUS 4 (+0.2) – Utilizzo del software WEKA per l’ implementazione di processi di data mining"

Copied!
2
0
0

Testo completo

(1)

ESERCIZIO BONUS 4 (+0.2) – Utilizzo del software WEKA per

l’ implementazione di processi di data mining 16/12/2020, Consegna: 8/1/2021, ore 23.55

Modalità di consegna à Attraverso la piattaforma di e-learning VIRTUALE (https://virtuale.unibo.it) di UNIBO. Passi da svolgere:

1) Collegarsi a: https://virtuale.unibo.it, utilizzando le proprie credenziali istituzionali UNIBO (email/password) per l’accesso.

2) Scegliere il corso di Basi di dati della Laurea in Informatica per il Management, anno accademico 2020/2021 (codice: 70155).

3) Cliccare su Esercizio Bonus 3 à Consegna File, e procedere con l’upload del file contenente la soluzione dell’esercizio. E’ possibile ripetere l’operazione di upload.

4) Quando si vuole consegnare l’elaborato DEFINITIVO, cliccare su “Consegna Compito”.

Da questo momento, nessun ulteriore upload è possibile. Se non si clicca su “Consegna Compito”, il docente NON vede l’elaborato.

5) La sottomissione è possibile dal 16/12/2020 al 8/1/2021, ore 23.55

COSA CONSEGNARE?

• Allegare un singolo file consegna4.pdf, contenente la soluzione degli esercizi proposti.

---

Facendo riferimento al dataset: wikeWEKA.arff (disponibile sulla pagina del corso), ed utilizzando il software WEKA (disponibile presso l’URL:

http://www.cs.waikato.ac.nz/ml/weka/), svolgere i seguenti esercizi:

a) Confrontare l’accuracy dei seguenti algoritmi di classificazione, utilizzando un test di cross-validation (10 folds, attributo da classificare: Class):

Ø ZeroR (path: weka àclassifiers à rules à ZeroR)

Ø RandomTree (path: weka à classifiers à trees à RandomTree)

Ø RandomForest (path: weka à classifiers à trees à RandomForest) con #Tree=500

Ø NaiveBayes (path: weka à classifiers à bayes à NaiveBayes)

Ø KNN (path: weka à classifiers à lazy à IBk), ripetendo l’analisi con K=2, 3, 4

Produrre la tabella sotto indicata. Quale algoritmo produce l’accuracy più alta?

Nome Algoritmo Accuratezza (%)

(2)

b) Riportare la confusion matrix relativa all’algoritmo di NaiveBayes. Per quale classe si registra il maggior numero di istanze classificate correttamente?

c) Ripetere l’analisi per il classificatore NaiveBayes nel caso in cui si applichi una selezione degli attributi (WEKAà Select Attributes, osservare la lista degli attributi selezionati, e successivamente eliminare, con il comando di Remove, quelli non presenti nella lista) presenti nel data-set. Indicare gli attributi selezionati, e la nuova accuracy ottenuta.

Confrontare il risultato con quanto ottenuto al punto (a).

d) Ripetere l’analisi per il classificatore NaiveBayes nel caso in cui si sostituscano i valori mancanti (“?”) di un attributo con il rispettivo valor medio (Applicare filtro di WEKA: weka à filters à unsupervised à attribute à ReplaceMissingValues). Indicare la nuova accuracy ottenuta. Confrontare il risultato con quanto ottenuto al punto (a).

e) Applicare iterativamente l’algoritmo di clustering K-means (weka à clusterers à SimpleKMeans), aumentando il numero di clusters creato ad ogni iterazione (#cluster iniziali=2), fin quando l’errore (within cluster sum of squared errors) diventa minore del valore soglia, posto uguale a 1500.

Ø Quanti clusters sono creati?

---

VINCOLI DI CONSEGNA

• NON sono consentite consegne di gruppo. Consegne multiple (ossia stesse consegne da parte di più studenti) NON sono valutate.

• La consegna deve avvenire attraverso la piattaforma indicata nella prima pagina, ed entro la deadline stabilita. Consegne via email NON saranno valutate.

• L’assegnamento del bonus è una funzione booleana (assegnato/non assegnato).

Riferimenti

Documenti correlati

Importare i documenti presenti nel file farmacie.json (file presente sulla pagina Web del corso) all’interno del database farmacieBO e -nello specifico- all’interno della collezione

Resample the dataset Preprocess à Supervised à Instances à Resample, click on properties and set the sampleSizePercent Select the attributes Preprocess à Supervised. à

[r]

The purpose of this paper is to analyse the determinants of the localisation of industrial activity in Spain during the second half o f the nineteenth century and

1 Customer Relationship Management (CRM) Market Analysis By Deployment, By Enterprise Size, By Application (BFSI, Retail, Healthcare, Telecom & IT, Discrete Manufacturing),

Martino ed alla cpp dell'esercitazione 6 si ricerchi il valore di picco di piena che deriva da ietogrammi ad intensità costante (ietogrammi rettangolari) di durata variabile tra 1/6

L’esercitazione richiede di riesaminare la formula tradizionale del metodo razionale con diverse durate della precipitazione di progetto, inoltre, per un tempo di ritorno di 100

Ovviamente la durata maggiore di precipitazione produrrà il picco di piena maggiore, analizzando tali dati con il metodo psi, tale valore di picco coinciderà con il valore della