• Non ci sono risultati.

Analisi dei dati ed estrazione della conoscenza Gianluca Amato 18 Maggio 2006

N/A
N/A
Protected

Academic year: 2021

Condividi "Analisi dei dati ed estrazione della conoscenza Gianluca Amato 18 Maggio 2006"

Copied!
2
0
0

Testo completo

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 18 Maggio 2006

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Sia dato il seguente insieme di dati, nel quale l’attributo stipendio `e da considare l’attributo classe:

nome et`a anni servizio dipartimento stipendio

Gianluca 30 10 Ricerca basso

Carla 50 20 Ricerca alto

Lucia 50 25 Vendite alto

Michela 40 10 Vendite alto

Dopo aver normalizzato i dati di tipo numerico, calcolare il tasso di errore utilizzando il metodo di leave one out cross validation e l’algoritmo 1-nearest neighbour.

2. Sia dato il seguente insieme di dati:

id x y

A 0 0

B 0 1

C 2 1

D 2 2

E 2 3

Applicare l’algoritmo k-medoids con k=2, considerando i punti C ed E come medoidi iniziali. Si consiglia di utilizzare la distanza di Manhattan.

3. Descrivere gli algoritmi di bagging e boosting usati per la combinazione di classificatori.

4. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C,F 101 A,C,E,F 102 A,B,D,F 103 B,E,F

104 A,C

105 A,B,C,D

Determinare gli itemset frequenti nel caso di supporto minimo del 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un 3-itemset candidato eliminato durante il passo PRUNE e un 3-itemset candidato eliminato durante il controllo del supporto minimo.

1

(2)

5. Sia data la seguente distribuzione numerica: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 36, 40, 45, 46, 52, 70. Disegnare il boxplot della distribuzione, e il diagramma quantile-quantile rispetto a quest’altra distribuzione: 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62.

2

Riferimenti

Documenti correlati

Motore di data mining Valutatore per modelli.

● Dunque anche la statistica fornisce basi tecniche al data mining, sia per il processo di costruzione di pattern che per il processo di verifica della validità di quest'ultimi. ●

● Dunque anche la statistica fornisce basi tecniche al data mining, sia per il processo di costruzione di pattern che per il processo di verifica della validità di quest'ultimi. ●

∀X ∈ Transazioni, compra(X, oggetto 1 ) ∧ compra(X, oggetto 2 ) ⇒ compra(X, oggetto 3 ) ; (b) al livello di granularit` a marca-categoria, elenca tutti gli itemset frequenti;?. (c)

Supponete che un data warehouse consista delle quattro dimensioni data, spettatore, luogo e spettacolo e delle due misure contatore e prezzo, dove prezzo ` e l’ammontare che

In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che

In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che

Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, quali sono gli itemset candidati eliminati dai passi