Analisi dei dati ed estrazione della conoscenza
Gianluca Amato 18 Maggio 2006
Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)
1. Sia dato il seguente insieme di dati, nel quale l’attributo stipendio `e da considare l’attributo classe:
nome et`a anni servizio dipartimento stipendio
Gianluca 30 10 Ricerca basso
Carla 50 20 Ricerca alto
Lucia 50 25 Vendite alto
Michela 40 10 Vendite alto
Dopo aver normalizzato i dati di tipo numerico, calcolare il tasso di errore utilizzando il metodo di leave one out cross validation e l’algoritmo 1-nearest neighbour.
2. Sia dato il seguente insieme di dati:
id x y
A 0 0
B 0 1
C 2 1
D 2 2
E 2 3
Applicare l’algoritmo k-medoids con k=2, considerando i punti C ed E come medoidi iniziali. Si consiglia di utilizzare la distanza di Manhattan.
3. Descrivere gli algoritmi di bagging e boosting usati per la combinazione di classificatori.
4. Sia dato il seguente database transazionale:
TID oggetti 100 A,B,C,F 101 A,C,E,F 102 A,B,D,F 103 B,E,F
104 A,C
105 A,B,C,D
Determinare gli itemset frequenti nel caso di supporto minimo del 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un 3-itemset candidato eliminato durante il passo PRUNE e un 3-itemset candidato eliminato durante il controllo del supporto minimo.
1
5. Sia data la seguente distribuzione numerica: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 36, 40, 45, 46, 52, 70. Disegnare il boxplot della distribuzione, e il diagramma quantile-quantile rispetto a quest’altra distribuzione: 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62.
2