Analisi dei dati ed estrazione della conoscenza Gianluca Amato 18 Maggio 2006

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 18 Maggio 2006

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Sia dato il seguente insieme di dati, nel quale l’attributo stipendio `e da considare l’attributo classe:

nome et`a anni servizio dipartimento stipendio

Gianluca 30 10 Ricerca basso

Carla 50 20 Ricerca alto

Lucia 50 25 Vendite alto

Michela 40 10 Vendite alto

Dopo aver normalizzato i dati di tipo numerico, calcolare il tasso di errore utilizzando il metodo di leave one out cross validation e l’algoritmo 1-nearest neighbour.

2. Sia dato il seguente insieme di dati:

id x y

A 0 0

B 0 1

C 2 1

D 2 2

E 2 3

Applicare l’algoritmo k-medoids con k=2, considerando i punti C ed E come medoidi iniziali. Si consiglia di utilizzare la distanza di Manhattan.

3. Descrivere gli algoritmi di bagging e boosting usati per la combinazione di classificatori.

4. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C,F 101 A,C,E,F 102 A,B,D,F 103 B,E,F

104 A,C

105 A,B,C,D

Determinare gli itemset frequenti nel caso di supporto minimo del 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un 3-itemset candidato eliminato durante il passo PRUNE e un 3-itemset candidato eliminato durante il controllo del supporto minimo.

1

(2)

5. Sia data la seguente distribuzione numerica: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 36, 40, 45, 46, 52, 70. Disegnare il boxplot della distribuzione, e il diagramma quantile-quantile rispetto a quest’altra distribuzione: 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62.

2