Analisi dei dati ed estrazione della conoscenza Gianluca Amato 9 Febbraio 2006

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 9 Febbraio 2006

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Le misure in un data cube si possono classificare in base al tipo di funzione aggregata che utilizzano. A tal proposito:

• illustrare quali sono le differenze tra funzioni aggregate distributive, algebriche e olistiche;

• dimostrare che lo scarto quadratico medio `e una funzione algebrica.

2. Sia dato il seguente insieme di dati:

nome et`a dipartimento stipendio

Gianluca 31 Ricerca basso

Paolo 20 Ricerca basso

Carla 50 Ricerca alto

Carmelo 50 Ricerca basso

Gino 25 Vendite alto

Lucia 50 Vendite alto

Michela 40 Vendite alto

Lo si vuole dare in input ad un algoritmo di classificazione che tratta solo attributi di tipo categoriale, consi- derando “stipendio” come attributo classe. Effettuare tutte le operazioni di trasformazione preliminari ritenute utili allo scopo (discretizzazione, rimozione attributi ridondanti, etc..)

3. Sull’insieme di dati pulito ottenuto al passo precedente, applicare l’algoritmo di classificazione PRISM. Qual `e l’errore di sostituzione che si ottiene? Quale l’errore utilizzando il metodo di “leave one out cross validation”?

4. Sia dato un insieme di dati che include, tra gli altri, un’attributo et`a. I valori per questo attributo presenti nelle istanze, ordinati in ordine crescente, sono: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 36, 40, 45, 46, 52, 70.

• usare la tecnica di equidepth binning con profondit`a (depth) uguale a 3 per ammorbidire i dati in input.

• che altri metodi si possono usare in alternativa all’equidepth binning?

5. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F

104 A,C

105 A,B,C,D

1

(2)

Determinare gli itemset frequenti nel caso di supporto minimo del 20%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, quali sono gli itemset candidati eliminati dai passi PRUNE?

2