Analisi dei dati ed estrazione della conoscenza Gianluca Amato 19 Gennaio 2006

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 19 Gennaio 2006

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Descrivere quali sono i vantaggi dei Data Warehouse rispetto ai DBMS eterogenei.

2. Sia data una relazione generalizzata R, derivata dal database DB. Supponete che un insieme di tuple ∆DB debba essere cancellato dal database DB. Delineare una procedura incrementale per applicare le necessarie modifiche direttamente ad R.

3. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F

104 A,C

105 A,B,C,D

Determinare gli itemset frequenti nel caso di supporto minimo dal 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un itemset candidato eliminato dal passo PRUNE.

4. Sia dato il seguente insieme di dati:

peso tipo

61 A

64 A

65 B

67 A

68 C

70 D

71 C

Si vuole discretizzare l’attributo peso, rimpiazzando i valori numerici con le etichette alto e basso. Determinare il risultato ottenuto quando si utilizza il metodo di discretizzazione basato sull’entropia (considerando l’attributo tipo come attributo classe).

5. Si considerino i valori = 1 e MinPts = 2, e l’insieme di dati che segue:

1

(2)

id x y

A 0 0

B 0 0.5

C 2 1

D 0.2 0.5

E 0 -0.8

F 2 2

(a) descrivere brevemente il funzionamento di un algoritmo di raggruppamento basato sulle densit`a (b) nel caso specifico di questo insieme di dati, quali sono i core object?

(c) nel caso specifico di questo insieme di dati, quali cluster verrebbero individuati da un algoritmo basato sulle densit`a?

2