Analisi dei dati ed estrazione della conoscenza
Gianluca Amato 19 Gennaio 2006
Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)
1. Descrivere quali sono i vantaggi dei Data Warehouse rispetto ai DBMS eterogenei.
2. Sia data una relazione generalizzata R, derivata dal database DB. Supponete che un insieme di tuple ∆DB debba essere cancellato dal database DB. Delineare una procedura incrementale per applicare le necessarie modifiche direttamente ad R.
3. Sia dato il seguente database transazionale:
TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F
104 A,C
105 A,B,C,D
Determinare gli itemset frequenti nel caso di supporto minimo dal 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un itemset candidato eliminato dal passo PRUNE.
4. Sia dato il seguente insieme di dati:
peso tipo
61 A
64 A
65 B
67 A
68 C
70 D
71 C
Si vuole discretizzare l’attributo peso, rimpiazzando i valori numerici con le etichette alto e basso. Determinare il risultato ottenuto quando si utilizza il metodo di discretizzazione basato sull’entropia (considerando l’attributo tipo come attributo classe).
5. Si considerino i valori = 1 e MinPts = 2, e l’insieme di dati che segue:
1
id x y
A 0 0
B 0 0.5
C 2 1
D 0.2 0.5
E 0 -0.8
F 2 2
(a) descrivere brevemente il funzionamento di un algoritmo di raggruppamento basato sulle densit`a (b) nel caso specifico di questo insieme di dati, quali sono i core object?
(c) nel caso specifico di questo insieme di dati, quali cluster verrebbero individuati da un algoritmo basato sulle densit`a?
2