Analisi dei dati ed estrazione della conoscenza Gianluca Amato 15 Settembre 2005

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 15 Settembre 2005

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Descrivere quali sono le possibili strategie che pu`o seguire un server OLAP riguardo la materializzazione dei cuboidi. Discuterne i relativi vantaggi e svantaggi.

2. Sia data una relazione generalizzata R, derivata dal database DB. Supponete che un insieme di tuple ∆DB debba essere aggiunto al database DB. Delineare una procedura incrementale per applicare le necessarie modifiche direttamente ad R.

3. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F

104 A,C

105 A,B,C,D

Determinare gli itemset frequenti nel caso di supporto minimo dal 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un candidato itemset eliminato dal passo PRUNE.

4. Sia dato il seguente insieme di dati

animale vola acquatico zampe mammifero

colomba S N S N

mosca S N S N

delfino N S N S

squalo N S N N

lucertola N N S N

cane N N S S

pipistrello S N S S

Si supponga di addestrare con questi dati un classificatore Bayesiano naive, considerando l’attributo mammifero come attributo classe e ignorando l’attributo animale. Quale classe verrebbe predetta in presenza della seguente istanza?

animale vola acquatico zampe

negumi S S S

1

(2)

5. Si consideri il seguente insieme di dati:

id x y

A 0 0

B 0 0.5

C 2 1

D 0.2 0.5

E 0 -0.8

F 2 2

Applicare l’algoritmo k-means con k = 2, scegliendo come centri iniziali i punti A e B. Il raggruppamento deve avvenire solo sulla base degli attributi x e y. Lo studente pu´o scegliere a suo piacimento il tipo di distanza da utilizzare, ma si consiglia l’uso della distanza di Manhattan.

2