• Non ci sono risultati.

Analisi dei dati ed estrazione della conoscenza Gianluca Amato 15 Settembre 2005

N/A
N/A
Protected

Academic year: 2021

Condividi "Analisi dei dati ed estrazione della conoscenza Gianluca Amato 15 Settembre 2005"

Copied!
2
0
0

Testo completo

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 15 Settembre 2005

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Descrivere quali sono le possibili strategie che pu`o seguire un server OLAP riguardo la materializzazione dei cuboidi. Discuterne i relativi vantaggi e svantaggi.

2. Sia data una relazione generalizzata R, derivata dal database DB. Supponete che un insieme di tuple ∆DB debba essere aggiunto al database DB. Delineare una procedura incrementale per applicare le necessarie modifiche direttamente ad R.

3. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F

104 A,C

105 A,B,C,D

Determinare gli itemset frequenti nel caso di supporto minimo dal 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un candidato itemset eliminato dal passo PRUNE.

4. Sia dato il seguente insieme di dati

animale vola acquatico zampe mammifero

colomba S N S N

mosca S N S N

delfino N S N S

squalo N S N N

lucertola N N S N

cane N N S S

pipistrello S N S S

Si supponga di addestrare con questi dati un classificatore Bayesiano naive, considerando l’attributo mammifero come attributo classe e ignorando l’attributo animale. Quale classe verrebbe predetta in presenza della seguente istanza?

animale vola acquatico zampe

negumi S S S

1

(2)

5. Si consideri il seguente insieme di dati:

id x y

A 0 0

B 0 0.5

C 2 1

D 0.2 0.5

E 0 -0.8

F 2 2

Applicare l’algoritmo k-means con k = 2, scegliendo come centri iniziali i punti A e B. Il raggruppamento deve avvenire solo sulla base degli attributi x e y. Lo studente pu´o scegliere a suo piacimento il tipo di distanza da utilizzare, ma si consiglia l’uso della distanza di Manhattan.

2

Riferimenti

Documenti correlati

● Dunque anche la statistica fornisce basi tecniche al data mining, sia per il processo di costruzione di pattern che per il processo di verifica della validità di quest'ultimi. ●

(b) Chi acquisisce a qualunque titolo un software di pubblico dominio con clausola copyleft può distribuire il software o un suo derivato ad altre persone, ma solo se ne cambia

(b) Chi acquisisce a qualunque titolo un software di pubblico dominio con clausola copyleft può distribuire il software o un suo derivato ad altre persone, ma solo se ne cambia

∀X ∈ Transazioni, compra(X, oggetto 1 ) ∧ compra(X, oggetto 2 ) ⇒ compra(X, oggetto 3 ) ; (b) al livello di granularit` a marca-categoria, elenca tutti gli itemset frequenti;?. (c)

Supponete che un data warehouse consista delle quattro dimensioni data, spettatore, luogo e spettacolo e delle due misure contatore e prezzo, dove prezzo ` e l’ammontare che

In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che

Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, quali sono gli itemset candidati eliminati dai passi

Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un 3-itemset candidato eliminato durante il passo PRUNE e un 3-itemset