• Non ci sono risultati.

Analisi dei dati ed estrazione della conoscenza Gianluca Amato 19 Gennaio 2006

N/A
N/A
Protected

Academic year: 2021

Condividi "Analisi dei dati ed estrazione della conoscenza Gianluca Amato 19 Gennaio 2006"

Copied!
2
0
0

Testo completo

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 19 Gennaio 2006

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Descrivere quali sono i vantaggi dei Data Warehouse rispetto ai DBMS eterogenei.

2. Sia data una relazione generalizzata R, derivata dal database DB. Supponete che un insieme di tuple ∆DB debba essere cancellato dal database DB. Delineare una procedura incrementale per applicare le necessarie modifiche direttamente ad R.

3. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F

104 A,C

105 A,B,C,D

Determinare gli itemset frequenti nel caso di supporto minimo dal 50%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, determinare almeno un itemset candidato eliminato dal passo PRUNE.

4. Sia dato il seguente insieme di dati:

peso tipo

61 A

64 A

65 B

67 A

68 C

70 D

71 C

Si vuole discretizzare l’attributo peso, rimpiazzando i valori numerici con le etichette alto e basso. Determinare il risultato ottenuto quando si utilizza il metodo di discretizzazione basato sull’entropia (considerando l’attributo tipo come attributo classe).

5. Si considerino i valori  = 1 e MinPts = 2, e l’insieme di dati che segue:

1

(2)

id x y

A 0 0

B 0 0.5

C 2 1

D 0.2 0.5

E 0 -0.8

F 2 2

(a) descrivere brevemente il funzionamento di un algoritmo di raggruppamento basato sulle densit`a (b) nel caso specifico di questo insieme di dati, quali sono i core object?

(c) nel caso specifico di questo insieme di dati, quali cluster verrebbero individuati da un algoritmo basato sulle densit`a?

2

Riferimenti

Documenti correlati

● Dunque anche la statistica fornisce basi tecniche al data mining, sia per il processo di costruzione di pattern che per il processo di verifica della validità di quest'ultimi. ●

(c) Il sotware libero viene ceduto senza licenza d'uso, mentre quello freeware ha una licenza d'uso, sebbene poco restrittiva.. (d) Il sotware freeware viene ceduto senza

(b) Chi acquisisce a qualunque titolo un software di pubblico dominio con clausola copyleft può distribuire il software o un suo derivato ad altre persone, ma solo se ne cambia

(b) Chi acquisisce a qualunque titolo un software di pubblico dominio con clausola copyleft può distribuire il software o un suo derivato ad altre persone, ma solo se ne cambia

∀X ∈ Transazioni, compra(X, oggetto 1 ) ∧ compra(X, oggetto 2 ) ⇒ compra(X, oggetto 3 ) ; (b) al livello di granularit` a marca-categoria, elenca tutti gli itemset frequenti;?. (c)

Supponete che un data warehouse consista delle quattro dimensioni data, spettatore, luogo e spettacolo e delle due misure contatore e prezzo, dove prezzo ` e l’ammontare che

In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che

Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, quali sono gli itemset candidati eliminati dai passi