• Non ci sono risultati.

Analisi dei dati ed estrazione della conoscenza Gianluca Amato 9 Febbraio 2006

N/A
N/A
Protected

Academic year: 2021

Condividi "Analisi dei dati ed estrazione della conoscenza Gianluca Amato 9 Febbraio 2006"

Copied!
2
0
0

Testo completo

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 9 Febbraio 2006

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Le misure in un data cube si possono classificare in base al tipo di funzione aggregata che utilizzano. A tal proposito:

• illustrare quali sono le differenze tra funzioni aggregate distributive, algebriche e olistiche;

• dimostrare che lo scarto quadratico medio `e una funzione algebrica.

2. Sia dato il seguente insieme di dati:

nome et`a dipartimento stipendio

Gianluca 31 Ricerca basso

Paolo 20 Ricerca basso

Carla 50 Ricerca alto

Carmelo 50 Ricerca basso

Gino 25 Vendite alto

Lucia 50 Vendite alto

Michela 40 Vendite alto

Lo si vuole dare in input ad un algoritmo di classificazione che tratta solo attributi di tipo categoriale, consi- derando “stipendio” come attributo classe. Effettuare tutte le operazioni di trasformazione preliminari ritenute utili allo scopo (discretizzazione, rimozione attributi ridondanti, etc..)

3. Sull’insieme di dati pulito ottenuto al passo precedente, applicare l’algoritmo di classificazione PRISM. Qual `e l’errore di sostituzione che si ottiene? Quale l’errore utilizzando il metodo di “leave one out cross validation”?

4. Sia dato un insieme di dati che include, tra gli altri, un’attributo et`a. I valori per questo attributo presenti nelle istanze, ordinati in ordine crescente, sono: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 36, 40, 45, 46, 52, 70.

• usare la tecnica di equidepth binning con profondit`a (depth) uguale a 3 per ammorbidire i dati in input.

• che altri metodi si possono usare in alternativa all’equidepth binning?

5. Sia dato il seguente database transazionale:

TID oggetti 100 A,B,C 101 A,C,E,F 102 A,B,D,F 103 A,B,E,F

104 A,C

105 A,B,C,D

1

(2)

Determinare gli itemset frequenti nel caso di supporto minimo del 20%. Supponendo di utilizzare l’algoritmo APriori per calcolare gli itemset frequenti, quali sono gli itemset candidati eliminati dai passi PRUNE?

2

Riferimenti

Documenti correlati

Motore di data mining Valutatore per modelli.

– In questo caso, spesso si calcola il guadagno di informazione che si ottiene dividendo l'intervallo di tutti i possibili valori per un attributo A in due sotto-intervalli,

● Dunque anche la statistica fornisce basi tecniche al data mining, sia per il processo di costruzione di pattern che per il processo di verifica della validità di quest'ultimi. ●

● Dunque anche la statistica fornisce basi tecniche al data mining, sia per il processo di costruzione di pattern che per il processo di verifica della validità di quest'ultimi. ●

(b) Chi acquisisce a qualunque titolo un software di pubblico dominio con clausola copyleft può distribuire il software o un suo derivato ad altre persone, ma solo se ne cambia

∀X ∈ Transazioni, compra(X, oggetto 1 ) ∧ compra(X, oggetto 2 ) ⇒ compra(X, oggetto 3 ) ; (b) al livello di granularit` a marca-categoria, elenca tutti gli itemset frequenti;?. (c)

Supponete che un data warehouse consista delle quattro dimensioni data, spettatore, luogo e spettacolo e delle due misure contatore e prezzo, dove prezzo ` e l’ammontare che

In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che