Analisi dei dati ed estrazione della conoscenza Gianluca Amato 14 Luglio 2005

(1)

Analisi dei dati ed estrazione della conoscenza

Gianluca Amato 14 Luglio 2005

Rispondete alle seguenti domande sui fogli forniti dal docente. Ricordatevi di segnare nome e cognome su ogni foglio. `E possibile utilizzare dispense, libri e appunti di ogni genere. `E anche possibile utilizzare calcolatrici e/o computer. In quest’ultimo caso va anche consegnato qualunque prodotto atto a dimostrare che non vi siete copiati il risultato dal vicino (output del programma utilizzato, eventuali file che avete creato allo scopo, etc..)

1. Supponete che un data warehouse consista delle quattro dimensioni data, spettatore, luogo e spettacolo e delle due misure contatore e prezzo, dove prezzo `e l’ammontare che lo spettatore paga per assistere a uno spettacolo in una determinata data e in un determinato luogo. Il campo spettatore pu`o assumere i valori studente, adulto e senior.

(a) Disegnate uno schema a stella per il data warehouse, tenendo conto anche di possibili gerarchie di concetti.

(b) Partendo dal cuboide di base { data, spettatore, luogo, gioco }, quali specifiche operazioni OLAP devono esere eseguite allo scopo di ottenere il totale pagato per ogni spettatore studente al Teatro Rossini nell’anno 2000?

(c) Supponete che il data warehouse sia memorizzato in un database relazionale, e che ogni tabella dei fatti e delle dimensioni del diagramma a stella corrisponda ad un diversa tabella relazionale. Qual `e la interrogazione SQL da utilizzare per ottenere lo stesso risultato del punto precedente?

2. Sia dato il seguente insieme di dati:

peso tipo

61 A

64 A

65 B

67 A

68 C

70 D

71 C

Si vuole discretizzare l’attributo peso, rimpiazzando i valori numerici con le etichette alto e basso. Determinare il risultato ottenuto quando si utilizza il metodo di discretizzazione basato sull’entropia (considerando l’attributo tipo come attributo classe).

3. Descrivere in maniera chiara e concisa cosa `e una regola associativa (`e sufficiente limitarsi al solo caso di regole associative booleane mono-dimensionali). Supporto e confidenza sono sempre buone misure oggettive per determinare quali sono le regole interessanti? (motivare la risposta)

4. Si consideri il seguente insieme di dati:

1

(2)

id x y

A 0 0

B 0 0.5

C 2 1

D 0.2 0.5

E 0 -0.8

F 2 2

Applicare un algoritmo di raggruppamento gerarchico agglomerativo e disegnare il dendogramma risultante. Il raggruppamento deve avvenire solo sulla base degli attributi x e y. Lo studente pu`o scegliere a suo piacimento il tipo di misura di distanza da utilizzare. Si consiglia di usare la distanza di Manhattan per misurare la distanza tra i singoli punti e il metodo della distanza minima per misurare la distanza tra gruppi.

5. Si consideri il seguente insieme di dati:

x y

1 0.37588 2 1.00450 3 0.83363 4 1.14230 5 0.69800 6 1.85084 7 0.96593 8 1.01001 9 1.81403 10 1.55026 11 1.29721 12 1.62657 13 1.37217 14 1.78812 15 1.79291 16 1.68171

Esprimere y in funzione di x usando il metodo di regressione lineare ai minimi quadrati. Si consiglia di utilizzare un programma apposito, come Weka o R. Consultare il sito web del corso per scaricare questo insieme di dati in formato testo.

2