• Non ci sono risultati.

nei campi applicativi attraverso l’uso di tecniche di data mining

N/A
N/A
Protected

Academic year: 2021

Condividi "nei campi applicativi attraverso l’uso di tecniche di data mining"

Copied!
15
0
0

Testo completo

(1)

I vantaggi ottenibili

nei campi applicativi attraverso l’uso di tecniche di data mining

Dipartimento

di Informatica e Sistemistica

Renato Bruni

bruni@dis.uniroma1.it

Antonio Sassano

sassano@dis.uniroma1.it

Seminario Metodi e Algoritmi per il Controllo e la Correzione dei Dati delle Famiglie, Roma, 29 Marzo 2004

(2)

Sommario

„

Cosa si intende con Data Mining?

„

Il processo di Knowledge Discovey

„

Diversi aspetti del Data Mining

„

Vari algoritmi di Data Mining

(3)

Cos’è il Data Mining?

„

Problema dell’esplosione dei dati:

L’uso dell’archiviazione informatica unita alla tecnologia dei database

porta ad avere collezioni di informazione di dimensioni impressionanti.

„

We are drowning in data, but starving for knowledge!

Avere molti dati è un vantaggio, ma complica la loro gestione.

Per utilizzarli occorrono strumenti sempre più sofisticati.

„

Data mining (knowledge discovery in databases):

Estrazione di informazioni non ovvie, precedentemente non note e

potenzialmente utili (regole, regolarità, pattern, etc. = conoscenza)

contenute in grandi quantità di dati.

(4)

Perché Data Mining? - Applicazioni

Presentare conoscenza anziché soltanto dati è essenziale in una serie di situazioni:

„

Analisi di Database (Estrazione di regole, Associazioni)

„

Analisi di Mercato (Customer profiling, Marketing)

„

Analisi di Rischio (Finance planning, Investimenti)

„

Individuazione di Frodi (Carte di credito, Sofisticazioni alimentari)

„

Supporto alle Decisioni (Resource management, Allocazione)

„

Analisi Mediche (Diagnosi, Gestione donatori)

„

Text mining (news-group, email, documents) nel Web

„

Analisi di Politiche Economiche o Sociali (Rule learning)

„

Analisi di Eventi Rari …

(5)

Il Data Mining nel processo di KDD

Il Data mining è il cuore del processo di Knowledge

Discovery in Databases (KDD).

Data Cleaning and Integration Task-relevant Data

Data Selection Data Mining

Pattern Evaluation Pattern

Data Warehouse

Databases

(6)

Data Mining: Confluenza di Discipline

Ricerca Operativa Statistica

Data Mining

Database Technology Informatica

Servono modelli adeguati, algoritmi efficienti, gestione

delle informazioni evoluta, presentazione dei risultati fruibile.

I quattro aspetti sono sinergici e complementari.

(7)

Diversi Aspetti del Data Mining

„

Classificazione: apprendimento di una funzione per mappare oggetti in un insieme predefinito di classi.

„

Regressione: apprendimento di una funzione per mappare un oggetto in un valore reale.

„

Clustering: identificazione di una collezione di gruppi di oggetti simili.

„

Apprendimento di Dipendenze e Associazioni:

identificazione di dipendenze significative tra gli attributi dei dati.

„

Apprendimento di Regole e Sommarizazione:

individuazione di una descrizione compatta di un insieme o

sottoinsieme di dati.

(8)

Es. Classificazione: Fraud Detection

No Divorziato

20.450 Siena

VIP

Si Coniugato

12.440 Roma

B

No Separato

26.600 Milano

B

Si Coniugato

35.600 Napoli

A

No Nubile

21.500 Napoli

A

No Celibe

33.460 Roma

VIP

Si Divorziato

25.560 Genova

B

No Coniugato

13.450 Milano

B

Si Celibe

10.500 Roma

A

Frode Stato

Civile Reddito

Città Tipo

cliente

Catego ric

Catego ric

Continuo ass

Catego

o ric o

o

Cl e

Training

set Classificatori

Classificazione

? Celibe

40.500 Roma

A

? Celibe

43.600 Torino

A

? Coniugato

20.300 Milano

B

? Coniugato

21.900 Napoli

A

? Separato

63.600 Torino

B

? Nubile

12.500 Roma

A

? Celibe

21.470 Milano

B

Frode Stato

civile Reddito

Città Tipo

cliente

Test set

Apprendimento

classificatori

(9)

Es. Regressione: Predizione Vendite

Variabile dipendente (numerica)

355 Occasionale

20,50 13,50

988 Frequente

12,90 8,50

3 Raro

26,90 12,90

57 Frequente

35,90 19,00

79 Frequente

1,50 1,00

44 Occasionale

33,95 15,50

234 Frequente

25,50 15,50

21 Raro

12,80 6,00

154 Frequente

11,50 5,00

Vendite Prezzo Uso

di Vendita Costo

Materiale

Training

set Apprendimento Funzione

parametri

Regressione Variabili predittrici

? Occasionale

49,90 24,00

? Raro

26,60 12,00

? Frequente

4,90 2,50

? Raro

128.00 63,00

? Occasionale

25,90 14,50

? Occasionale

11,00 5,50

? Frequente

19,90 10,00

Vendite Prezzo Uso

di Vendita Costo

Materiale

Test set

Definizione

del modello

(lineare, etc.)

(10)

Es. Clustering: Market Segmentation

50 Celibe

40.500 Roma

6

240 Celibe

43.600 Torino

7

645 Coniugato

20.300 Milano

5

12.000 Coniugata

21.900 Napoli

4

250 Separato

63.600 Torino

3

400 Nubile

12.500 Roma

2

2.500 Celibe

21.470 Milano

1

Pagam Stato ento

civile Reddito

Città ID

cliente

1

2 3

4

5

6 2 2

6

5

2 2

8

5

6 4

Voglio dividere i clienti in k=3 gruppi che verranno trattati diversamente.

Data set

Calcolo della similitudine tra clienti ottenendo delle distanze

Partizionamento in k gruppi minimizzando

le distanze tra record dello stesso gruppo

(11)

Es. Associazione: Acquisti di Beni

Pane ÅÆ Latte {Pasta, Vino}ÆCarne

Pasta, Vino, Carne 6

Vino, Birra 7

Pasta, Pane, Vino, Latte, Carne 5

Pane, Formaggio, Latte 4

Carne, Formaggio 3

Pane, Pasta, Biscotti, Latte 2

Pane, Latte, Uova 1

Oggetti Acquistati

ID

Dato un insieme di record, ognuno

contenente oggetti appartenenti a un elenco, individuare regole di

dipendenza per predire l’occorrenza di in oggetto in base all’occorrenza di altri oggetti.

Apprendimento

Dipendenze e

Associazioni

Data set

(12)

Es. Sommarizzazione: Funghi Velenosi

9 5

Screziata Bianco

10 6

Liscia Grigio

16 10

Liscia Rosso

6 3

Screziata Bianco

10 10

Screziata Rosso

12 6

Liscia Grigio

8 10

Screziata Grigio

7 4

Liscia Bianco

5 13

Screziata Rosso

Altezza Gambo Diametro

Superficie Colore

Data set

(NOT Bianco AND Screziato) OR (Altezza/Diametro > 1.5) Cat egorico

Cat egorico

Continuo Continuo

Dati record rappresentanti funghi velenosi, trovarne una descrizione compatta.

La conoscenza così trovata può poi essere usata in molti modi.

Apprendimento

descrizione compatta

(13)

Tecniche di Data Mining (Cenni) “Tortura i dati finché non confessano”

Sono state proposte molte e diverse tecniche, aventi ognuna specifiche caratteristiche e vantaggi.

Alberi di Decisione: Classificazione, Sommarizzazione, es: C4.5, CART, IC3, Entropia, CHAID.

Analisi logica e Programmazione Intera: Classificazione, Apprendimento di Regole, es: LAD.

Teoria dei Grafi: Clustering, Classificazione, es: B&C.

Rappresentazioni analitiche dei dati (OLAP): Sommarizzazione, Database streaming.

Reti neurali (ANN): Classificazione, es: Perceptron, a singolo strato, multi-strato, Backpropagation, Radial-Basis Function (RBF) networks, es: SNNS, Nevprop.

Metodi Bayesiani: Regressione, Classificazione, Bayesian Learning, Bayesian belief network, Bayesian Classifiers, Maximum Likelihood.

Support Vector Machines (SVM): Classificazione, Pattern recognition, es: RSVM.

Association/Pattern Discovery: Regole di associazione e dipendenze, pattern

sequenziali, es: CN2.

(14)

Conclusioni

„

In molti casi è essenziale essere in grado di estrarre della conoscenza dai dati, cioè fare Data Mining. Chi possiede i dati potrebbe identificarsi con chi ne estrae la conoscenza.

„

All’aumentare delle dimensioni degli insiemi di dati queste operazioni richiedono strumenti automatici sempre più

sofisticati.

„

Per fare Data Mining sono necessarie competenze di varie discipline: in particolare, sono necessari modelli adeguati, algoritmi efficienti, implementazione evoluta, tecnologia di gestione dei dati sofisticata.

„

Siamo di nuovo a un inizio?

(15)

References

„

U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996.

„

J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000.

„

D. Hand, H. Mannila and P. Smyth. Principles of Data Mining. The MIT Press, 2001.

„

V.N. Vapnik. Statistical Learning Theory. Wiley & Sons, 1998.

„

T. Hastie, R. Tibshirani and J. Friedman. The Elements of Statistical Learning.

Springer 2001.

„

G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases.

AAAI/MIT Press, 1991.

Riferimenti

Documenti correlati

In the amino acids for which we were able to examine both racemization and hydrolysis (aspartic acid/asparagine, glutamic acid/glutamine and alanine), it was clear that hydrolysis

Results: After adjustment for age, the contribution of fat oxidation to metabolic energy sources, normalized for fat-free mass, in fasting conditions was significantly correlated

–  Generate high confidence rules from each frequent itemset, where each rule is a binary par77oning of a frequent itemset. •  Frequent itemset generation is still computationally

To observe which data instances were selected, feed the output of the Data Sampler widget to the Data Table or Info widgets.#.. The Classification Tree widget outputs a

Franco Scarselli Sistemi per basi di dati 2005-2006 15. Strumenti per il

Data Base and Data Mining Group of Politecnico di

 example: intrusion detection in network traffic analysis.

Seguono le pagine molto belle (valgano come campione 114 e ss.) su Fausto e Anna; la scommessa, più o meno dichiarata, di questo terzo capitolo di Giovani è riconoscere