nei campi applicativi attraverso l’uso di tecniche di data mining

(1)

I vantaggi ottenibili

nei campi applicativi attraverso l’uso di tecniche di data mining

Dipartimento

di Informatica e Sistemistica

Renato Bruni

[email protected]

Antonio Sassano

[email protected]

Seminario Metodi e Algoritmi per il Controllo e la Correzione dei Dati delle Famiglie, Roma, 29 Marzo 2004

(2)

Sommario

Cosa si intende con Data Mining?

Il processo di Knowledge Discovey

Diversi aspetti del Data Mining

Vari algoritmi di Data Mining

(3)

Cos’è il Data Mining?

Problema dell’esplosione dei dati:

L’uso dell’archiviazione informatica unita alla tecnologia dei database

porta ad avere collezioni di informazione di dimensioni impressionanti.

We are drowning in data, but starving for knowledge!

Avere molti dati è un vantaggio, ma complica la loro gestione.

Per utilizzarli occorrono strumenti sempre più sofisticati.

Data mining (knowledge discovery in databases):

Estrazione di informazioni non ovvie, precedentemente non note e

potenzialmente utili (regole, regolarità, pattern, etc. = conoscenza)

contenute in grandi quantità di dati.

(4)

Perché Data Mining? - Applicazioni

Presentare conoscenza anziché soltanto dati è essenziale in una serie di situazioni:

Analisi di Database (Estrazione di regole, Associazioni)

Analisi di Mercato (Customer profiling, Marketing)

Analisi di Rischio (Finance planning, Investimenti)

Individuazione di Frodi (Carte di credito, Sofisticazioni alimentari)

Supporto alle Decisioni (Resource management, Allocazione)

Analisi Mediche (Diagnosi, Gestione donatori)

Text mining (news-group, email, documents) nel Web

Analisi di Politiche Economiche o Sociali (Rule learning)

Analisi di Eventi Rari …

(5)

Il Data Mining nel processo di KDD

Il Data mining è il cuore del processo di Knowledge

Discovery in Databases (KDD).

Data Cleaning and Integration Task-relevant Data

Data Selection Data Mining

Pattern Evaluation Pattern

Data Warehouse

Databases

(6)

Data Mining: Confluenza di Discipline

Ricerca Operativa Statistica

Data Mining

Database Technology Informatica

Servono modelli adeguati, algoritmi efficienti, gestione

delle informazioni evoluta, presentazione dei risultati fruibile.

I quattro aspetti sono sinergici e complementari.

(7)

Diversi Aspetti del Data Mining

Classificazione: apprendimento di una funzione per mappare oggetti in un insieme predefinito di classi.

Regressione: apprendimento di una funzione per mappare un oggetto in un valore reale.

Clustering: identificazione di una collezione di gruppi di oggetti simili.

Apprendimento di Dipendenze e Associazioni:

identificazione di dipendenze significative tra gli attributi dei dati.

Apprendimento di Regole e Sommarizazione:

individuazione di una descrizione compatta di un insieme o

sottoinsieme di dati.

(8)

Es. Classificazione: Fraud Detection

No Divorziato

20.450 Siena

VIP

Si Coniugato

12.440 Roma

B

No Separato

26.600 Milano

B

Si Coniugato

35.600 Napoli

A

No Nubile

21.500 Napoli

A

No Celibe

33.460 Roma

VIP

Si Divorziato

25.560 Genova

B

No Coniugato

13.450 Milano

B

Si Celibe

10.500 Roma

A

Frode Stato

Civile Reddito

Città Tipo

cliente

Catego ric

Continuo ass

Catego

o ric o

o

Cl e

Training

set Classificatori

Classificazione

? Celibe

40.500 Roma

A

? Celibe

43.600 Torino

A

? Coniugato

20.300 Milano

B

? Coniugato

21.900 Napoli

A

? Separato

63.600 Torino

B

? Nubile

12.500 Roma

A

? Celibe

21.470 Milano

B

Frode Stato

civile Reddito

Città Tipo

cliente

Test set

Apprendimento

classificatori

(9)

Es. Regressione: Predizione Vendite

Variabile dipendente (numerica)

355 Occasionale

20,50 13,50

988 Frequente

12,90 8,50

3 Raro

26,90 12,90

57 Frequente

35,90 19,00

79 Frequente

1,50 1,00

44 Occasionale

33,95 15,50

234 Frequente

25,50 15,50

21 Raro

12,80 6,00

154 Frequente

11,50 5,00

Vendite Prezzo Uso

di Vendita Costo

Materiale

Training

set Apprendimento Funzione

parametri

Regressione Variabili predittrici

? Occasionale

49,90 24,00

? Raro

26,60 12,00

? Frequente

4,90 2,50

? Raro

128.00 63,00

? Occasionale

25,90 14,50

? Occasionale

11,00 5,50

? Frequente

19,90 10,00

Vendite Prezzo Uso

di Vendita Costo

Materiale

Test set

Definizione

del modello

(lineare, etc.)

(10)

Es. Clustering: Market Segmentation

50 Celibe

40.500 Roma

6

240 Celibe

43.600 Torino

7

645 Coniugato

20.300 Milano

5

12.000 Coniugata

21.900 Napoli

4

250 Separato

63.600 Torino

3

400 Nubile

12.500 Roma

2

2.500 Celibe

21.470 Milano

1

Pagam Stato ento

civile Reddito

Città ID

cliente

1 2 3

4

5 6 2 2

6

5 2 2

8

5 6 4

Voglio dividere i clienti in k=3 gruppi che verranno trattati diversamente.

Data set

Calcolo della similitudine tra clienti ottenendo delle distanze

Partizionamento in k gruppi minimizzando

le distanze tra record dello stesso gruppo

(11)

Es. Associazione: Acquisti di Beni

Pane ÅÆ Latte {Pasta, Vino}ÆCarne

Pasta, Vino, Carne 6

Vino, Birra 7

Pasta, Pane, Vino, Latte, Carne 5

Pane, Formaggio, Latte 4

Carne, Formaggio 3

Pane, Pasta, Biscotti, Latte 2

Pane, Latte, Uova 1

Oggetti Acquistati

ID

Dato un insieme di record, ognuno

contenente oggetti appartenenti a un elenco, individuare regole di

dipendenza per predire l’occorrenza di in oggetto in base all’occorrenza di altri oggetti.

Apprendimento

Dipendenze e

Associazioni

Data set

(12)

Es. Sommarizzazione: Funghi Velenosi

9 5

Screziata Bianco

10 6

Liscia Grigio

16 10

Liscia Rosso

6 3

Screziata Bianco

10 10

Screziata Rosso

12 6

Liscia Grigio

8 10

Screziata Grigio

7 4

Liscia Bianco

5 13

Screziata Rosso

Altezza Gambo Diametro

Superficie Colore

Data set

(NOT Bianco AND Screziato) OR (Altezza/Diametro > 1.5) Cat egorico

Cat egorico

Continuo Continuo

Dati record rappresentanti funghi velenosi, trovarne una descrizione compatta.

La conoscenza così trovata può poi essere usata in molti modi.

Apprendimento

descrizione compatta

(13)

Tecniche di Data Mining (Cenni) “Tortura i dati finché non confessano”

Sono state proposte molte e diverse tecniche, aventi ognuna specifiche caratteristiche e vantaggi.

Alberi di Decisione: Classificazione, Sommarizzazione, es: C4.5, CART, IC3, Entropia, CHAID.

Analisi logica e Programmazione Intera: Classificazione, Apprendimento di Regole, es: LAD.

Teoria dei Grafi: Clustering, Classificazione, es: B&C.

Rappresentazioni analitiche dei dati (OLAP): Sommarizzazione, Database streaming.

Reti neurali (ANN): Classificazione, es: Perceptron, a singolo strato, multi-strato, Backpropagation, Radial-Basis Function (RBF) networks, es: SNNS, Nevprop.

Metodi Bayesiani: Regressione, Classificazione, Bayesian Learning, Bayesian belief network, Bayesian Classifiers, Maximum Likelihood.

Support Vector Machines (SVM): Classificazione, Pattern recognition, es: RSVM.

Association/Pattern Discovery: Regole di associazione e dipendenze, pattern

sequenziali, es: CN2.

(14)

Conclusioni

In molti casi è essenziale essere in grado di estrarre della conoscenza dai dati, cioè fare Data Mining. Chi possiede i dati potrebbe identificarsi con chi ne estrae la conoscenza.

All’aumentare delle dimensioni degli insiemi di dati queste operazioni richiedono strumenti automatici sempre più

sofisticati.

Per fare Data Mining sono necessarie competenze di varie discipline: in particolare, sono necessari modelli adeguati, algoritmi efficienti, implementazione evoluta, tecnologia di gestione dei dati sofisticata.

Siamo di nuovo a un inizio?

(15)