• Non ci sono risultati.

CAPITOLO II LA METODOLOGIA

N/A
N/A
Protected

Academic year: 2021

Condividi "CAPITOLO II LA METODOLOGIA"

Copied!
50
0
0

Testo completo

(1)

Capitolo II 35

CAPITOLO II

LA METODOLOGIA

2.1. LE FASI DEL PROCESSO

Il DM si definisce come quel particolare processo atto a scoprire correlazioni, relazioni e tendenze nuove e significative “setacciando” grandi quantità di dati, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche allo scopo di ottenere un vantaggio di business1.

Fare DM significa in sostanza, seguire una metodologia che va dalla definizione della problematica e dalla traduzione degli obiettivi di business in obiettivi di analisi, all’implementazione di regole decisionali economicamente misurabili2. Realizzare progetti di DM significa anche organizzare un efficace team di lavoro tenendo conto delle diverse risorse ed esigenze aziendali: quelle dei sistemi informativi, del marketing centrale e della rete commerciale.

Da un punto di vista più strettamente operativo, il DM è un processo di analisi dei dati, consistente in una serie di attività che vanno dalla definizione degli obiettivi dell’analisi all’elaborazione dei dati, fino all’interpretazione e valutazione dei risultati.

Una valida analisi di DM deve prevedere tutte le fasi del processo nell’ordine corretto3. Le fasi del processo di Dm possono essere così schematizzate:

1. Definizione degli obiettivi dell’analisi.

1 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

2 Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni

aziendali” , Giuffrè Editore.

3 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(2)

Capitolo II 36

2. Selezione, organizzazione e pre-trattamento dei dati.

3. Analisi esplorativa dei dati, e loro eventuale trasformazione.

4. Specializzazione dei metodi statistici da impiegare nella fase di elaborazione.

5. Elaborazione dei dati sulla base dei metodi scelti.

6. Valutazione e confronto dei metodi impiegati, e scelta del modello finale di analisi.

7. Interpretazione del modello scelto e successivo impiego dei processi decisionali.

Andiamo più “all’interno” del processo stesso descrivendo il contenuto di ciascuna fase.

2.2

DEFINIZIONE DEGLI OBIETTIVI

E’ opportuno innanzitutto descrivere gli obiettivi dell’analisi. Non sempre il fenomeno che si vuole analizzare è di facile definizione. Infatti, mentre gli obiettivi aziendali cui si vuole mirare sono generalmente ben chiari, le problematiche sottostanti possono risultare complesse da tradursi in obiettivi dettagliati di analisi. Una chiara esplicitazione del problema e degli obiettivi che si vogliono raggiungere è il presupposto per impostare correttamente l’analisi.

Questa fase del processo è sicuramente una delle più critiche in quanto, a seconda di quanto stabilito in essa, verrà organizzata tutta la metodologia successiva. Gli obiettivi devono quindi essere formulati chiaramente e non lasciare spazio a dubbi ed incertezze.

Volendo spiegare in poche parole cos’è il DM, questo si può indicare come l’attività orientata a scoprire informazioni nascoste nei dati. Tecniche di DM sono state utilizzate, anche prima dell’avvento del data warehousing, in applicazioni specialistiche non

(3)

Capitolo II 37

commerciali quali la ricerca geologica, medica, militare, astronomica, demografica e meteorologica4.

Tramite il data ware housing, il DM viene trasportato dal mondo dell’analisi scientifica

a quello dell’analisi commerciale, aprendo la via a una pletora di applicazioni di incalcolabile valore ai fini del supporto decisionale.

Il DM ha per oggetto l’estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati (attraverso metodi automatici o semiautomatici) e l’utilizzazione industriale o operativa di questo sapere.

L’applicazione del DM si può ricondurre a 5 aree fondamentali5:

• previsione: utilizzo di valori noti per la previsione di quantità non note, operazione di determinazione del valore futuro di una o più variabili, i metodi operativi applicabili sono molteplici;

• classificazione: individuazione delle caratteristiche che indicano a quale gruppo un certo caso appartiene, i dati vengono raggruppati in base a un criterio prestabilito ( criterio di classificazione);

• analisi cluster: queste tecniche vengono utilizzate generalmente quando si hanno tanti dati eterogenei e si cerca di ridurne il numero raggruppando casi o variabili in base a misure di similarità. Si parte da un collettivo multidimensionale e si mira ad assegnare le unità a categorie non definite a priori, formando dei gruppi di osservazioni omogenei al loro interno ed eterogenei tra loro.

Una volta individuati i cluster con il metodo prescelto ci sono diverse applicazioni nelle ricerche di mercato:

4 Da Giudici, P. (2005), “Data mining: modelli informatici, statistici ed

applicazioni” , Mcgraw-Hill.

5 Da Giudici, P. (2005), “Data mining: modelli informatici, statistici ed

(4)

Capitolo II 38

- Segmentazione: individuazione di gruppi con elementi omogenei all’interno del gruppo e diversi da gruppo a gruppo; si formano segmenti di consumatori, per esempio in base ai benefici che ricercano in un prodotto. Si tratta del processo attraverso il quale le imprese suddividono la domanda in insiemi di clienti potenziali, in modo che gli individui che appartengono allo stesso insieme siano caratterizzati da funzioni di domanda il più possibile simili tra loro e al tempo stesso il più possibili diverse da quelle degli altri insiemi.

L’azienda sceglierà i gruppi di clienti su cui operare, ad esempio personalizzando l’offerta di prodotti e servizi e differenziando le sue strategie di marketing.

- Comportamento dei consumatori: si identificano gruppi omogenei di consumatori e si esaminano i comportamenti d’acquisto separatamente.

- Sviluppo e ricerca di opportunità per potenziali nuovi prodotti: cluster di prodotti per identificare i prodotti competitivi nel mercato (nicchie di competitività) e marche appartenenti allo stesso cluster che possono essere, con maggiore probabilità, concorrenti rispetto a marche appartenenti a cluster diversi. La capacità di delimitare un mercato e misurarne con precisione la dimensione dipende fortemente dal suo stadio di evoluzione, è facile immaginare come, ad esempio, i mercati nuovi o in via di formazione siano estremamente difficili da circoscrivere, poiché sarà la dinamica della relazione domanda-offerta e delle relazioni competitive a dare loro una forma nel tempo. Quindi, a seconda dello stadio in cui si trova il mercato, saranno diverse le problematiche che i decisori si troveranno ad affrontare, e di conseguenza diverse le domande di ricerca che si porranno.

- Selezione dei mercati (aree test di mercato): gruppi di aree omogenee in modo da generalizzare i risultati ottenuti in un’area alle rimanenti aree dello stesso cluster, riducendo il numero complessivo di aree test.

• Associazione: individuazione degli elementi che compaiono spesso assieme in un determinato evento, come ad esempio prodotti acquistati congiuntamente. Le

(5)

Capitolo II 39

regole associative consentono di determinare le regole di implicazione logica presenti nella base di dati, quindi di individuare i gruppi di affinità tra oggetti.

• Sequenze: individuazione di cronologia di associazioni come comportamenti ricorrenti in sequenze temporali di eventi. L’obiettivo in questo ambito è l’individuazione di pattern ricorrenti o atipici in sequenze di dati complessi. Spesso si possono utilizzare modelli basati sull’analisi di serie storiche: le tecniche di analisi delle serie temporali hanno in genere lo scopo di ricercare e

definire una struttura sottostante ai dati e di estrapolarla nel futuro6.

2.3. ORGANIZZAZIONE E CLASSIFICAZIONE DATI

2.3.1. LA RACCOLTA DEI DATI

Identificati gli obiettivi di analisi, è necessario raccogliere, o meglio selezionare, i dati necessari a tal fine. Prima cosa è necessario individuare la fonte dei dati. Solitamente si scelgono dati da fonti interne, più economiche ed affidabili. Hanno inoltre il vantaggio di essere il risultato di esperienze e processi diretti dell’azienda stessa. La fonte ideale dei dati è rappresentata dal data warehouse aziendale, un magazzino di dati storici non più soggetti a mutamenti nel tempo, dal quale è più semplice estrarre dei database tematici (data mart) di interesse. In assenza di un sistema di data warehouse, i data mart devono essere costruiti incrociando le diverse basi i dati aziendali.

Il data warehouse deve essere orientato a produrre informazioni rilevanti per le decisioni del management, è un contenitore in cui sono raccolti tutti i dati utili a effettuare operazioni di Business intelligence7 . Questa è la differenza tra il data warehouse e qualsiasi altro data base aziendale: cercare di utilizzare per analisi statistiche rilevanti ai fini aziendali i dati contenuti nei data base operazionali (relativi

6 DaGiudici, P. (2005), “Data mining: modelli informatici, statistici ed

applicazioni” , Mcgraw-Hill.

(6)

Capitolo II 40

alle varie operazioni gestionali) è praticamente impossibile, un data warehouse è invece costruito, sia pure con un certo sforzo, esattamente in funzione di questo obiettivo.

Esistono essenzialmente due tipi diversi di approccio alla creazione di un data warehouse: il primo si basa sulla creazione di un unico archivio centralizzato che raccolga tutte e informazioni aziendali, e le integri con quelle provenienti dall’esterno; il secondo invece, nasce dall’unione di diversi database tematici (detti data mart), inizialmente non collegati tra loro, che evolvono verso una struttura perfettamente

interconnessa8.

Un ruolo particolarmente importante all’interno di un data warehouse è svolto dai

meta-dati: in una struttura volta alla conservazione e alla distribuzione dei dati è infatti

necessario che vi siano incluse anche delle informazioni relative all’organizzazione dei dati stessi. I meta-dati possono essere inoltre utilizzati per incrementare il livello di sicurezza all’interno del data warehouse permettendo delle restrizioni all’accesso.

Per gli analisti di business intelligence, i meta-data sono essenziali per la gestione, l’organizzazione e la valorizzazione delle varie attività, indicando ad esempio come sono stati calcolati determinati dati: ciò va ad incrementare i valori dei dati nei termini della loro affidabilità.

Durante la fase iniziale del processo di raccolta si cerca di individuare le potenziali variabili coinvolte9:

- variabili dirette, cioè quelle che si vogliono investigare direttamente in quanto direttamente connesse al fenomeno in esame;

- variabili indirette, correlate con quelle dirette e, quindi, anch’esse imputabili al fenomeno in esame;

- variabili significative in un contesto statico oppure in un contesto dinamico;

8 Golfarelli, M., Rizzi, S. (1999), “Data warehouse”, Mcgraw-Hill.

9 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(7)

Capitolo II 41

Generalmente si procede poi col verificare l’esistenza o meno di un legame tra le variabili, la tipologia del legame, se esistente (ovvero se lineare o no), il segno e la forza di tale legame.

Tra le variabili individuate è importante scegliere quelle che meglio rappresentano il fenomeno che si desidera conoscere, quelle più significative, e soprattutto quelle in grado di fornire la più semplice spiegazione dei fatti. Disporre di un numero limitato ma esaustivo di variabili consente di ridurre la “dimensionalità” del problema che si vuole risolvere. La numerosità dei dati necessari dipende dalla complessità del fenomeno che si sta analizzando e dal rumore presente in essi. Bisogna considerare comunque che non esistono regole predefinite, se non quelle derivanti dall’esperienza e dalla pratica.

Una volta definite le potenziali variabili, è necessario valutare la disponibilità di ciascuna; può accadere, infatti, che alcune siano giudicate molto importanti ma non siano facilmente disponibili, sorge quindi il problema di comparare il vantaggio derivante dal poter disporre della variabile con la difficoltà nel recuperarla.

Nella raccolta dei dati vi sono alcune regole che sarebbe opportuno seguire10.

Nel caso di serie storiche, è consigliato scegliere un intervallo appropriato di campionamento: un errore da evitare è quello di sceglierlo troppo ampio per un fenomeno che cambia velocemente, poiché si perdono preziose indicazioni sulle variazioni. Al contrario la scelta di un intervallo di campionamento limitato per un fenomeno che si modifica lentamente, crea dati con basso contenuto informativo. E’ sempre necessario assicurarsi che le unità di misura dei dati siano coerenti: se i dati raccolti provengono da differenti fonti è importante accertarsi che tutti i dati relativi a una particolare variabile di input o di output siano coerenti 11.

Un’ importante componente del sistema di data warehouse è la raccolta dei data mart.

10 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

11 Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni

(8)

Capitolo II 42

Un data mart è un data base tematico rappresentato in forma semplice che risponde in genere e singoli e specifici interrogativi.

In genere la creazione dei data mart di analisi fornisce l’input fondamentale alla successiva analisi dei dati, conduce alla rappresentazione dei dati spesso in forma tabellare , detta matrice dei dati, disegnata sulla base delle esigenze di analisi e degli obiettivi preposti.

Poiché l’utilità delle informazioni che si possono estrarre da un processo di DM (analisi dei dati) dipende da come i dati stessi sono organizzati, è di estrema importanza che l’analista dei dati intervenga anche nel processo di costruzione del database. Tuttavia, nella purtroppo frequente situazione in cui l’analista si trovasse di fronte un data base già pronto, sarà suo compito comprenderne a fondo la struttura, utilizzando le proprie conoscenze statistiche per finalizzare quanto è disponibile agli obiettivi del committente. L’ottenimento di un valido database è la prima fondamentale operazione da compiere al fine di ottenere informazioni utili all’attività di DM, è spesso la fase più onerosa del processo di DM, sia intermini di risorse da allocare che in termini di tempi di implementazione e sviluppo.

Anche il web è un’immensa fonte di dati sul comportamento di coloro che interagiscono attraverso i propri browser con i siti internet; nonostante tali dati siano piuttosto “grezzi” e generalmente semplici, hanno la capacità di fornire in maniera molto dettagliata informazioni su qualsiasi gesto compiuto da ogni individuo durante la navigazione in internet.

Questa immensa e indisciplinata fonte di dati può essere convogliata all’interno del data webhouse per essere analizzata, ed eventualmente conformata e combinata con le già esistenti e non più convenzionali fonti di dati. Da un altro punto di vista, emerge la possibilità di rendere fruibili tutte le interfacce del data warehouse aziendale già esistente attraverso il web con l’utilizzo di semplici browser. In definitiva la costruzione di un data warehouse deve tener conto ora i nuovi aspetti legati al web.

La velocità è un requisito fondamentale nella progettazione di un nuovo data wabhouse che si voglia affacciare sul web, la raggiungibilità da ogni parte del mondo di tutto ciò

(9)

Capitolo II 43

che è su web richiede al web house di essere raggiungibile velocemente in qualsiasi momento.

2.3.2. LA CLASSIFICAZIONE DEI DATI

Una volta che si ha a disposizione un data base, questo può essere organizzato su base statistica secondo due dimensioni principali12:

- le unità statistiche, ovvero gli elementi del collettivo che viene

considerato di interesse ai fini dell’analisi,

- le variabili statistiche, ovvero l’insieme delle caratteristiche di interesse per l’analisi misurate per ciascuna unità statistica.

Le unità statistiche possono esaurire l’intera popolazione di riferimento, oppure costituire un campione rappresentativo della popolazione stessa. I vantaggi ottenuti considerando un campione adeguatamente rappresentativo, anziché l’intera popolazione, sono duplici: da un lato potrebbe essere costoso ottenere informazioni complete sull’intera popolazione, dall’altro l’analisi stessa di grandi masse di dati potrebbe essere troppo dispendiosa in termini di elaborazione e interpretazione dei dati.

Le variabili statistiche costituiscono la fonte principale di informazione su cui lavorare per estrarre conclusioni sulle unità considerate, ed eventualmente estendere tali conclusioni a una popolazione più ampia.

E’ opportuno che le variabili siano presenti in numero sufficientemente elevato, tuttavia è necessario che, per esigenze di efficienza e stabilità delle informazioni, le variabili non duplichino l’informazione, cioè che non siano altamente correlate tra loro.

12 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(10)

Capitolo II 44

Stabilite le unità e le variabili di interesse nell’analisi statistica dei dati, si procede per ogni variabile con una regola di assegnazione di ogni unità statistica a una classe di misura o modalità.

Questo procedimento è denominato “processo di classificazione”.

In generale ciò porta a due tipologie differenti di variabili: qualitative e quantitative13. I dati relativi a variabili qualitative sono tipicamente espressi in forma di aggettivo verbale, dando origine a classificazione in categorie. I dati qualitativi si distinguono in nominali, qualora si manifestino in varie categorie distinte senza alcun ordine, e ordinali, qualora le categorie distinte presentino un ordine esplicito o implicito.

Le variabili quantitative sono invece legate a quantità intrinsecamente numeriche, queste si distinguono in quantitative discrete, quando assumono un numero finito di

valori, e quantitative continue, quando assumono un’infinità numerabile di valori.

Classificati i dati, e distinte di conseguenza le variabili nelle quattro principali tipologie descritte (qualitative nominali e ordinali, quantitative discrete e continue), il data base deve essere tradotto in una struttura pronta per l’analisi statistica. Tale struttura spesso corrisponde a una “matrice dei dati”.

Si tratta di una forma tabellare, solitamente a due dimensioni, le cui righe sono associate alle n unità statistiche considerate, e le cui colonne sonno associate alle p variabili statistiche considerate.

Tale matrice dei dati è il punto di partenza dell’analisi di DM, in alcuni casi costituisce direttamente l’input della fase di elaborazione, in altri casi, sono necessarie fasi di pre-elaborazione ulteriori.

2.3.3. LA “PULIZIA” DEI DATI

13 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(11)

Capitolo II 45

Prima di compiere le analisi statistiche e l’estrazione (mining) delle informazioni utili, occorre procedere a un controllo accurato dei dati disponibili, allo scopo di verificare che essi presentino le caratteristiche che li rendono idonei alle successive elaborazioni.

Con la dizione “pulizia dei dati”, o anche data clearing, si indica un processo capace di garantire, con una certa soglia di affidabilità, la correttezza di un insieme di dati14. Dal punto di vista logico, queste operazioni, chiamate anche pre-processing, si collocano a monte delle analisi statistiche, tale tema riguarda il più vasto ambito della qualità dei dati delle indagini statistiche che viene di solito definita con riguardo alle seguenti caratteristiche:

- rilevanza: la capacità di soddisfare le reali esigenze conoscitive degli utilizzatori;

- accuratezza: la corrispondenza tra le stime ottenute e i valori veri nella popolazione di riferimento;

- tempestività: capacità di fornire i risultati in tempi ravvicinati rispetto all’esecuzione dell’indagine;

- accessibilità: possibilità per l’utente di reperire facilmente e comprendere l’informazione richiesta;

- confrontabilità: validità dei raffronti dei dati nel tempo e nello spazio;

Il data clearing incide soprattutto sull’accuratezza delle informazioni, esso può applicarsi ai risultati di una singola indagine statistica, ad un data warehouse aziendale che contiene tutte le informazioni d’interesse per l’impresa o a un’intera banca dati.

E’ necessario prestare particolare attenzione soprattutto a particolari aspetti, specificati di seguito15.

14 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

15 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(12)

Capitolo II 46

I casi mancanti

Nelle rilevazioni statistiche si presentano spesso una o più tra situazioni seguenti:

- alcune unità statistiche fra quelle originariamente programmare non sono state rilevate,

- per alcune unità statistiche osservate risultano mancanti le modalità di alcune variabili,

- per i fenomeni rilevati si manifestano, in corrispondenza di alcune unità statistiche, modalità o valori logicamente inammissibili oppure così distanti dai rimanenti da giustificarne un’analisi più approfondita per verificarne la causa.

In questi casi parla di dati mancanti, o missing cases. Un esempio tipico di caso mancante è rappresentato dal rifiuto di una persona inclusa nel campione di compilare il questionario o di rispondere all’intervista.

Se le unità statistiche effettivamente campionate risultano in numero m invece delle n originariamente previste (con m‹n) si può procedere in due modi: o non considerando in alcun modo l’unità statistiche mancanti, oppure procedendo a rilevare ulteriori n-m unità sostituendo ciascuna unità mancante con un’altra. La seconda scelta, quando è possibile, è preferibile alla prima; non si può ritenere tuttavia che la sostituzione delle unità con sia priva di conseguenze, soprattutto quando si opera attraverso autoselezione.

I dati mancanti

Quando, per qualche unità statistica, mancano le modalità di alcuni fra i fenomeni rilevati, si parla di dati mancanti o missing values, questi possono riguardare particolari variabili oppure tutte quelle in oggetto.

(13)

Capitolo II 47

- Carattere non pertinente per la singola unità: caso in cui il possesso di alcune caratteristiche dell’unità statistica siano incompatibili con il possesso di altre caratteristiche.

- Rifiuto o impossibilità di rispondere da parte del soggetto.

- Mancanza della rilevazione dovuta a cause esterne.

Tali categorie configurano una sorta di ordinamento rispetto alle cause che possono generare un dato mancante:

• Il fenomeno non esiste per l’unità considerata. • Non è espressa un’opinione sul fenomeno. • Esiste un valore ma non vi è modo di rilevarlo.

• Il valore non è stato rilevato per qualche errore od omissione nel procedimento di raccolta dei dati.

Per superare le difficoltà generate dai dati mancanti si può procedere in vari modi:

a) Condurre l’analisi solo per le unità per le quali sono note le modalità di tutti i

fenomeni: l’analisi si riferisce a un numero minore di unità ma si possono applicare gli stessi metodi previsti per il trattamento di una matrice di dati completa.

b) Analisi dei casi disponibili per ciascun fenomeno o per ciascuna coppia di variabili: effettuare l’analisi di ciascuna variabile su tutti i dati disponibili per essa.

c) Ponderazione delle unità rilevate: tali metodi cercano di compensare le mancate risposte “pesando” opportunamente i dati disponibili in modo che essi rappresentino anche i missing values.

d) Imputazione di un valore medio: si cerca di assegnare un opportuno valore ai dati mancanti, non si recupera il valore vero ma se ne fornisce una stima, si

(14)

Capitolo II 48

può imputare a ciascuno dei dati mancanti di una variabile la media calcolata su tutte le unità per cui si conoscono i valori.

e) Imputazione del valore stimato attraverso un modello di regressione: quando tra due variabili esiste un’elevata correlazione ai dati mancanti d’una di esse si possono imputare i valori teorici, stimati tramite la retta di regressione, in base ai valori noti della variabile esplicativa

La tipologia degli errori

In ogni analisi statistica vi possono essere imprecisioni, lacune, distorsioni che alterano l’esatta percezione dei fenomeni sui quali si sta indagando.

Una distinzione fondamentale è quella tra gli errori campionari ed errori non campionari.

I primi sono generati dal fatto di avere considerato nell’indagine soltanto una parte, il campione, dell’universo statistico di riferimento, per cui è naturale che l’informazione che si ottiene mostri delle approssimazioni rispetto ai dati veri ma incogniti. La teoria dell’inferenza statistica offre un approccio, in termini probabilistici, alla valutazione degli errori campionari, attraverso i problemi di stima e di verifica di ipotesi.

Gli errori non campionari sono attribuibili a tutte le possibili imprecisioni,

dimenticanze, alterazioni che si possono commettere nelle varie fasi della rilevazione ed elaborazione dei dati. Alcuni autori includono negli errori non campionari anche i casi mancanti (errori di copertura) e i dati mancanti (errore di mancata risposta). Altri fanno riferimento invece solo agli errori di misura, costituiti dalla differenza tra il valore vero del fenomeno in una certa statistica e il valore effettivamente rilevato in un’indagine. Tali differenze possono essere dovute al rispondente o al rilevatore, oppure possono generarsi nelle fasi successive di elaborazione e trattamento dati16.

Gli errori di misura possono dare origine a:

16 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(15)

Capitolo II 49

a) Valori inammissibili o dati fuori dal dominio, quando il numero o il codice rilevato non appartiene all’insieme di valori accettabili dal punto di vista logico per il fenomeno considerato;

b) Valori anomali o outliers, cioè molto diversi da quelli della maggior parte delle altre unità;

c) Errori non facilmente individuabili in quanto non corrispondono a valori inammissibili o anomali, è difficile rendersene conto e si possono contenere solo attraverso un controllo accurato di tutte le fasi di rilevazione ed elaborazione dei dati;

Gli errori campionari e non campionari concorrono nel determinare l’entità dell’errore totale; la stima delle componenti dell’errore totale, attribuibile ad ogni fonte di errore, è denominata profilo dell’errore, e rende possibile l’attività di convalida dell’informazione ottenuta.

I valori anomali

I valori anomali sono quelli che differiscono sensibilmente dai restanti; si tratta di osservazioni che, essendo atipiche o erronee, si scostano decisamente dal comportamento degli altri dati, con riferimento al tipo di analisi considerata. I valori inammissibili si differenziano dai valori anomali, i primi sono esterni all’intervallo che può logicamente assumere la variabile e pertanto sono manifestamente erronei, i secondi hanno un valore logicamente ammissibile ma sorprendentemente lontano dai rimanenti.

I meccanismi che possono generare valori anomali sono i seguenti17: a) Elevata variabilità intrinseca del fenomeno.

17 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(16)

Capitolo II 50

b) Valori provenienti da una diversa distribuzione: alla maggioranza delle osservazioni provenienti da una distribuzione di base si aggiungono pochi valori appartenenti ad una “distribuzione contaminante” i quali possono collocarsi come outliers.

c) Errori di rilevazione o di elaborazione: in qualunque fase del processo si possono commettere errori che generano valori anomali, errori di lettura di uno strumento, di trascrizione o digitazione

Per quanto riguarda l’individuazione dei valori anomali, un primo criterio esplorativo applicabile alle singole variabili consiste nell’impiego di box plot: i valori che si collocano all’esterno dei punti di troncamento inferiore o superiore sono candidati al ruolo di valori anomali e devono essere considerati con particolare attenzione.

Nell’analisi multidimensionale, l’individuazione dei valori anomali multivariati è più complessa poiché la loro tipologia non è riconducibile semplicemente a valori estremi o molto lontani dai restanti per le singole variabili. Inoltre quando sono presenti più variabili, si può manifestare un effetto “mascheramento” dovuto alla catena che conduce fino al valore più estremo.

Di fronte a un outlier, il problema fondamentale è l’individuazione della sua natura: se esso è dovuto ad un errore di rilevazione non correggibile , la scelta più ragionevole è quella di eliminarlo, trattandolo poi come un dato mancante. Se il valore anomalo è attribuibile alla “contaminazione” di una distribuzione differente da quella di base, può essere conveniente l’esclusione della corrispondente unità statistica. Infine, se l’outlier è dovuto alla variabilità intrinseca del fenomeno, è preferibile conservarlo, eventualmente effettuando una opportuna trasformazione della variabile stessa per attenuarne le conseguenze in sede di elaborazione

In ogni caso, le conoscenze a priori sulle singole unità o le informazioni complementari sulle medesime possono essere di grande aiuto per la decisione più corretta per il trattamento dei valori anomali individuati.

(17)

Capitolo II 51

Una soluzione al problema generato dalla presenza di valori anomali, che prescinde dalla natura degli stessi, è fornita dall’adozione di metodi robusti di analisi dei dati, cioè scarsamente influenzati dagli outliers.

I valori anomali sono stati definiti genericamente come dati atipici, lontano dalla nuvola dei punti.

A seconda della loro posizione possono influire considerevolmente, o meno, sul valore numerico dei vari indici statistici unidimensionali o bidimensionali.

Il concetto di “osservazione influente” è invece più specifico, poiché esso si riferisce ad un singolo indice o a un preciso modello statistico. Un criterio per valutare l’influenza di un’osservazione consiste nel calcolare le variazioni dei parametri del modello e delle sua validità a seguito dell’eliminazione di una singola unità fra le n considerate. Questo permette di ordinare le osservazioni in senso decrescente della loro importanza nel determinare i risultati complessivi dell’analisi in oggetto18.

2.4.

ANALISI ESPLORATIVA DEI DATI

Questa fase implica un’analisi preliminare, o esplorativa, dei dati che presenta forti analogie con le tecniche olap. Si tratta di una prima valutazione della rilevanza dei dati raccolti, che può condurre, eventualmente, a una valutazione delle variabili originarie per una migliore comprensione del fenomeno o per la sua riconducibilità a metodi statistici che poggiano sul soddisfacimento di determinate ipotesi iniziali19.

Ciò naturalmente deve tener conto degli obiettivi della qualità dei dati a disposizione, ottenuti nella fase precedente. L’analisi esplorativa potrebbe, eventualmente, suggerire una nuova estrazione dei dati, essendo quella considerata insufficiente per gli scopi preposti.

18Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

19 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(18)

Capitolo II 52

La fase iniziale di ogni valida analisi statistica dei dati deve essere comunque necessariamente di tipo esplorativo. Ciò vale in particolare per l’attività di DM, che consiste essenzialmente nella ricerca di relazioni e risultati non noti a priori; questo step viene svolto generalmente utilizzando in modo intensivo le risorse informatiche. In effetti, l’analisi esplorativa dei dati parrebbe per molti versi coincidente con l’attività stessa di DM, in realtà vi sono due principali differenze.

Dal punto di vista dei metodi statistici, l’analisi esplorativa dei dati utilizza tecniche statistiche descrittive, mentre il DM può utilizzare sia metodi descrittivi che inferenziali basati su modelli probabilistici.

In secondo luogo vi è una differenza rilevante negli scopi delle due analisi; mentre la finalità prevalente della fase esplorativa è la descrizione delle strutture e delle relazioni presenti nei dati per un eventuale successivo impiego in un modello statistico, la finalità del DM è la produzione diretta di regole decisionali che riflettano le strutture e i modelli descriventi i dati.

2.4.1. ANALISI ESPLORATIVA UNIVARIATA

L’analisi delle singole variabili a disposizione è un’importante fase di analisi preliminare. Da questa semplice analisi esplorativa è possibile trarre importanti informazioni per le successive analisi multivariate e di modellazione.

I principali strumenti di analisi esplorativa univariata sono le rappresentazioni grafiche univariate e una serie di indici sintetici.

La rappresentazione utilizzata differisce a seconda della tipologia di dati esaminati, per esempio per rappresentare dati qualitativi nominali si fa solitamente ricorso diagrammi a barre e diagrammi a torta, mentre la rappresentazione grafica delle variabili continue per intervalli è ottenuta mediante l’istogramma.

Pertanto è possibile sintetizzare graficamente le distribuzioni univariate, talvolta, però, occorre sintetizzare ulteriormente l’insieme di tutte le variabili e risulta quindi utile

(19)

Capitolo II 53

costruire degli opportuni indici statistici atti a riassumere aspetti importanti delle osservazioni considerate.

I principali indici statistici univariati si possono distinguere in20:

• Indici di posizione: i più utilizzati sono le medie, calcolati unicamente per i caratteri quantitativi; in particolare quella aritmetica prevede che tutte le osservazioni vengono inserite nel calcolo, pertanto ogni valore o insieme di valore estremi possono incidere notevolmente sul valore della media.

Un secondo semplice indice di posizione è il valore modale o la moda. E’ l’unica misura di posizione calcolabile per tutti i tipi di variabili, comprese quelle qualitative nominali, si tratta della modalità assunta con la massima frequenza.

Un’ultima importante misura di posizione è la mediana che, data una serie ordinata di dati, è il valore che ripartisce la distribuzione in due parti uguali. La mediana, a differenza della moda, non risulta influenzata dall’eventuale presenza di valori anomali, cioè eccessivamente grandi o piccoli rispetto all’insieme dei restanti termini.

Come generalizzazione della mediana si possono considerare i valori che suddividono la distribuzione di frequenza in parti, con quote prefissate o percentili.

• Indici di variabilità: è interessante generalmente studiare la dispersione o la variabilità di una distribuzione. Un semplice indicatore di variabilità è il campo di variazione, ovvero la differenza tra il valore massimo e il valore minimo osservato di una certa variabile.

20 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(20)

Capitolo II 54

La misura più comunemente usata è la varianza, quando tutte le osservazioni assumono lo stesso valore questo indice è nullo. Se si vuole mantenere l’unità di misura originaria si utilizza lo scarto quadratico medio, mentre, al fine di agevolare confronti tra diverse distribuzioni, spesso si utilizza il coefficiente di variazione.

• Indici di eterogeneità: nel caso di caratteri qualitativi, la varianza e le misure a essa riconducibili non sono calcolabili. Si fa riferimento pertanto al concetto di eterogeneità di una distribuzione, che utilizza le frequenze della distribuzione osservata dalla variabile. Un indice di eterogeneità dovrà essere nullo quando tutte le unità presentano la stessa modalità; due tra i più importanti indici utilizzati sono l’indice di Gini e l’indice entropico o entropia, entrambi uguali a zero nel caso di perfetta omogeneità.

• Indici di concentrazione: si dice che una concentrazione di frequenza sia massimamente concentrata quando la sua eterogeneità è nulla, e minimamente concentrata quando la sua eterogeneità è massima; in particolare il concetto di concentrazione si applica alle variabili che misurano beni trasferibili.

Generalmente si utilizza l’indice di concentrazione di Gini, che è pari a 0 in caso di concentrazione minima, e pari a 1 in caso di concentrazione massima.

• Indici di asimmetria: per ottenere delle informazioni sull’asimmetria di una distribuzione è sufficiente confrontare media e mediana, se queste misure sono pressoché uguali, i dati tendono a distribuirsi in modo simmetrico, se la media supera la mediana, i dati possono essere descritti da un’asimmetria positiva,

(21)

Capitolo II 55

mentre se la mediana supera la media si parla di asimmetria negativa.

La rappresentazione grafica dei dati considerati permette di indagare la forma della distribuzione considerata.

Un indice statistico sintetico che può informare circa il grado di simmetria/asimmetria di una distribuzione è quello detto momento terzo della distribuzione, calcolabile però solamente per variabili quantitative; tale indice può assumere tutti i valori reali, in particolare se la distribuzione è simmetrica è pari a 0, è minore di 0 se la distribuzione è asimmetrica a sinistra e maggiore di 0 se è asimmetrica a destra.

• Indici di curtosi: nel caso in cui si lavori con dati di tipo quantitativo continuo, è possibile rappresentarli con un istogramma che si può interpolare con una funzione di densità di tipo continuo. Come modello di confronto si utilizza la funzione gaussiana, si può quindi costruire un indice statistico che misuri la distanza della distribuzione osservata dalla situazione teorica corrispondente alla perfetta normalità. Un semplice indice che permette di controllare se i dati esaminati seguono una distribuzione di tipo normale è la curtosi.

2.4.2. ANALISI ESPLORATIVA BIVARIATA

I dataset reali contengono generalmente più di due variabili, tuttavia si possono estrarre informazioni molto importanti dall’analisi dei grafici bivariati fra tutte le coppie di variabili presenti21.

21 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(22)

Capitolo II 56

La relazione tra due variabili può essere rappresentata graficamente attraverso il diagramma di dispersione.

E’ opportuno sviluppare anche indici statistici che riassumano ulteriormente le distribuzioni di frequenza migliorando l’interpretazione dei dati. Nel caso bivariato, e più in generale multivariato, tali indici permettono non solo di descrivere in modo sintetico la distribuzione del relativo carattere per i dati in esame, ma anche di trarre conclusioni sulle relazioni fra le variabili considerate.

Per le variabili quantitative risulta più agevole formulare tali indici, i più rilevanti sono i seguenti:

• Covarianza: attraverso tale analisi si studiano la concordanza e la discordanza fra variabili, intendendo per concordanza la tendenza delle modalità poco elevate di una variabile ad associarsi a modalità poco elevate dell’altra, oppure, in maniera analoga, la tendenza di modalità elevate di una delle due variabili ad associarsi a modalità elevate dell’altra. La covarianza assume valore positivi in presenza di una relazione diretta tra due variabili, e valori negativi in caso di una relazione inversa; si tratta di un indice assoluto, è possibile cioè identificare la presenza di un tra due quantità ma nulla si può dire sul grado del legame.

• Indice di correlazione lineare: si utilizza per indagare il grado, cioè la forza, del legame lineare tra due variabili; assume valore 0 quando i due caratteri non sono legati dal alcun tipo di relazione lineare, sono pertanto indipendenti dal punto di vista lineare; è pari a 1 quando il legame rilevato è perfettamente lineare di tipo diretto e pari a -1 quando il legame lineare perfetto è però di tipo indiretto.

(23)

Capitolo II 57

Nel caso di variabili qualitative a livello ordinale, è possibile estendere la nozione di covarianza e di correlazione ai gradi delle variabili22.

Ciò conduce al coefficiente di correlazione di Sperman che misura la correlazione tra i gradi delle variabili, detta anche cograduazione. Tuttavia, in presenza di dati qualitativi a livello nominale il concetto di covarianza e di correlazione non è utilizzabile.

Nell’esame di una variabile qualitativa assumono un rilievo fondamentale le frequenze relative con cui le sue modalità si presentano. Solitamente si procede alla costruzione di tabelle di contingenza a doppia entrata, mettendo in evidenza la distribuzione congiunta. In questo modo si può analizzare l’indipendenza statistica tra le variabili. Se due variabili sono indipendenti, la loro analisi bivariata non aggiunge alcuna informazione aggiuntiva rispetto all’analisi univariata condotta su ciascuna variabile. L’indipendenza statistica è un concetto simmetrico tra due variabili, se la prima è indipendente dalla seconda, allora anche la seconda è indipendente dalla prima.

Quando si lavora con i dati reali, l’indipendenza statistica non è quasi mai verificata, di conseguenza si osserverà un certo grado di connessione tra i caratteri.

Per indagare circa l’intensità dell’eventuale dipendenza statistica riscontrata, ovvero della connessione tra due variabili qualitative, si utilizzano gli indici di associazione.

Il più utilizzato è l’indice di Cramer; tale indice ha un valore compreso tra 0 e 1: è uguale a 0 solo se le due variabili sono indipendenti, e uguale a 1 nell’ipotesi di massima dipendenza tra i caratteri .

2.4.3. INDICI MODELLISTICI

Un ulteriore aspetto di interesse, soprattutto a scopo di confronto, è costituito dalla specificazione di misure che siano indipendenti dalle distribuzioni marginali dei

22 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(24)

Capitolo II 58

caratteri. Alcuni indici operano in tal senso e risultano facilmente interpretabili anche in un’ottica di modellistica di tipo inferenziale23.

L’odds è un indice di associazione che costituisce un parametro fondamentale nei modelli statistici per l’analisi dei dati quantitativi. Si analizza la probabilità di successo rapportata alla probabilità di insuccesso.

Gli odds risultano non negativi, assumono valore maggiore di 1 quando un successo è più probabile di un insuccesso, valore compreso tra 0 e 1 quando invece è più probabile

un insuccesso del successo24.

Il rapporto tra gli odds è detto odds ratio tale indice può assumere qualsiasi valore non negativo, in particolare:

- Assume valore 1 quando i due caratteri sono indipendenti.

- Assume valore compreso tra 0 e 1 quando si ha associazione negativa.

- Assume valore compreso tra 1 e infinito (positivo) quando si ha associazione positiva.

L’odds ratio può essere considerato per molti versi l’analogo qualitativo del coefficiente di correlazione lineare.

2.4.4. RIDUZIONE DELLA DIMESIONALITA’

Un’ importante trasformazione lineare della matrice dei dati è descritta dal metodo delle componenti principali, che viene impiegato per ridurne la dimensionalità, ciò al fine di

23 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

2425 Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni

(25)

Capitolo II 59

semplificarne la descrizione e la successiva analisi dei dati. Anche questa metodologia viene impiegata esclusivamente per variabili quantitative o variabili quantitative binarie.

L’idea alla base del processo è quella di trasformare le variabili considerate in un numero minore di combinazioni lineari non correlate tra loro. Le componenti principali sono una combinazione lineare di tutte le variabili a disposizione, ognuna assume un certo grado di importanza rispetto al grado di varianza complessiva che riesce a spiegare, sono incorrelate tra loro ma correlate, in diversa misura, con le variabili originarie che devono spiegare. Ciò permette di interpretare ciascuna componente

principale riferendola prevalentemente alle variabili con le quali ha una forte correlazione in valore assoluto25.

Il metodo delle componenti principali permette in definitiva di ridurre la complessità di una matrice di dati in termini di numero delle variabili.

2. 5. SPECIFICAZIONE DEI METODI STATISTICI

I metodi statistici che possono essere utilizzati sono numerosi, e di conseguenza anche gli algoritmi che le implementano. Risulta pertanto importante disporre di una classificazione dei metodi esistenti.

La scelta di quale metodo utilizzare nella fase di analisi dipende essenzialmente dal tipo di problema oggetto di studio e dal tipo di dati disponibili per l’analisi. Il DM è un processo guidato dalle applicazioni, pertanto i metodi utilizzati possono essere classificati in base allo scopo immediato per cui l’analisi viene effettuata. In conformità a tale criterio si possono distinguere essenzialmente quattro grandi classi di metodologie, che possono essere esclusive, oppure corrispondere a distinte fasi del processo di DM26.

26 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(26)

Capitolo II 60

Innanzitutto ci sono i metodi esplorativi, propria dell’analisi esplorativa dei dati, in secondo luogo i metodi descrittivi basati su metodi simmetrici, privi di ipotesi di casualità, che hanno lo scopo di descrivere l’insieme dei dati in un modo più parsimonioso. Attraverso tali metodi è possibile sintetizzare delle osservazioni che vengono classificate in gruppi non noti a priori o delle variabili che vengono tra loro relazionate secondo legami non noti a priori.

In terzo luogo vi sono i metodi previsivi, gruppo di metodologie con l’obiettivo di spiegare una o più variabili in funzione delle altre, ricercando, sulla base dei dati, delle regole di segmentazione e di valorizzazione delle osservazioni.

Infine abbiamo i metodi locali, dove l’obiettivo dell’analisi non è, come nei casi precedenti, la descrizione delle caratteristiche del database nel suo complesso (analisi globale), ma l’individuazione di caratteristiche peculiari, relative a sottoinsiemi di interesse del database.

Esistono due stili di DM: supervisionato e non supervisionato27.

Il DM supervisionato è un approccio top down, applicabile quando sappiamo cosa stiamo cercando, e assume spesso la forma di modelli previsionali, in cui è chiaro l’obiettivo da prevedere. Si è già consapevoli di cosa si mira ad ottenere e si indirizzano gli sforzi verso un obiettivo specifico, in genere si utilizzano dati già noti e si applicano le informazioni così ottenute ai casi non noti. Non interessano tanto i meccanismi di funzionamento del modello ma ciò che conta è la precisione nel prevedere la risposta; in pratica vengono costruiti modelli tramite l’utilizzo di attributi di input per prevedere i valori degli attributi di output.

L’apprendimento è basato quasi sugli esempi e si individuano due macro-finalità: la prima è quella di costruire modelli di classificazione a partire da insiemi esaurienti di esempi dei concetti da apprendere (induzione); la seconda è quella di utilizzare il modello individuato per la classificazione di casi sconosciuti (deduzione).

27 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(27)

Capitolo II 61

Gran parte dei progetti di DM sono supervisionati, il loro obiettivo è quello di generare previsioni, stime, classificazioni o caratterizzazioni relativamente al comportamento di

alcune variabili target già individuate in funzione di variabili di input28.

Il DM non supervisionato, o approccio bottom up, prevede che siano dati stessi ad indicare un risultato: una volta individuati i modelli dipende dall’utente stabilirne l’importanza. L’obiettivo è l’individuazione di nuovi pattern poiché offrano nuovi punti di vista che a loro volta si possono rilevare molto utili. A differenza del DM supervisionato, si vuole sapere quali sono i meccanismi di funzionamento e il modo in cui è generata una risposta. Questo approccio spesso è applicato in fase esplorativa.

I principali metodi statistici per il DM possono essere distinti in due gruppi29.

Il primo gruppo contiene una serie di tecniche statistiche che non richiedono necessariamente una formulazione in termini di modello probabilistico, gran parte di queste metodologie sono state sviluppate più in campo informatico che statistico; nella seconda classe di metodologie è invece essenziale assumere un modello probabilistico che descrive il meccanismo generatore dei dati osservati, tale struttura permette che vengano estratte dai dati delle informazioni più precise, ma richiede una conoscenza di fondo più sofisticata, queste metodologie sono state sviluppate prevalentemente in ambito statistico.

A seguito dell’origine informatica dei metodi appartenenti alla prima classe, questi sono detti metodi computazionali per il DM, mentre quelli di origine statistica verranno detti metodi statistici per il DM. Chiaramente tale distinzione non è rigida e univoca, è utile soprattutto a fini esplicativi, in quanto quasi tutti i metodi hanno origine nel mondo della statistica e risvolti successivi in campo informatico.

28 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

29 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(28)

Capitolo II 62

2.5.1. METODI COMPUTAZIONALI PER IL DATA MINING Cluster analysis

L’obiettivo di questa analisi è quello di raggruppare le unità statistiche in gruppi il più possibile omogenei al loro interno (coesione interna) ed eterogenei tra di loro (separazione esterna). La costituzione di gruppi omogenei di unità statistiche può essere interpretata come una riduzione dello spazio in cui si opera.

Lo scopo è di raggruppare le unità sperimentali in classi secondo criteri di similarità, cioè determinare un certo numero di classi in modo tale che le osservazioni siano il più possibile omogenee all’interno delle classi, ed il più possibile disomogenee tra le diverse classi.

Vi sono numerosi metodi per effettuare un’analisi di raggruppamento, in particolare le scelte da effettuare dovranno riguardare i seguenti punti30:

• Scelta delle variabili da utilizzare: si deve tener conto di tutti gli aspetti rilevanti per il conseguimento degli obiettivi prefissati, e quindi di tutte le variabili necessarie a tal fine, tenendo presente che l’utilizzo di variabili poco significative porta a un peggioramento dei risultati. In generale si può affermare che una classificazione può considerarsi soddisfacente quando non mostra un’eccessiva sensibilità a piccoli cambiamenti dell’insieme di variabili utilizzate.

• Il metodo di formazione dei gruppi: a questo proposito si distinguono metodi gerarchici e non gerarchici. I metodi gerarchici consentono di ottenere una serie di partizioni con un numero di gruppi che va da n a 1, partendo dalla più semplice in cui tutte le unità sono distinte fino a quella in cui tutti gli elementi appartengono a un unico gruppo. In metodi non gerarchici

30 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(29)

Capitolo II 63

permettono invece di raggruppare le n unità statistiche in un numero di gruppi fissato soggettivamente a priori.

• L’indice di prossimità da utilizzare: a seconda della natura delle variabili a disposizione, deve solitamente essere definita una misura di prossimità fra le unità statistiche da utilizzare per calcolare la matrice delle distanze fra esse. Se le variabili sono principalmente quantitative si ricorrerà alla distanza euclidea, se invece sono prevalentemente qualitative si utilizzeranno indici di prossimità.

• La determinazione dei criteri di valutazione dei gruppi ottenuti: significa verificare che i gruppi siano coerenti con l’obiettivo primario di cluster analysis e che soddisfino quindi le condizioni di coesione interna e separazione esterna. Di fondamentale importanza infine è la scelta del numero di gruppi, vi è un trade-off tra l’ottenimento di gruppi omogenei che aumenta con l’aumentare del numero dei gruppi, e la necessità di ottenere una rappresentazione parsimoniosa che richiede un numero ridotto di gruppi.

Regressione lineare

Il modello di regressione lineare permette di spiegare la relazione esistente tra più variabili e, sotto alcune condizioni, di prevedere modalità di una (variabile obiettivo o variabile dipendente) in base alle modalità assunte dalle altre (variabili esplicative o variabili indipendenti)31.

L’analisi di regressione è una tecnica di analisi statistica multivariata che ha lo scopo di individuare la relazione esistente tra una variabile considerata come “obiettivo” della

31 Boehrnestedt, G. W., Knoke, D. (1994), “Statistica per le scienze sociali” , Il Mulino.

(30)

Capitolo II 64

ricerca (variabile dipendente) e un insieme di variabili esplicative. Se la vera relazione esistente tra le variabili in gioco fosse conosciuta con esattezza, il ricercatore sarebbe nella condizione di prevedere comprendere e controllare perfettamente la risposta della variabile dipendente alle sollecitazioni delle variabili esplicative. Ciò in pratica accade di rado, soprattutto nella realtà economica, empiricamente in tale relazione bisogna tener conto dell’errore che inevitabilmente è presente.

In base al numero delle variabili indipendenti si distingue tra modello di regressione lineare semplice e modello di regressione lineare multipla.

• Regressione lineare semplice: si è interessati a valutare se la variabile dipendente, può essere causata, spiegata e/o prevista in funzione di una variabile esplicativa. La funzione di regressione lineare specifica una relazione causale di tipo lineare tra due variabili statistiche.

• Regressione lineare multipla: in una situazione più realistica vi è più di una variabile esplicativa che può spiegare un fenomeno, l’interpolante lineare non è più una retta, ma un piano detto piano di regressione. Per determinarlo si utilizza il criterio di ottimalità dei minimi quadrati ottenendo così i parametri della regressione.

Nella regressione multipla si pone il problema della determinazione non solo del contributo complessivo del piano interpolante alla spiegazione della variabilità della variabile risposta, ma anche la determinazione del contributo parziale di ciascuna variabile esplicativa.

Regressione logistica

Può accadere che la variabile risposta sia di tipo qualitativo e non quantitativo, in questo caso si può procedere trasformandola in una variabile risposta di tipo dicotomico.

Il modello di riferimento della maggior parte dei problemi con variabile risposta qualitativa è la regressione logistica, uno dei più importanti metodi predittivi di DM.

(31)

Capitolo II 65

I valori della variabile risposta dicotomica possono assumere solo i valori pari a 0 o 1. La modalità 1 solitamente rappresenta il verificarsi di un evento di interesse, detto successo, il valore 0 il non verificarsi di tale evento. Un modello di regressione logistica è definito in termini di valori stimati che devono essere interpretati come probabilità che si verifichi un evento in sottopopolazioni differenti, più precisamente specifica che un’appropriata funzione della probabilità stimata di un evento è una funzione lineare dei valori osservati delle variabili disponibili. La variabile dipendente viene rappresentata dal logaritmo degli odds di un evento, vale a dire il logaritmo naturale del rapporto tra la probabilità di successo e quella di insuccesso. Si mira a stimare la probabilità di successo per determinati valori delle variabili esplicative , non si vuole quindi prevedere i valori che può assumere una variabile data, ma la sua trasformazione, appunto il logaritmo dell’odds, detto logit32.

Come nel caso della regressione lineare, raramente l’adattamento sarà perfetto, e quindi tipicamente sarà presente un errore che dovrà essere il più piccolo possibile. Il modello di regressione lineare sarebbe inappropriato in quanto prevede che la variabile risposta possa assumere anche valori dell’intervallo [0;1] il che sarebbe privo di senso.

La relazione che si analizza in questo caso corrisponde alla funzione nota come “curva logistica” ed è stata ampiamente utilizzata nelle applicazioni aziendali, in particolare per modellare fenomeni di diffusione, quali la vendita di un nuovo prodotto o lo sviluppo di un’innovazione tecnologica.

Analisi discriminante

L’analisi discriminante consente di studiare ed esaminare le differenze esistenti tra gruppi, definiti a priori, rispetto ad alcune variabili esplicative33.

32 Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni

aziendali” , Giuffrè Editore.

33 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

(32)

Capitolo II 66

Sia il modello di regressione lineare che quello di regressione logistica sono essenzialmente modelli di scoring: assegnano a ogni valore da prevedere un punteggio numerico. Tale punteggio può essere utilizzato per stimare la probabilità che la variabile dipendente assuma una predeterminata serie di valori o modalità.

I punteggi possono quindi essere utilizzati per classificare le osservazioni in classi disgiunte. Questo è particolarmente utile per classificare nuove osservazioni non ancora presenti nel data base, tale obiettivo è più naturale per il modello di regressione logistica, per cui i punteggi previsti possono essere trasformati in valori 0-1 classificando così le osservazioni in due classi: quelli il cui valore previsto è 0 e quelli per cui il valore previsto è 1. Per raggiungere questo scopo è evidentemente necessario un valore soglia. Questa tipologia di regole di classificazione previsive è stata l’oggetto della teoria classica dell’analisi discriminante per il semplice caso in cui ogni osservazione deve essere classificata in modo dicotomico: o nella classe 1 (si manifesta l’evento) o nella classe 0 (non si manifesta l’evento).

La scelta tra le due classi è solitamente basata su un criterio probabilistico: si sceglie la classe con la più alta probabilità di verificarsi sulla base dei dati osservati. La regressione logistica può essere espressa come funzione lineare del logaritmo degli odds e quindi una regola discriminante può essere espressa in termini lineari: questa regola è nota come regola logistica discriminante e si estende in modo simile a variabili dipendenti qualitative con più di due modalità.

Alberi decisionali

Un’altra importante classe di metodi predittivi del DM è l’analisi di segmentazione o alberi decisionali. Mentre i modelli di regressione lineare e regressione logistica prima producono un punteggio, e poi possibilmente una classificazione, secondo una regola discriminante, gli alberi decisionali prima producono una classificazione delle osservazioni in gruppi e poi un punteggio per ognuno di essi, costante in ogni gruppo. Questi rappresentano una tecnica di apprendimento per la risoluzione di problemi di classificazione e di previsione.

(33)

Capitolo II 67

Solitamente gli alberi decisionali si distinguono in alberi di regressione, quando la variabile risposta è continua, e gli alberi di classificazione quanto la variabile risposta è quantitativa discreta o qualitativa34.

L’analisi di segmentazione può essere definita come una procedura ricorsiva, attraverso la quale un insieme di n unità statistiche viene progressivamente suddiviso in gruppi, secondo una regola divisa che mira a massimizzare l’omogeneità interna ai gruppi ottenuti. A ogni passo della procedura, la regola divisiva è specificata da una partizione dei valori di una delle variabili esplicative. Pertanto, a ogni passo, la scelta di una regola divisiva implica la scelta di quale variabile esplicativa utilizzare e di come partizionarla.

Il risultato principale dell’analisi di segmentazione è una partizione finale delle osservazioni: per raggiungere quest’ultima è necessario specificare un criterio di arresto per il processo divisivo.

Dal punto di vista di visualizzazione dei risultati l’output dell’analisi è solitamente rappresentato mediante una struttura ad albero, che è molto simile nella struttura ad un albero di classificazione gerarchica 35. Ciò implica che, come nei metodi di classificazione gerarchica, la partizione ottenuta ad un certo livello risulta influenzata dalle scelte precedenti. Negli alberi di classificazione la variabile dipendente è spesso dicotomica; i nodi terminali sono chiamate foglie dell’albero e contengono le principali informazioni che vengono comunicate proprio dall’albero decisionale, soprattutto ridanno i criteri in base ai quali vengono allocate, con una certa probabilità, le unità statistiche, non già inserite in una categoria, ai diversi gruppi riscontrati.

Da un punto di vista previsivo diviene quindi possibile classificare unità statistiche per le quali non si conoscono le modalità della variabile risposta; per gli alberi di classificazione può essere quindi derivata una regola discriminante per ogni foglia dell’albero. Una regola comunemente utilizzata è quella di classificare tutte le

34 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

35 Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni

(34)

Capitolo II 68

informazioni appartenenti a un nodo terminale nella classe corrispondente alla modalità più frequente (moda) , questo corrisponde alla cosiddetta regola di maggioranza.

Pertanto, ognuna delle foglie mostra una chiara regola di allocazione delle osservazioni che viene letta seguendo il percorso che collega il nodo iniziale ed ognuna di esse. In questo modo ogni percorso in un albero decisionale rappresenta una regola di classificazione. In confronto alle regole discriminanti, gli alberi decisionali producono regole che non sono così esplicite analiticamente ma, d’altro canto, più semplici da comprendere in termini grafici.

Nonostante le similitudine “grafiche”, vi sono importanti differenze fra un’analisi di raggruppamento gerarchica e un’analisi tramiti gli alberi decisionali36.

Innanzitutto, a differenza delle cluster analysis, gli alberi decisionali sono più previsivi che descrittivi; mentre la cluster analysis realizza una classificazione non supervisionata delle osservazioni, sulla base di tutte le variabili disponibili, gli alberi decisionali realizzano una classificazione delle osservazioni sulla base di tutte le variabili esplicative, supervisionate dalla presenza della variabile dipendente (target).

Una seconda importante differenza riguarda la differenza della regola di partizione ai vari livelli della procedura, mentre negli alberi decisionali la segmentazione viene tipicamente attuata utilizzando una solo variabile esplicativa alla volta ( quella massimamente predittiva), nella clusterizzazione la regola divisiva tra i gruppi viene stabilita in base a considerazioni sulla distanza fra essi calcolata utilizzata tutte le variabili a disposizione.

Importantissimo è sottolineare che nell’analisi cluster non si sa fino alla fine del processo la numerosità è la tipologia dei gruppi a cui si giungerà, ciò dipende dai metodi e dai criteri per misurare la distanza tra le varie osservazioni basandosi su tutte le variabili esplicative disponibili, negli alberi decisionali si conoscono già i raggruppamenti ai quali si vuole giungere, si tratta sostanzialmente di individuare una regola decisiva predittiva che permetta di allocare con un certo grado di ragionevolezza

36 Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni

(35)

Capitolo II 69

che le future osservazioni di cui so conoscono comunque tutte le caratteristiche corrispondenti alle variabili esplicative.

Il principale elemento distintivo di un albero decisionale è il modo in cui viene scelta la regola divisiva delle unità appartenenti a un gruppo, corrispondenti a un nodo dell’albero decisionale, ciò equivale infatti alla scelta del predittore migliore tra quelli disponibili nonché nella scelta del partizione migliore tra quelle corrispondenti. Generalmente entrambe le scelte vengono effettuate calcolando, in corrispondenza di ogni predittore e partizione, un indice di efficacia della partizione che viene successivamente massimizzato.

L’albero decisionale potrebbe crescere in assenza di criteri di arresto finchè ogni nodo contenga osservazioni identiche in termini di modalità delle variabile dipendente. Ciò potrebbe non costituire una segmentazione ottimale37.

Sono necessari pertanto dei criteri di arresto da applicarsi a seguito di ogni suddivisione, che possono determinare l’interruzione della crescita di un albero decisionale. Le proprietà desiderabili della partizione corrispondente alla regola d’arresto sono l’individuazione di una classificazione parsimoniosa, cioè che richiede l’esistenza di un numero ridotto di nodi terminali che rendano la regola classificatoria di facile comprensione, e discriminatoria, cioè che permetta l’ottenimento di un numero congruo di nodi terminali massimamente omogenei al loro interno ed eterogenei tra loro.

Reti neurali

Un’altra metodologia di grande interesse è la classe delle reti neurali, che può essere utilizzata per molti scopi, in particolare per il DM descrittivo e previsivo38.

37 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

38 Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” , Mcgraw-Hill.

Riferimenti

Documenti correlati

166 3.5 Le novità introdotte dalla Legge di stabilità 2015 in. tema di dichiarazione integrativa e

Se il periodo è l’anno, questa è una rendita annuale di durata cinque anni, quindi è costituita da cinque rate posticipate L’inizio della rendita è oggi (anno 0) la fine

Sessione estiva anticipata — prova scritta del 18

Sicuramente un multimetro portatile non contiene al suo interno raffinatezze che possano rendere sempre affidabile la valutazione, anche se il costrutto- re dichiara che è proprio

I boxplot, nelle pagine seguenti, rappresentatano la variabilità intra e interregionale: i rettangoli mostrano la variabilità intra-regionale e rappresentano i valori

[r]

Il Fornitore si obbliga a osservare, nell’esecuzione delle prestazioni contrattuali, tutte le norme e le prescrizioni tecniche e di sicurezza in vigore al momento dell’affidamento e

Sezione I: Amministrazione aggiudicatrice - I.1) Denominazione e indirizzi: Inail - Istituto nazionale per l'assicurazione contro gli infortuni sul lavoro. II.2.4)