CAPITOLO I IL SISTEMA INFORMATIVO DI MARKETING

(1)

Capitolo I

11

CAPITOLO I

IL SISTEMA INFORMATIVO DI MARKETING

1.1 CONTESTI ED APPLICAZIONI

La decisione di effettuare una ricerca di marketing implica sempre discussioni all’interno del sistema impresa riguardo l’opportunità o meno di intraprendere tale attività, in relazione per lo più al trade-off costi benefici che questa comporta.

Alla base dello svolgimento di una ricerca c’è sempre la convinzione che è più efficace prendere decisioni di marketing avendo a disposizione le informazioni relative ai fenomeni di mercato su cui tali decisioni avranno effetto.

Cercando di raggiungere una visione più generale circa il panorama in cui ciascuna azienda si trova inserita, proviamo a riflettere sul motivo che potrebbe spingere il management a propendere per un investimento in ricerche di marketing.

Ogni realtà aziendale per sopravvivere in un contesto estremamente competitivo deve conseguire un vantaggio competitivo le cui fonti risiedono nel suo patrimonio di risorse e competenze. Non tutte le risorse possono essere fonti di un vantaggio competitivo difendibile per l’impresa, ma solo quelli che godono di alcuni attributi quali 1:

- Scarsità, ovvero non sono diffuse tra i concorrenti del settore o del gruppo strategico.

- Difendibilità, ovvero l’azienda deve riuscire a creare delle barriere che rendano possibile la difesa delle risorse e delle competenze critiche.

- Appropriabilità dei risultati economici che ne derivano

- Economicità, ovvero le risorse devono contribuire al miglioramento di efficacia ed efficienza dell’impresa stessa.

(2)

Capitolo I

12

Considerando ciò è evidente come la “conoscenza dell’impresa” sia particolarmente predisposta a detenere tutti gli attributi elencati. Questa infatti è scarsa nel senso che è stata generata nel tempo dall’impresa stessa durante lo svolgimento delle proprie attività e pertanto non è disponibile allo stesso modo per i concorrenti; è difendibile perché è propria dei soggetti interni all’impresa; i risultati economici che ne derivano sono appropriabili , appunto perché tale conoscenza risulta idiosincratica; genera economicità perché permette, tramite l’apprendimento, di migliorare l’efficacia e l’efficienza dei processi operativi dell’impresa.

Se dalla più generale conoscenza d’impresa si focalizza l’attenzione su una parte di essa, la conoscenza di marketing , ovvero la conoscenza dei mercati, dei concorrenti che vi operano, dei clienti che li compongono e dei meccanismi che li regolano, si può arrivare a una risposta al quesito iniziale sulla ragione di fondo per cui un’azienda dovrebbe investire in ricerche di marketing.

Infatti, a prescindere dal problema specifico che una ricerca può aiutare a risolvere, questa apporta un ulteriore contributo al patrimonio di conoscenze dell’impresa e quindi contribuisce indirettamente alla generazione di vantaggi competitivi difendibili.

Quanto più l’impresa dispone di conoscenze di marketing differenziali rispetto ai suoi concorrenti e tanto più avrà la possibilità di proporre ai mercati in cui compete sistemi di offerta differenziati e maggiormente in grado di combaciare con le aspettative dei clienti.

Il sistema informativo di marketing può essere considerato, in termini ampi, come un insieme di attività, di tecnologie, di procedure organizzative, di modelli, di metodologie e di persone, volto alla raccolta, al trattamento, alla conservazione, alla distribuzione e all’interpretazione riguardanti fenomeni di mercato2.

Gli elementi che compongono il sistema informativo di marketing sono molteplici.

Innanzitutto il sistema è costituito da una serie di attività che danno vita alle varie fasi del processo di trasformazione dei dati in informazioni.

All’interno di ognuna di esse viene svolta una serie di attività che danno vita alle varie fasi del processo di trasformazione dei dati in informazioni.

(3)

Capitolo I

13

Le procedure organizzative per lo svolgimento delle diverse attività descrivono le modalità ritenute più efficienti ed efficaci tramite cui svolgere le diverse attività. I modelli e le metodologie sono un ulteriore componente del sistema informativo di marketing e permettono di raccogliere trattare e interpretare i dati, in modo da trasformarli efficacemente in informazioni utili, e di assumere decisioni conseguenti.

La tecnologia è sicuramente una componente fondamentale del sistema informativo di marketing. Le più recenti innovazioni in campo informatico e delle telecomunicazioni hanno permesso di elevare sia la velocità di svolgimento delle varie fasi sia la precisione nell’assolvimento dei compiti.

Infine una componente critica del sistema informativo di marketing è costituito dalle persone coinvolte nelle varie fasi del processo, senza una loro adeguata formazione, senza un investimento nel loro coinvolgimento rispetto allo scopo e senza l’applicazione di coerenti sistemi di incentivazione, il sistema rimane un possente strumento di cui poco viene realmente sfruttato.

Una volta descritti gli elementi fondamentali del sistema informativo di marketing, per comprendere appieno la loro utilità all’interno della realtà aziendale, è necessario distinguere i dati in base allo scopo per cui sono stati raccolti e in base alle fonti informative attivate per ottenerli3.

Innanzitutto si può distinguere tra dati primari e dati secondari: i primi vengono appositamente raccolti con lo scopo di effettuare una particolare analisi o per assumere una specifica decisione, mentre i secondi sono prodotti per altri scopi, ma possono risultare utili anche per assumere altre decisioni.

Per quanto riguarda la tipologia di fonte informativa è utile distinguere tra dati interni, prodotti direttamente dal personale aziendale, e dati esterni, prodotti da qualche altra istituzione ma comunque a disposizione dell’azienda per attività decisionale.

Queste differenti categorie di dati costituiscono il patrimonio informativo del sistema impresa, le attività per avere la disponibilità di tali informazioni possono essere varie.

(4)

Capitolo I

14

L’azienda può infatti attivare delle fonti interne per raccogliere dei dati primari, parliamo allora di marketing intelligence, una volta chiarificato quale sia il problema da risolvere e quali potrebbero essere le informazioni necessarie, alcuni componenti del personale si attivano per la raccolta di dati; generalmente sono coinvolti anche coloro che hanno possibilità di interagire direttamente col fenomeno in analisi. Ciò avviene per esempio nei casi in cui si vogliano stimare l’evoluzione dei clienti attuali, l’esistenza del mercato di nuovi potenziali clienti o anche l’entrata di nuovi concorrenti nel mercato. Spesso grazie proprio al sistema informativo di Marketing il personale e i manager possono accedere ai dati interni utilizzando una intranet aziendale: si tratta di una rete di comunicazione interna all’impresa che utilizza la tecnologia internet per collegare i vari dipartimenti, i dipendenti e le banche dati consultabili.

L’impresa ha anche la possibilità di attingere al patrimonio di dati secondari accumulati nel tempo, prestando sempre una particolare attenzione non solo alla pertinenza dei dati con la questione in analisi, ma anche al fatto che tali dati siano aggiornati al presente. Far ricorso a tali informazioni può essere utile per esempio quando si vogliono monitorare i costi e i risultati economici-finanziari o i tempi necessari per una data produzione.

L’azienda può far riferimento anche ai dati secondari prodotti da fonti esterne, ovvero istituzioni o singoli soggetti che, per loro esigenza, analizzano dati riguardanti anche fenomeni di mercato.

Oltre alle fonti pubbliche si devono considerare anche altre fonti di carattere privato come le Camere di commercio, le associazioni di categoria e altri centri di ricerca sociale ed economica.

Quando non si riescono a reperire né dati primari da fonti interne, né dati secondari di nessun tipo, il decisore di marketing deve progettare un processo di ricerca di marketing ad hoc. Viene quindi innescato un processo di rilevazione specificatamente progettato per prendere una particolare decisione futura.

Considerando quanto è stato detto sembra implicito che qualsiasi azienda che disponga di informazioni investa in ricerche di marketing, e per definizione utilizzi tali dati per le proprie analisi e decisioni.

(5)

Capitolo I

15

Purtroppo questo è vero solo in teoria, sono numerose le imprese che, pur disponendo di informazioni, non le utilizzano per gli scopi per cui sono state generate4.

Il primo grosso impedimento è senz’altro la scarsa fiducia che i potenziali utilizzatori dei dati ripongono nel fornitore dei dati stessi, nella qualità dei dati e nelle infrastrutture tecnologiche del sistema. Spesso le cattive relazioni tra i vari reparti portano ad assumere atteggiamenti di ostilità e isolamento rispetto ai colleghi di diversi dipartimenti.

Le cattive relazioni sono spesso frutto della distanza culturale fra le varie funzioni, oppure della mancata condivisione di obiettivi alla base della produzione di dati, oppure ancora della percezione di perdita di potere nel caso i dati vengano distribuiti ad altri.

Inoltre, può sussistere scarsa fiducia nei dati stessi se non si riconosce competenza a coloro che li hanno generati, oppure, come accade spesso per i dati secondari, non si ritiene che siano adeguati per i propri fini.

Da ultimo può esserci scarsa fiducia nella tecnologia disponibile perché ritenuta non coerente con i propri scopi.

Un secondo grosso blocco nei confronti dell’utilizzo dei dati è costituito dalla struttura organizzativa e dai meccanismi operativi che potrebbero ostacolare l’utilizzo dei dati disponibili; infatti nel caso in cui le decisioni vengano prese da un vertice accentratore o la comunicazione all’interno del sistema impresa sia piuttosto scarsa, si potrebbe assistere ad una demoralizzazione generale nei confronti dell’utilizzo di dati ai fini decisionali.

Se i potenziali utilizzatori non utilizzano i dati disponibili nel patrimonio di informazioni aziendale non vengono effettuate approfondite analisi di marketing, e le decisioni vengono prese basandosi sull’intuito dei decisori o su esperienza pregressa. Tali decisioni potranno comunque portare a buoni risultati in termini di efficacia ed efficienza, ma si perde molto in termini di qualità dei processi decisionali interni.

Per evitare ciò le aziende devono quindi investire nel miglioramento delle relazioni al proprio interno, volte allo sviluppo di fiducia inter-funzionale e dell’efficacia dei loro sistemi di gestione dell’informazione e della comunicazione, in modo che i dati generati siano quelli ritenuti adeguati dai potenziali utilizzatori.

(6)

Capitolo I

16

Pertanto si può concludere che le informazioni che derivano da un progetto di ricerca di marketing possono dispiegare tutte le loro potenzialità solo se l’impresa, e in particolare il personale di Marketing, è stata educata a una cultura della ricerca.

Senza di questa, gran parte degli investimenti effettuati in questo senso non produrrà gli effetti sperati e costituirà uno spreco di tempo e risorse, causando frustrazione e insoddisfazione in coloro che se ne sono occupati.

1.2. IL CONCETTO DI CONOSCENZA

La conoscenza, intesa come l’insieme delle informazioni che si estraggono dai dati, può essere considerata sotto due punti di vista5:

• Conoscenza reale: le informazioni contenute nei dati che si possono realmente conoscere o non conoscere.

• Metaconoscenza: le informazioni che potrebbero essere presenti nei dati e che a priori si pensano di conoscere o non conoscere.

Considerando questi aspetti si individuano diverse possibili situazioni:

- Si sa di sapere: le informazioni esistono realmente nei dati e si ha la consapevolezza della loro esistenza, spesso sono fatti ovvi, scontati, ben conosciuti e definiti da regole.

- Si sa di non sapere: si tratta di informazioni che si potrebbero conoscere ma che non sono evidenti o direttamente accessibili, non rientrano nella normale attività di analisi e si richiederebbero tecniche alternative.

- Non si sa di sapere: le informazioni rilevanti sono presenti nei dati e anche facilmente ricavabili, ma non si pensa che esse possano davvero esistere. Grazie a particolari tecniche si ha la possibilità di scoprire interessanti informazioni che esistono già nei dati e che però non vengono utilizzate in quanto non immediatamente evidenti.

- Non si sa di non sapere: in questo caso sarebbe necessario che, grazie all’intuito, si passasse a una situazione di sapere di non sapere, è importante rendersi conto che

(7)

Capitolo I

17

c’è molta più informazione nascosta nei dati rispetto a quella che si è in grado di distinguere a prima vista.

Analizzando il livello di profondità della conoscenza di una qualsiasi istituzione si può distinguere in diversi casi6:

• Conoscenza superficiale: si tratta dell’informazione che si recupera nei data base attraverso i diversi strumenti di interrogazione; si è consapevoli a priori riguardo a quello che si vuole trovare, dove e come farlo. Ci si basa su ipotesi sicure.

• Conoscenza multidimensionale: è l’informazione che può essere analizzata attraverso strumenti OLAP, ci sono ipotesi forti alla base ma tutte da verificare.

• Conoscenza nascosta: in questo caso l’ipotesi da cui si parte diventa più leggera, si presume che vi possano essere delle informazioni da scoprire impiegando algoritmi di

pattern recognition.

• Conoscenza profonda: è l’informazione presente nel data base che può essere trovata solo se si ha un’indicazione riguardo a dove cercare. Non vi è nessuna ipotesi di base e nessun obiettivo da raggiungere posto a priori.

1.3. DAL DATO ALLA CONOSCENZA

Da qualche anno è nata una nuova generazione di tecniche strumenti per analizzare, in modo automatico e intelligente, grandi volumi di dati, allo scopo di “estrarre” la conoscenza che vi è nascosta. Queste tecniche e strumenti sono rappresentati dall’emergente campo del Knowledge Discovery in data bases ( d’ora in poi KDD). Il KKD può essere visto come una conseguenza della naturale evoluzione della tecnologia dell’informazione: raccolta dei dati, creazione dei data base, impiego di sistemi di gestione dei dati, e infine la loro analisi e la loro interpretazione (data warehousing e DM).

Lo sviluppo di meccanismi per la raccolta dei dati e la creazione dei data base hanno posto le premesse per l’archiviazione e il recupero più efficiente dei dati stessi, consentendo

(8)

Capitolo I

18

l’elaborazione online, la quale ha reso possibile i processi di analisi e comprensione dei dati.

La nascita delle basi di dati risale agli anni ‘707: prima i data base con struttura gerarchica e reticolare, poi i data base relazionali, in cui le informazioni e le relazioni sono rappresentati da un insieme di tabelle.

Questi sono accompagnati dai primi strumenti per generare modelli di dati e da tecniche per l’indicizzazione e l’organizzazione dei dati. Gli utenti cominciano a disporre di flessibili sistemi per l’accesso ai dati grazie ai linguaggi di interrogazione e alle interfacce utente. I data base relazionali divengono ben presto il miglior strumento per la memorizzazione, il recupero e la gestione efficiente di grandi volumi dati.

Durante gli anni ’80 la tecnologia relazionale continua a evolvere e iniziano ad emergere sistemi di informazione globale basati su internet, quali il Web Wide Web, destinati a giocare un ruolo fondamentale nell’industria dell’informazione.

Il costante progresso dell’hardware negli ultimi tre decenni consente di disporre di una vasta gamma di potenti computer e apparecchiature per la raccolta e la memorizzazione dei dati, che spingono alla creazione di data base contenenti grandi volumi di dati disponibili per l’analisi.

Nasce il “data warehouse”, un grande contenitore di dati provenienti da fonti eterogenee, organizzati sulla base di un unico schema logico per facilitare i processi decisionali. E con il data warehousing fa la sua comparsa l’OLAP, vale a dire tecniche di analisi multidimensionali dei dati.

All’abbondanza di dati si accompagna l’esigenza di strumenti di analisi più potenti per far fronte a una situazione caratterizzata da ricchezza di dati ma povertà di informazione. Gli elevati volumi di dati impediscono all’uomo di elaborarli e comprendono senza l’ausilio idi strumenti, così il rischio che si corre è quello di prendere decisioni non sulla base di dati ricchi di informazioni presenti nei grandi data base, ma secondo il proprio intuito. La ricchezza di dati può diventare ricchezza di conoscenza grazie al KDD che offre proprio questi potenti strumenti di analisi, strumenti che adottano tecniche di DM, delle quali si parlerà approfonditamente in seguito.

(9)

Capitolo I

19

Ad oggi la definizione più esaustiva di KDD8 lo indica come il processo per identificare nei dati pattern, ovvero forme, con caratteristiche di validità, novità, utilità, potenziale e facilità di comprensione. Tale processo di estrazione della conoscenza dai dati porta a una “nuova” e non ovvia conoscenza per un impiego utile e conveniente.

E’ opportuno considerare in dettaglio i termini presenti nella definizione:

• Dati: Insieme di dati (casi in una data base);

• Pattern o forme: espressione o regola che descrive un fatto;

• Processo: svolgimento di una serie di fasi iterative che consistono nella

preparazione dei dati, nella ricerca di pattern e nella valutazione della conoscenza acquisita;

• Validità: il pattern identificato potrebbe essere valido per nuovi dati con lo stesso livello di certezza;

• Novità: i pattern sono novità che può essere valutata osservando i cambiamenti nei dati (confronto tra valori attuali e valori passati);

• Utilità potenziale: i pattern individuati dovrebbero potenzialmente condurre ad azioni utili;

• Facilità di comprensione: uno degli obiettivi del KKD consiste nella definizione di pattern che facilitano e migliorano la comprensibilità dei dati.

Il KDD non è una nuova tecnica ma un campo di ricerca che coinvolge discipline diverse: intelligenza artificiale, acquisizione della conoscenza per i sistemi esperti, statistica e visualizzazione dei dati. L’obiettivo comune di tutte queste discipline è la conoscenza dei dati presenti nei grandi data base.

Un’area fortemente connessa al KDD è il “data warehousing”, area che si occupa della realizzazione di ambienti che mettono a disposizione informazioni utili nei processi decisionali, senza dover affrontare le difficoltà di accesso ai tradizionali archivi di dati operativi9.

8_{Da Camillo, F., Tassinari G. (2005), “Data mining, web mining e crm”, Franco Angeli.} 9_{Da Molteni, L. , Troilo, G. (2003), “Ricerche di marketing” , McGraw-Hill.}

(10)

Capitolo I

20

L’esame del contenuto del data warehousing avviene grazie agli strumenti OLAP che offrono la possibilità di analisi multidimensionali, insieme al KDD si tratta di elementi per l’estrazione e la gestione intelligente di dati.

1.4. IL PROCESSO DI KDD

Il processo di KDD incomincia dai dati: questi vengono raccolti e “puliti” nel caso in cui il loro formato non sia appropriato per lo svolgimento delle successive analisi oppure non siano completi in determinati campi.

Il secondo passo consiste nella scelta del metodo di analisi in base ai risultati che si vogliono raggiungere, i quali vengono poi valutati, cioè si cerca di interpretare la conoscenza estratta. Tale interpretazione può, eventualmente, suggerire la reiterazione del processo, al fine di completare e perfezionare la conoscenza acquisita.

Il processo di KDD è un processo interattivo e iterativo, strutturato in diverse fasi10:

1. Si identifica il problema tenendo conto della relativa conoscenza già acquisita in precedenza e gli obiettivi che si vogliono perseguire.

Nel processo di estrazione della conoscenza, per ottenere i migliori risultati, è importante comprendere al meglio il dominio applicativo di riferimento ed individuare chiaramente gli obiettivi che si intendono raggiungere tramite tale attività.

La perfetta definizione degli obiettivi da raggiungere è forse la fase più delicata del processo e fondamentale per la riuscita dell’intero progetto. Condizione essenziale è parlare con gli esperti di dominio per capire con esattezza cosa va fatto e quali sono le esigenze da soddisfare.

2. Si seleziona l’insieme dei dati, oggetto del processo di estrazione della conoscenza. Risulta infatti particolarmente importante individuare le fonti da cui reperire i dati necessari per raggiungere gli obiettivi precedentemente definiti e valutare l’ambiente informatico che ne consenta la gestione.

(11)

Capitolo I

21

L’integrazione dei dati provenienti da fonti diverse deve portare alla creazione di un data set coerente con il modello definito nella fase di stesura degli obiettivi 3. Si puliscono e si normalizzano i dati. Una volta selezionati i dati dalle varie fonti

interne ed esterne, ed organizzati in un unico contenitore, si rende necessario valutarne la qualità e procedere ad un’attenta valutazione dei dati. E’ necessario effettuare uno studio preliminare che consenta di identificarne le caratteristiche ed eliminare le eventuali contaminazioni presenti al fine di eseguire la fase di analisi dati in maniera effettiva ed efficiente.

4. Si individuano le caratteristiche salienti per rappresentare il fenomeno che si sta analizzando in funzione dell’obiettivo definito.

5. Si sceglie il cosiddetto “datamining task”, cioè il tipo di analisi da effettuare.

6. Si scelgono le tecniche di DM da impiegare per ricercare i pattern nei dati, in funzione del criterio generale alla base del processo KDD. E’ la fase del processo KKD in cui vengono applicati iterativamente particolari metodi per estrarre conoscenza, ovvero cercare interessanti pattern , regole, o sequenze ripetute all’interno di grandi quantità di dati.

Questa attività di DM 11in pratica è una topologia delle relazioni che mappa quali condizioni di input hanno influenza su specifiche condizioni di output, e come alcune relazioni possono influenzare significativamente altre relazioni . E’ la rappresentazione formale, attraverso un’espressione matematica, di un certo aspetto o fenomeno e ne riproduce le caratteristiche essenziali.

E’ essenziale individuare dei metodi che meglio possano portare agli obiettivi che si vogliono raggiungere e che meglio si adattino al tipo di dati da analizzare all’interno di una strategia di estrazione.

Una strategia di DM si applica a un insieme di dati utilizzando una o più tecniche, una tecnica specifica è definita da un algoritmo e da una struttura di conoscenze associata. I metodi sono applicabili a qualsiasi ambito di indagine , tuttavia la scelta

11_{Da Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni aziendali” ,} Giuffrè Editore.

(12)

Capitolo I

22

di quale metodo utilizzare nella fase dio analisi dipende essenzialmente dal tipo di problema oggetto di studio e dal tipo di dati disponibili per l’analisi.

I metodi si suddividono in quattro classi:

- Metodi esplorativi: hanno lo scopo di trarre le prime conclusioni ipotetiche basandosi su metodologie interattive e visuali;

- Metodi descrittivi: hanno lo scopo di descrivere l’insieme dei dati sintetizzando le osservazioni in modo che possano essere classificate in gruppi non noti a priori;

- Metodi previsivi: l’obiettivo è quello di spiegare una o più variabili in funzione di tutte le altre, ricercando delle regole di segmentazione e di valorizzazione delle osservazioni;

- Metodi locali: l’obiettivo dell’analisi è individuare caratteristiche peculiari relativi a sottoinsiemi di interesse del data base;

7. Si effettua il DM, cioè si compie la ricerca dei pattern di interesse.

8. Si interpretano i pattern scoperti con possibilità di ritornare alle fasi precedenti per ulteriori iterazioni. Lo scopo dell’interpretazione e della valutazione è determinare la validità di un modello e la relativa applicabilità a problemi esterni all’ambito del test. La fase di interpretazione, attraverso un processo iterativo, può suggerire di ritornare ai passi precedenti per ulteriori attività di raffinamento. In questa fase si può ricorrere a tecniche di visualizzazione per analizzare i modelli estratti.

9. Si consolida e si formalizza la conoscenza acquisita per la presentazione. Una volta che il modello è stato creato e raffinato ad un accettabile grado di accuratezza, esso può essere usato in due modi: in modo descrittivo, permettendo agli utenti finali di studiare le relazioni scoperte tra i dati per migliorare la comprensione dei fattori chiave che influenzano il business, e in modo predittivo, determinando la più probabile condizione di output associata agli input forniti.

L’ultimo obiettivo del processo di estrazione della conoscenza consiste nell’utilizzazione di ciò che è stato appreso attraverso la sua applicazione ad altri sistemi per le azioni del caso.

(13)

Capitolo I

23

L’attività di reporting dei risultati è particolarmente importante, essa può assumere diverse forme a seconda dei casi specifici, in particolare considerando la tipologia dei destinatari finali.

Il ruolo fondamentale nel processo di KDD, che è caratterizzato da un elevato livello di iterazione, è svolto dalla fase 7, ovvero quella in cui si svolge il DM.

1.5. DATA MINING: SIGNIFICATO ED ELEMENTI DEL PROCESSO

Al fine di comprendere il termine DM 12può essere utile partire dalla traduzione letterale del termine: “to mine” in inglese significa “scavare per estrarre” ed è un verbo solitamente usato per azioni compiute nelle miniere. L’associazione del verbo con la parola “dati” rende l’idea di come vi sia una ricerca in profondità per trovare informazioni aggiuntive, non precedentemente note, nella massa dei dati disponibili.

Il processo mira proprio alla scoperta di relazioni, comportamenti o tendenze significative, ottenuta analizzando grandi masse di dati e utilizzando appropriate tecniche matematiche e statistiche; gli elementi da considerare sono quindi:

- l’obiettivo: scoprire relazioni e tendenze non banali nascoste nei dati;

- oggetto dell’analisi: grandi masse di dati;

- strumenti: tecniche statistiche e matematiche;

L’esigenza alla base del processo di DM, ovvero scoprire relazioni e tendenze non banali nascoste nei dati, nasce dal rapporto tra dato e informazione in azienda; oggi avere delle informazioni non significa solo avere dei dati a disposizione, non basta più avere la possibilità di riprodurre il dato immagazzinato, si vuole avere la possibilità di sintetizzarlo, di scorporarne o integrarne parti, di iniziare a essere attivi nella creazione

12_{Da Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” ,} Mcgraw-Hill.

(14)

Capitolo I

24

dell’informazione. Non si tratta più di capire “il quanto”, ma “il perché” delle dinamiche del mercato, così da riuscire a prendere decisioni con maggiore cognizione di causa.

Il secondo elemento del DM sono le “grandi masse” di dati. Non è assolutamente una novità che in azienda esista ormai una tale quantità di dati da rendere assolutamente impossibile un’analisi che prescinda dall’utilizzo di strumenti informatici e tecniche adeguate. Gli strumenti sono proprio le tecniche statistiche e matematiche di elaborazione dei dati che supportano il ricercatore nelle fasi fondamentali del DM, si possono considerare come tali ogni tecnica di riconoscimento delle relazioni, che può essere utilizzata per setacciare dati alla scoperta di correlazioni, relazioni e tendenze nuove e significative.

Il supporto informatico è assolutamente imprescindibile, ma non costituisce da solo la “strumentazione” necessaria per un’analisi dati che porti a dei risultati, è vero che è molto semplice e rapido ottenere i risultati relativi alla tecniche prescelta, ma è altrettanto vero che la scelta dei dati, la scelta della tecnica da utilizzare, la valutazione dei risultati e la loro interpretazione non possono essere effettuati da un software.

E’ da sottolinearsi come l’utilizzo di metodi quantitativi in azienda sia stato visto per molto tempo con una certa avversione, con l’effetto che per molto tempo questi sono stati ritenuti un patrimonio esclusivo degli specialisti della materia. Non è quindi un compito semplice introdurre delle metodologie che hanno a che fare con i numeri e con le formule in un mondo aziendale che, ad eccezione di particolari settori, non utilizza strumenti di tale natura.

Nonostante ciò, sembra che qualcosa si stia muovendo; alla luce delle ricerche in atto e del fabbisogno informativo riscontrato nelle aziende, fra le principali aree applicative dei metodi quantitativi oggi presenti in azienda si evidenziano anche l’analisi quantitativa dei dati, le ricerche di mercato e decision making, attività strettamente connesse ai processi di DM.

Interpretare, capire, comprendere dai numeri le dinamiche del mercato richiede competenze, proprio per svolgere in modo efficace l’attività di analisi dei dati, vale a dire per applicare le procedure e le corrette tecniche statistiche per un impiego efficiente dei dati e delle informazioni disponibili. Alla luce di un fabbisogno informativo identificato, la

(15)

Capitolo I

25

focalizzazione è sulle fasi di sintesi e di interpretazione dei risultati allo scopo di costruire e definire significativi report di supporto alle decisioni.

Recentemente si è avuto uno sviluppo notevole delle tecniche che lavorano su moli corpose di dati per estrapolare modelli interpretativi, fra queste proprio i modelli che appartengono al campo più vasto del DM.

La complessità e l’aumentata imprevedibilità dei problemi decisionali che si pongono al management di un’impresa impediscono che una valida gestione strategica sia basata solamente sull’intuizione e sull’esperienza manageriale.

Il management che prende decisioni deve poter disporre di modelli per l’analisi e la formulazione delle strategie, e, al contempo di strumenti capaci di supportare la valutazione dell’effetto che differenti politiche e decisioni strategiche possono avere sul comportamento dell’azienda.

Le decisioni hanno carattere sistemico, devono cioè tener conto del rilevante numero di variabili che interagiscono tra loro, ma è altresì importante individuare l’insieme ristretto delle variabili fondamentali che determinano il comportamento dinamico del business. Anche quando si hanno a disposizione grandi quantità di dati, spesso non si riesce a ricavarne un adeguato supporto informativo, ma riassumendo questi dati in una serie di regole si può arrivare a dare un significato a ogni singolo dato, considerato come parte dell’informazione complessiva.

Dal punto di vista della ricerca scientifica il DM costituisce un’area di ricerca di recente costituzione che si è sviluppata traendo principalmente spunto dagli sviluppi di altre

discipline, quali informatica, statistica e marketing13.

In particolare, molte delle metodologie impiegate nel DM traggono origine principalmente da due filoni di ricerca: quello sviluppato dalla comunità scientifica nell’apprendimento automatico (machine learning) e quello sviluppato dagli statistici, specie di coloro i quali si sono occupati dei metodi multivariati.

(16)

Capitolo I

26

L’apprendimento automatico è un filone di studi che si occupa di ricavare dai dati relazioni e regolarità alle quali fornire valenza generale. Questa seconda fase comporta la riproduzione dei processi generatori dei dati che permette la generalizzazione di quanto osservato per prevedere l’andamento di certe variabili in corrispondenza di dati non osservati.

La metodologia statistica si è da sempre occupata della costruzione di metodi e modelli per l’analisi dei dati, ciò ha sempre comportato una crescente attenzione per gli aspetti computazionali inerenti all’applicazione di questa metodologia.

Verso la fine degli anni ‘80 si ebbero le prime applicazione dei metodi di apprendimento automatico al di fuori dei settori dell’informatica e dell’intelligenza artificiale, particolarmente nelle applicazioni di data base marketing nelle quali i data base a disposizione venivano utilizzati per campagne di marketing mirate; proprio in questo periodo viene coniato il termine KDD per descrivere tutti quei metodi il cui obiettivo fosse illustrare la ricerca di relazioni e la regolarità nei dati osservati. Gradualmente il termine KDD venne utilizzato per indicare l’intero processo di estrazione della conoscenza da una data base, in questo ambito il termine DM venne impiegato per identificare la fase del processo di KDD nel quale gli algoritmi di apprendimento venivano applicati ai dati. La formalizzazione di questa terminologia è stata avanzata per la prima volta durante i lavori della “First International Conference on Knowlwdge Discovery and datamining” a Montreal nel 1995 per indicare un insieme integrato di tecniche di analisi, ripartite in varie fasi procedurali, volte a estrarre conoscenze non note a priori da grandi insiemi di dati osservati, apparentemente non contenenti regolarità o relazioni importanti.

L’aspetto fondamentale che permette di distinguere il DM dall’analisi statistica dei dati è proprio la finalizzazione del DM all’ottenimento di risultati misurabili in termini di

rilevanza per l’organizzazione che possiede il data base, si parla quindi di vantaggio di business.

Alla luce di quanto sottolineato sopra una definizione più completa di DM può essere la seguente14:

(17)

Capitolo I

27

“Per DM si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati, al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile al proprietario del data base.”

Nel contesto aziendale, fare DM significa pertanto seguire un processo metodologico integrato che inizia con la traduzione delle esigenze applicative in una problematica da analizzare e prosegue con il reperimento del data base necessario per l’analisi.

DM può essere inteso come quel processo volto alla risoluzione di un problema di pattern

recongnition che significa “associazione di un’osservazione all’esperienza passata”15. Per

capire meglio il significato vero della definizione si può fare l’esempio della decisione di concedere o meno un prestito a un cliente di una banca sulla base di determinate informazioni, ciò richiede la valutazione di date informazioni associate all’esperienza e alla conoscenza precedentemente acquisite. Il DM pone l’attenzione sulla scoperta automatica di nuovi fatti e correlazioni tra i dati. L’idea è che il materiale grezzo sia il dato (business

data) e che l’algoritmo di DM sia lo strumento per raffinare l’enorme di dati grezzi per

trovare le preziose informazioni.

Questa operazione è efficiente se il valore delle informazioni estratte è superiore al costo sostenuto per ricavarle.

L’informazione trovata non deve essere ovvia né banale, deve fornire infatti un contributo al processo decisionale.

Gli aspetti di novità del DM rispetto alla più tradizionale analisi dei dati sono rappresentati principalmente dalla possibilità di elaborare insiemi con un numero molto elevato di osservazioni e dall’integrazione ed armonizzazione delle diverse tecniche nell’ambito di un’unica procedura , che offre all’utente un percorso guidato e facilita l’interpretazione dei risultati anche da parte di non specialisti.

Si può concludere indicando il DM come una delle attività cruciali per la comprensione, la navigazione e lo sfruttamento dei dati nella nuova era digitale, si tratta del processo automatico di scoperta ed individuazione di patterns, modelli e relazioni; attraverso tale processo si può estrarre conoscenza,in termini di informazioni significative ed

(18)

Capitolo I

28

immediatamente utilizzabili, da grandi moli di dati, tramite l’applicazioni di particolari tecniche ed algoritmi.

L’applicazione di tecniche di DM sfruttando appieno la ricchezza informativa insita nel patrimonio di dati disponibili consente di acquisire un effettivo vantaggio competitivo.

1.6. DATA MINING E INFORMATICA

L’emergere del DM è strettamente connesso agli sviluppi della tecnologia dell’informazione, e in particolare, all’evoluzione delle forme organizzative dei data base, evolutasi rapidamente nell’ultimo periodo.

Spesso bisogna fare attenzione a non confondere determinati termini propri del linguaggio informatico, sovente confusi tra loro e con il DM.

Si tratta di strumenti di query, reporting e OLAP, che corrispondono ad importanti strumenti di business intelligence.

Gli strumenti di query e reporting sono veloci e facili da utilizzare, permettono di esplorare i dati aziendali ai vari livelli, recuperando le specifiche informazioni richieste con gli strumenti di query e presentandole in modo chiaro e comprensibile attraverso gli strumenti di reporting16.

Strumenti di questo tipo permettono di trasmettere i risultati delle elaborazioni dei dati attraverso reti che garantiscono la condivisione con fruitori interni o esterni all’azienda. L’attività di DM non può essere confusa con la realizzazione di strumenti volti a fornire reportistiche multidimensionali come l’OLAP (ricordiamo On Line Analytical Processing). Uno strumento OLAP è, essenzialmente, uno strumento, spesso di tipo grafico, che permette di visualizzare le relazioni tra le variabili a disposizione, seguendo la logica di analisi di un report a due dimensioni17.

16_{Da Perner,P. (2006), “Data Mining on multimedia data” , Springer.}

(19)

Capitolo I

29

Diversamente, il DM combina in modo multivariato tutte le variabili a disposizione permettendo anche di andare oltre la semplice visualizzazione riassuntiva ridata dagli strumenti OLAP, formulando modelli funzionali all’attività di business.

Il DM non si esaurisce nell’attività di analisi dei dati, bensì in un processo più complesso in cui l’analisi dei dati è solo uno degli aspetti.

L’OLAP è tuttavia un importante strumento di business intelligence; mentre gli strumenti di query e reporting descrivono cosa c’è in un data base, l’OLAP va oltre: è utilizzato per rispondere al perché certe relazioni sono vere. L’utente formula delle ipotesi sulle possibili relazioni esistenti tra le variabili e cerca delle conferme osservando i dati, l’OLAP fornisce una rappresentazione grafica (detta ipercubo multidimensionale) che mostra la relazione empirica esistenze tra le variabili in oggetto. L’esame del grafico può pertanto fornire indicazioni sulla validità dell’ipotesi effettuata.

Pertanto anche l’OLAP permette di estrarre delle informazioni dal data base aziendale; diversamente dal DM, tuttavia, le ipotesi di ricerca vengono suggerite dall’utente e non scoperte nei dati. Inoltre, l’estrazione viene effettuata in modo puramente informatico, senza avvalersi degli strumenti di modellazione e di sintesi forniti dalla metodologia statistica.

L’OLAP quindi può dare informazioni utili per data base con un numero limitato di variabili, ma i problemi diventano insormontabili quando il numero delle variabili da analizzare cresce e raggiunge l’ordine delle decine o delle centinaia.

In definitiva l’OLAP non è un sostituto del DM, anzi le due tecniche di analisi sono complementari e il loro impiego congiunto può produrre utili sinergie.

L’OLAP può essere impiegato nelle fasi preliminari del DM agevolando la comprensione dei dati e permettendo di focalizzare l’attenzione sulle variabili più importanti.

D’altra parte, i risultati finali dell’attività di DM, riassunti da opportune variabili di sintesi, possono essere convenientemente rappresentati in un ipercubo di tipo OLAP, che permette una comoda visualizzazione18.

18_{Giudici, P. (2005), “Data mining: modelli informatici, statistici ed applicazioni” ,} Mcgraw-Hill.

(20)

Capitolo I

30

Chiaramente parlando di strumenti di query, reporting , OLAP e DM, trattiamo sempre di strumenti che possono essere molto efficaci in base ella esigenze informative del caso. Nella loro scelta bisogna considerare che tipo di conoscenza si vuole raggiungere e l’esistenza di un trade-off fra costi e benefici dei diversi strumenti19.

1.7. DATAMINING E STATISTICA

La statistica si è da sempre occupata della costruzione di metodologie per l’analisi dei dati; recentemente anche gli statistici hanno volto la loro attenzione al DM e ciò non può che costituire un importante fattore di rigore e sviluppo alla disciplina. Tuttavia questi studiosi muovono una serie di critiche proprio al DM stesso.

In primo luogo viene contestato che, nel DM, non vi è un unico modello teorico di riferimento, ma numerosi modelli in competizione che vengono selezionati sulla base dei dati in esame; pertanto, è sempre possibile trovare un modello che si adatti ai dati20.

In secondo luogo si contesta che l’abbondanza di dati a disposizione possa indurre erroneamente a trovare nei dati relazioni inesistenti. Tali critiche sono da tenersi in debita considerazione, ma bisogno rilevare che, in primo luogo, le moderne tecnologie di DM prestano particolare attenzione al concetto di generalizzabilità dei risultati: ciò implica che, nella scelta di un modello, si tenga in debito conto la capacità previsiva e, quindi, vengano penalizzati i modelli più complessi.

Inoltre è difficile disconoscere che molti risultati di interesse per un’applicazione non sono noti a priori, e , come tali, non quantificabili in un’ipotesi di ricerca, ciò accade in particolare nei data base di grandi dimensioni.

Quest’ultimo aspetto è uno dei tratti che distingue il DM dalla statistica applicata: mentre la statistica si occupa tipicamente di analisi dei dati primari, raccolti allo scopo di verificare

(21)

Capitolo I

31

determinate ipotesi di ricerca, il DM si può anche occupare di dati secondari, raccolti anche per scopi differenti da quelli dell’analisi21.

Inoltre, mentre in ambito statistico i dati possono avere anche natura sperimentale (possono cioè essere frutto di un disegno sperimentale che alloca le unità statistiche in modo casuale a diverse tipologie di trattamento), nel DM i dati hanno tipicamente natura osservazionale. E’necessario sottolineare altri tre aspetti che distinguono la statistica applicata dal DM22. Innanzitutto il DM si occupa tipicamente dell’analisi di grandi masse di dati; spesso è impossibile accedere all’intero data base e per motivi di efficienza computazionale e anche informatività, si pone l’esigenza di effettuare un campionamento sui dati del data base. Tale campionamento va compiuto in base agli obiettivi del DM e pertanto, i tradizionali strumenti della teoria statistica del campionamento potrebbero non essere sufficienti. In secondo luogo molti data base non sono riconducibili alle forme classiche di organizzazione dei dati nella statistica; ciò richiede la ricerca e lo sviluppo di metodologie di analisi appropriate, spesso non disponibili in ambito statistico.

Un’ultima importante distinzione è che i risultati del DM devono essere rilevanti: ciò implica una costante attenzione alla validazione dei risultati ottenuti con i modelli di analisi. Nell’attività di confronto dei modelli di DM aziendale un ruolo decisivo deve essere svolto da considerazioni di natura economica, ciò implica, per esempio, che il confronto degli errori di classificazione dei modelli previsivi deve fare riferimento alle perdite monetarie connesse ai diversi tipi di errori.

1.8. NUOVE FRONTIERE PER LE RICERCHE DI MARKETING

Il DM in senso lato considera anche tipi di informazioni che non costituiscono oggetto dei metodi tradizionali di analisi dei dati, focalizzati sulle variabili quantitative e qualitative. Le tipologie di maggior interesse sono le seguenti:

21_{Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni aziendali” ,} Giuffrè Editore.

22_{Meo,R., Lanzi,P., Klemettinen, M . (2002) “ Data base support for Data Mining} Applictions”, Springer.

(22)

Capitolo I

32

• Text mining in cui si esaminano con metodi statistici dei testi espressi con parole (articoli di giornali, messaggi pubblicitari, lettere di reclamo da parte dei clienti), allo scopo di individuare le espressioni ricorrenti con maggior frequenza e di raggruppare i documenti per argomento, sulla base delle parole in essi contenute23. Si può considerare come una variazione del DM e consiste nell’applicazione delle sue tecniche e testi non strutturati; la differenza tra il DM e il text mining è che nell’ultimo caso le sequenze di parole (i pattern) sono estratti da testi in linguaggio naturale piuttosto che da un data base strutturato di fatti.

Oggi con la diffusione delle tecnologie proprie della società dell’informazione e con la crescita smisurata del numero di documenti che possono contenere informazioni interessanti, e quindi da analizzare, risulta quanto meno importante disporre di strumenti automatici per la loro catalogazione ed analisi. Dal momento che i dati testuali non sono strutturati, l’analisi automatica appare abbastanza difficile, tuttavia l’estrazione di informazioni utili diventa possibile laddove, ad esempio, si cerca unicamente di classificare dati testuali senza cercare di capirne completamente il contenuto.

Un problema comune che può essere risolto con il text mining consiste nella determinazione dell’appartenenza o meno di un determinato documento ad uno specifico argomento (classificazione, raggruppamento tematico). L’individuazione di gruppi consente di dare un’organizzazione all’informazione disponibile e di individuare argomenti minori che anche ad una lettura attenta potrebbero sfuggire. Le relazioni inoltre possono mettere in evidenza delle associazioni nascoste considerando i legami tra argomenti apparentemente separati ma che hanno una terminologia in comune.

Altri problemi che possono essere affrontati riguardano la possibilità di identificare entità (es. nomi di aziende) contenute nei documenti, si parla allora di information

extration, ed estrarre concetti per la creazione di ontologie.

Il text mining coinvolge l’applicazione di tecniche diverse, e, analogamente al KDD, percorre le fasi classiche di un processo di estrazione di conoscenza.

(23)

Capitolo I

33

• Data stream, cioè flussi di dati, le informazioni generate con continuità nel tempo o intervalli temporali molto ravvicinati come ad esempio le transazioni sui titoli di borsa effettuate per via telematica. Interessante è la procedura definita Clickstream

analysis che ha come obiettivo la comprensione dei percorsi di visita dei siti web da

parte delle aziende, in particolare l’identificazione di percorsi di visita significativi per le finalità ultime del business, come ad esempio i percorsi che portano il cliente all’abbandono del sito e viceversa che portano all’acquisto24.

• I dati simbolici, intendendo per tali quelli che non si traducono in singoli valori, ma sono rappresentati da liste, intervalli e distribuzioni. L’analisi dei dati simbolici analizza oggetti che contengono un tipo di informazione che non è possibile esprimere nell’ambito dell’analisi dei dati classica, gli oggetti simbolici sono tali perché descritti da espressioni che contengono operatori diversi per l’analisi di dati classica25.

• Web mining in cui si considerano le caratteristiche dei visitatori di un sito web come il numero di visite in un certo intervallo temporale, sequenza di pagine viste, tempo di permanenza26. Appare evidente l’appeal che uno strumento di contatto quale internet riveste nell’ambito delle ricerche di mercato. Il web è un medium interattivo che utilizza suoni, immagini e filmati, una ricerca su internet può essere quindi in grado di testare tutte le componenti di comunicazione che offre la rete. Esistono oggi molti software per l’effettuazione di ricerche sul web, alcuni dei quali in grado di gestire in modo efficiente tutti i supporti media, chiaramente si devono considerare eventuali problemi tecnologici che comunque già oggi non costituiscono più un ostacolo rilevante al diffondersi delle indagini via web in particolare nelle ricerche business to business. Nel Web mining si considerano le informazioni generate dai contatti di un sito web, si ricercano strutture nascoste nei dati che permettano di individuare percorsi di visita, relazioni tra caratteristiche del

24_{Da Camillo, F., Tassinari G. (2005), “Data mining, web mining e crm”, Franco Angeli.} 25_{Da Zani, S., Cerioli,A. (2007), “Analisi dei dati e data mining per le decisioni aziendali” ,} Giuffrè Editore.

(24)

Capitolo I

34

navigatore e comportamenti nella navigazione, e conseguentemente modelli di previsione del comportamento. In particolare si tratta di analisi di classificazione e previsione, analisi di segmentazione, di associazione e analisi del percorso di navigazione e segmentazione.

Le tecniche quantitativamente utilizzate sono quelle di statistica multivariata, tipiche delle analisi tradizionali di DM.

Risulta chiaro che l’investimento in termini di tempi d energie sui temi del Web Mining e della web research è del tutto giustificato dalle potenziali ricadute sull’efficacia delle decisioni di marketing.

Quando il canale web inizia a generare profitti (o perdite nel caso in cui i clienti non siano fedeli o abbandonino per passare alla concorrenza) allora si inizia a tener conto dei dati che da questo derivano, e si iniziano a sviluppare le applicazioni che sono in grado di migliorarne la redditività.

In genere le applicazioni d Web Mining dipendono dalla disponibilità dei dati; nel caso in cui dati che si hanno a disposizione si limitino ai soli file che si hanno a disposizione dal traffico web, l’unica possibilità di applicazione è quella di Web traffic Mining ( ovvero estrazione di una nuova e significativa conoscenza partendo dalle informazioni che si ricavano dalle navigazioni dei soggetti); nel caso invece di integrazione dei dati con altre fonti, è possibile ipotizzare applicazioni di Electronic customer relationship management ( e-CRM).

I sistemi di web mining funzionano al meglio quando si hanno obiettivi chiari e misurabili , quello che bisogna fare è sfruttare al meglio le informazioni contenute nei dati, gli algoritmi di DM adatti e applicati al web permettono di rilevare i modelli comportamentali dei visitatori e generare report o implementare azioni in base ai modelli rilevati.