Capitolo 2: La Business Intelligence a supporto del management
2.2 La Business Intelligence: sistema di raccolta del patrimonio dei dati aziendali
2.2.1 I sistemi Data Warehouse
La tecnologia di riferimento per i sistemi di BI sono i Data Warehouse ( DWH) e la tecnologia OLAP (On Line Analytical Processing) che verranno esaminate nel corso del paragrafo.
35
Da sempre si sa che le aziende nascono per produrre e per soddisfare esigenze del mercato ma alla base di tutto ci sono i dati, che i sistemi informativi elaborano dando vita alle informazioni.
Per introdurre i concetti sopra citati, bisogna soffermarsi su come questa informazione passi da un sottosistema all’altro e ovvero di come il sistema operativo interagisce con quello direzionale poichè quest’ultimo elabora gli obiettivi per il sistema operativo che a sua volta fornisce al sistema direzionale il
feed – back sui risultati conseguiti.
Questa interazione funziona in modo efficiente ed efficace solo se si hanno sistemi integrati. Tale integrazione è resa possibile appunto con l’ausilio della BI che fa da ponte tra i due sottosistemi e supera i limiti che presentano le altre applicazioni già presenti in azienda. Non è corretto dire che la BI sostituisce tutto ciò che c’era prima, ma è più corretto affermare che ne è un ampliamento.
I database operativi non sono studiati per rispondere alle nuove esigenze del business aziendale, infatti questi lavorano con dati elementari collegati tra di loro da funzioni logiche e tabelle create appositamente per ciò che viene richiesto. Tuttavia però, l’ottica direzionale di un’azienda agisce in modo differente perché diverse sono le pressioni esterne e le informazioni di cui necessita sono infinite. Strumento molto più all’avanguardia del database operativo è per l’appunto il Data Warehouse, definito come “il legame logico tra ciò che i manager vedono nelle loro applicazioni per il supporto delle decisioni e le attività operazionali
dell’azienda” 36 e oltre ad essere una struttura di memorizzazione dati più evoluta
del semplice database è un processo complesso che parte dall’estrazione dei dati operativi per arrivare alla trasformazione degli stessi sino alla presentazione delle informazioni.
Quando si parla di estrazione si fa riferimento ad un processo ETL, acronimo di Extraction, Transformation and Loading, ovvero quel processo che preleva i dati dai sistemi tradizionali e li trasferisce nel DWH, certificandoli attraverso processi di Data Quality che garantiscono per l’appunto la qualità del dato.
36
A questo proposito si parla di estrazione di primo livello che conserva i dati ad un livello di dettaglio alto, poi si possono avere ulteriori livelli, magari indirizzati specificatamente all’utente consentendo un minore tempo e un dettaglio di informazione maggiore.
L’articolazione dei livelli permette l’accesso ai Data Mart, che costituiscono
semplicemente un estratto del DWH. 37 I vantaggi dei Data Mart sono numerosi:
Sono più personalizzati alle esigenze, in quanto ciascun Data Mart
contiene dati riguardanti una precisa area aziendale, mentre il DWH è molto più generico;
Migliorano le performance potendo eventualmente distribuire i Data Mart
su macchine diverse e dunque avere un hardware dedicato per ciascuno di essi;
Migliorano la sicurezza, poiché sarà più semplice gestire l'autorizzazione
ad un sottoinsieme più ristretto di dati.
Tipicamente si tende a creare un Data Mart per ciascuna area aziendale (Data Mart per Logistica, Finanza, Acquisti, ecc).
Questo processo prende nome di Data Warehousing.
Il Data Warehouse non è un prodotto da acquistare ed installare in azienda ma è un vero e proprio Sistema Informativo Direzionale che ricorre a tecnologia software ed hardware.
È un sistema che permette la ristrutturazione dei dati e delle informazioni esistenti, al fine delle successive analisi e simulazioni, sviluppatosi per la prima volta per risolvere i problemi delle aziende di grandi dimensioni con enormi mole di dati da gestire. 38
Il DWH è quindi una collezione di dati in supporto al processo decisionale del management che è:
1. orientata al soggetto; 2. integrata;
3. dipendente dal tempo;
37 M.Golfarelli, S,Rizzi , Data warehouse Teoria e pratica della progettazione, McGrawill, 2002 38
4. non volatile.
Orientata al soggetto: perché il DWH è orientato a temi specifici dell’azienda (clienti, prodotti, ecc.) piuttosto che alle applicazioni o funzioni (quali ad esempio in un contesto bancario alle applicazioni transazionali).
Nel DWH i dati vengono elaborati in modo tale che possono essere letti dagli utenti e cioè in modo tale da favorire la produzione di informazioni.
Quelli tradizionali sono organizzati intorno al dominio aziendale.
Integrata: la collezione dei dati proviene da più fonti e l’oggetto innovativo è che un DWH non ha bisogno di essere ristrutturato, cioè non comporta l’inserimento di informazioni ma bisogna che sia riorganizzato sulla base di quelle esistenti, ecco perché alla base ci deve essere un sistema informativo.
Dipendente dal tempo:i dati archiviati all’interno di un DWH hanno un orizzonte
temporale molto più esteso rispetto a quelli archiviati in un sistema tradizionale. Sono presenti per l’appunto sia dati storici che attuali e quindi si ha costantemente sempre il quadro storico del fenomeno interessato.
Non volatile: il dato viene caricato fuori linea, cioè non può essere modificato dall’utente perchè è di sola lettura.
Si evitano le possibili anomalie dovute ad aggiornamenti e tanto meno si ricorre a strumenti complessi per gestire l’integrità referenziale o per bloccare record a cui possono accedere altri utenti in fase di aggiornamento.
Il DWH dovrebbe consentire di migliorare l’efficienza riducendo i costi operativi legati ai processi di analisi e decisione, spesso estremamente complessi, e migliorando il margine di errore sulle decisioni in quanto esse vengono prese con un livello di consapevolezza maggiore.
La figura 2.2 mostra il processo che si svolge per avere un’informazione che sia utile, e che sia più che altro conoscenza per il supporto delle decisioni.
Quindi dietro questo potente sistema di memorizzazione di dati si cela un’architettura, una struttura ben consolidata che sia in grado di supportare le varie fasi mostrate nella figura, al di là della dimensione aziendale o della dimensione dei server.
o Livello di mappatura ed estrazione dei dati: si provvede a “mappare” accuratamente le informazioni operative e significative per il supporto direzionale; in seguito il sistema viene periodicamente aggiornato in quanto le esigenze sono soggette a continui cambiamenti; una volta terminata la mappatura si estraggono i dati di interesse;
o Conversione, pulitura e normalizzazione dei dati: si rendono i dati univoci tra di loro cercando di ovviare a possibili mancanze di conformità, in modo da rendere coerenti le analisi che si devono effettuare;
o Archiviazione e memorizzazione dei dati: viene creata una banca dati utile per gli utenti direzionali, i quali possono accedere ma non modificare i dati esistenti in rispetto dell’integrità referenziale che deve mantenere i dati integri, di conseguenza presupporre che possa avvenire un’adeguata correlazione;
o Aggregazione ed organizzazione dei dati: si dividono i dati in base all’oggetto di business di riferimento. In breve, l’aggregazione presuppone l’idea di sintesi del dato sino ad ‘esplodere’ nel dettaglio (in modo analitico). La riorganizzazione dei dati non è solo utile per la normalizzazione del dato e quindi per ridurne la ridondanza, ma più che altro per la realizzazione di una struttura degli stessi che sia agevole per gli utenti direzionali e che fornisca una visione unitaria dei dati;
o Analisi e interpretazione dei dati: in questo livello si effettuano le indagini sui dati che sono stati inseriti nei sistemi. Tale fase si definisce temporale perché deve essere garantita un’analisi continua del dato ed è necessario darne la giusta interpretazione in relazione all’esigenza che deve essere soddisfatta.