• Non ci sono risultati.

5. I dati aziendali

5.1 Le fonti

Per quanto riguarda la provenienza dei dati possiamo operare una prima generale distinzione tra fonti interne e fonti esterne all’azienda69.

Fonti interne

Individuiamo più tipologie di fonti interne che sono in parte sovrapponibili: le fonti operazionali, i data warehouse o i data mart.

Fonti operazionali

Un primo gruppo è formato dalle fonti operazionali, cioè quelle che fanno riferimento all’attività operativa giornaliera dell’azienda e che, per questo motivo, variano a seconda della tipologia di business e settore economico. Per un’azienda industriale, alcuni esempi di fonti operazionali possono essere i seguenti70:

 Applicativi di gestione della produzione. Essi registrano le quantità di materie prime utilizzate, i servizi e i beni accessori consumati (elettricità, acqua, combustibili), le quantità prodotte, ecc.

 Applicativi di gestione degli acquisti. I sistemi a supporto di quest’area si occupano di registrare ogni ordine di acquisto e i movimenti di magazzino.

 Applicativi di gestione degli ordini e delle consegne. Sono sistemi per la regi- strazione di ordini ricevuti dai clienti, attività di consegna e movimentazione del magazzino prodotti.

 Applicativi di contabilità. A fronte di acquisti e di vendite occorre registrare i movimenti contabili che scaturiscono dall’emissione di fatture di vendita o dal ricevimento di fatture d’acquisto, oltre a ogni altra movimentazione di cassa o banca.

 Applicativi di gestione del personale. Anche le risorse umane prevedono una contabilità che riguarda soprattutto la gestione degli stipendi, alla quale però si possono aggiungere attività quali la gestione di obiettivi, premi, malattie, infortuni, ecc.

Applicativi di gestione del cliente. I cosiddetti applicativi di CRM (Customer

69 ROCCASALVA G., I Big Data e gli strumenti di visualizzazione analitica: interazioni e studi induttivi

per le P.A., Apogeo, Milano, 2018, pp. 65 ss.

34

Relationship Management) consentono la gestione completa del cliente, dalla

registrazione dei dati anagrafici, fino alla gestione delle campagne di marketing.

Per un’azienda bancaria, le fonti operazionali sono in parte simili a quelle dell’esempio precedente (contabilità, gestione del personale, CRM), ma a esse si aggiungono applicativi tipici dell’attività bancaria: la gestione dello sportello, il back office, le applicazioni di gestione e valutazione degli strumenti finanziari, gli applicativi per la valutazione del rischio e l’erogazione di finanziamenti, ecc.

Le aziende commerciali, come quelle della grande distribuzione, presentano oltre ai sistemi di contabilità, gestione acquisti, magazzino e gestione del personale anche i sistemi di rilevazione delle vendite alle casse ed emissione degli scontrini fiscali oppure gli applicativi per la gestione delle promozioni e delle tessere clienti.

I dati operazionali per alcune aziende possono assumere volumi rilevanti. Basti pensare all’ambito bancario, o all’ambito industriale ove vi possono essere

sistemi, legati alla produzione, che generano enormi quantità dati.

Si tratta, di solito, di DCS (Distributed Control Systems)71, cioè di sistemi computerizzati utilizzati per il controllo di impianti industriali. Gli elementi controllanti non sono centralizzati, ma sono distribuiti sull’impianto. I componenti del sistema, connessi tramite una rete che consente il controllo, la comunicazione e il mo- nitoraggio, generano dati relativi allo stato degli impianti mediante sensori legati al componente stesso. Le rilevazioni dei dati possono avvenire ad intervalli temporali molto piccoli e ciò, assieme alla presenza anche di migliaia di sensori, porta a produrre una mole elevata di valori.

Data warehouse e data mart

L’analisi effettuata direttamente sui sistemi operazionali è sconsigliabile per diverse motivazioni. Nella migliore delle ipotesi, ciascuno degli applicativi appena descritti è semplicemente un modulo di un software ERP (Enterprise Resource Planning), acquistato “chiavi in mano” da un produttore come SAP, Microsoft oppure Oracle. Purtroppo, nella maggioranza dei casi, accade che non vi sia un’unica applicazione che

71 DE MAURO A., Big Data Analytics. Analizzare e interpretare dati con il machine learning, op. cit., p.

35 gestisce le attività del livello operativo. Ci si trova spesso di fronte ad una pletora di software, ognuno dei quali è basato su tecnologie differenti (database relazionali, basi dati non relazionali) e su prodotti di vendor diversi. In presenza di numerose applicazioni, l’uniformità e la coerenza dei dati non sono per nulla garantite, poiché ci si trova in una situazione in cui dati fondamentali, quali le anagrafiche (clienti, fornitori, prodotti, piano dei conti, ...), sono replicati e manipolati in ciascuno dei software, presentando differenze di formati, di completezza o di aggiornamento dei dati72.

Un altro aspetto da tenere in considerazione riguarda il disegno delle basi dati sottostanti agli applicativi operazionali. Esse sono di tipo OLTP (On Line Transaction

Processing) e il loro modello dati è fortemente normalizzato per favorire non tanto le

letture e l’analisi di grandi quantità di record, quanto le attività transazionali (inserimenti, cancellazioni, modifiche dei dati). La normalizzazione, se da un lato favorisce l’attività transazionale, dall’altro incrementa notevolmente il numero di tabelle utilizzate per contenere i dati. Per ricostruire un formato tabellare denormalizzato, più adatto ad essere letto da un utente finale, occorreranno diverse operazioni di JOIN73, che complicano l’attività di estrazione dei dati. Inoltre, occorre considerare che solitamente i sistemi operazionali offrono una limitata profondità storica dei dati e, a volte, essa manca del tutto. Molto spesso, anche in presenza di dati storici, ricostruire la situazione dei dati nel passato è un’attività complessa.

L’insieme dei fattori descritti rende piuttosto difficoltosa l’analisi dei dati effettuata direttamente sulle fonti operazionali. La strada più corretta consiste nella creazione di un data warehouse o di una serie di data mart, cioè di database che contengono dati integrati, coerenti e certificati afferenti a tutti i processi di business dell’azienda (o per lo meno alla maggior parte di essi) e che costituisce il punto di partenza per le attività analitiche del sistema di Business Intelligence (BI). La Business Intelligence è un sistema di modelli, metodi, processi, persone e strumenti che rendono possibile la raccolta regolare ed organizzata del patrimonio di dati generato da un’azienda. Inoltre, attraverso elaborazioni, analisi o aggregazioni, ne permette la trasformazione in informazioni, la loro conservazione, reperibilità e presentazione in una forma

72 Ibidem, p. 90.

36 semplice, flessibile ed efficace, tale da costituire un supporto alle decisioni74 strategiche, tattiche ed operative.

In alcuni casi accade che il data warehouse sia quasi esattamente sovrapponibile alle fonti dati operazionali (come contenuti, ma non come disegno!). In esso quindi confluiscono tutte (o quasi) le sorgenti dei dati aziendali, senza che i dati subiscano filtri o aggregazioni. In altri casi, però ci si scontra con vincoli tecnologici o di costo che impongono versioni ridotte del data warehouse. La riduzione può avvenire sia in termini di profondità storica conservata all’interno della base dati analitica, sia in termini di allargamento della granularità dei dati (per esempio, dati settimanali e non giornalieri).

Basi dati ad hoc

Definiamo basi dati ad hoc, quelle create per specifiche esigenze analitiche e che contengono particolari rielaborazioni di dati operazionali o di dati presenti nel data

warehouse. Non è raro trovare in azienda database di “proprietà” del singolo analista,

che contengono al loro interno dati molto preziosi, soprattutto se fossero condivisi con altri analisti o funzioni aziendali.

Fonti esterne

Non è raro che, per particolari analisi, si renda necessario l’utilizzo di dati provenienti dall’esterno, in aggiunta ai dati generati internamente all’azienda. In taluni casi potrebbe trattarsi semplicemente di integrazioni alle anagrafiche (per esempio l’anagrafica ISTAT dei comuni italiani), mentre in altri casi i dati esterni sono il vero e proprio oggetto delle analisi. Come esempio citiamo l’analisi del sentiment, volta a verificare quale sia l’opinione delle persone che scrivono sui social rispetto ad una certa tematica, un certo prodotto o una certa azienda. Per realizzare questo tipo di attività occorrono dati provenienti dai social network (Facebook, Twitter,...), dai blog o da forum e dunque esterni all’azienda.

Il reperimento e l’utilizzo di dati esterni pongono alcuni problemi. Uno di essi, forse il principale, consiste nella loro qualità, che potrebbe presentare difetti di accuratezza,

37 completezza e coerenza75. Occorre precisare che la problematica relativa alla qualità riguarda anche i dati interni; tuttavia, sui dati esterni l’azienda non ha alcuna possibilità di manovra e spesso è difficile anche la semplice verifica del livello qualitativo.