L’ERA DEI BIG DATA - – L’EVOLUZIONE DEI BUSINESS

NELLE FUNZIONI AZIENDAL

CAPITOLO 5 – L’EVOLUZIONE DEI BUSINESS

5.2 L’ERA DEI BIG DATA

Come detto nel precedente paragrafo, le grandi aziende hanno capito le opportunità fornite dai big data e stanno iniziando a sfruttarli per ottenere migliori risultati. È necessario, per prima cosa, capire cosa siano e quali caratteristiche abbiano i big data. I

big data sono definiti come “dati che, per quantità e varietà, non possono essere gestiti con gli strumenti di database tradizionali, ma richiedono l’impiego di tecnologie adeguate per la memorizzazione e l’analisi dei dati”131.

5.2.1 Il modello delle quattro V

Come fanno notare diversi autori132 i big data sono contraddistinti da quattro qualità (o “quattro V”): Volume, Velocità, Varietà e Veridicità. Andiamo ad analizzarle con dettaglio.

Volume

La dimensione dei database che contiene i dati passa da terabyte a petabyte, exabyte e anche zettabyte; si stima che entro il 2020 verranno creati 40 zettabyte di dati (ovvero 35 mila miliardi di gigabyte)133, con una crescita di 300 volte rispetto ai quindici precedenti anni.

Il numero di persone che possiede un cellulare attualmente sono 6 miliardi (pari all’86% della popolazione mondiale) inoltre, si stima che ogni giorno vengano creati 2,5 quintilioni di bytes di dati (2,3 trilioni di GB).

Questi numeri danno un’idea della vastità del volume dei big data e ciò deve mettere in guardia chi seriamente vuole sfruttarli della sfida a cui va in contro.

Velocità

L’estrazione di informazioni dai dati deve avvenire il più velocemente possibile, in modo da utilizzare dati ancora validi ed evitare di basare le decisioni su dati ormai “vecchi”. Di seguito alcuni numeri che segnalano questa necessità:

- Dal 2016 sono state registrate 18,9 miliardi di connessioni ad internet, una media di 2,5 a testa;

131_{Da: http://www.glossariomarketing.it/significato/big-data/} 132_{Silvi e Visani (2016) e Appelbaum et al. (2017)}

- Le attuali auto hanno quasi 100 sensori che monitorano, tra le altre, pressione degli pneumatici, distanza dalle auto vicine, mantenimento della carreggiata, ecc. - La borsa di New York (NYSE) registra, di media, 1 TB di dati in ogni sessione. Questi numeri dimostrano come la numerosità delle fonti e frequenza delle rilevazioni porti i dati a modificarsi con estrema velocità, motivo per cui una decisione tempestiva è da preferirsi ad una approfondita.

Varietà

Le medesime informazioni possono assumere significato diverso a seconda del contesto nel quale vengono reperite e della fonte dalla quale provengono. Occorre contestualizzare il dato, in modo da capire se è indispensabile filtrarlo o meno. Infatti, i big data provengono da una moltitudine di fonti diverse, sia interne che esterne all’azienda. A partire dal 2011, la dimensione globale dei dati sanitari è stimato in 150 exabyte (161 miliardi di GB). Anche i social media sono una fonte sconfinata di dati: 30 miliardi di contenuti vengono condivisi su Facebook mensilmente, 400 milioni di tweet sono inviati da 200 milioni di utenti attivi mensilmente su Twitter e più di 4 miliardi di ore di video vengono guardate in un mese su You Tube.

Una nuova tendenza sono i wearable, ossia i dispositivi indossabili connessi ad internet (come Apple Watch); dal 2014 ne sono stati venduti più di 420 milioni.

Veridicità

I dati sono spesso incerti, non strutturati e di scarsa accuratezza date le diverse fonti di provenienza e la velocità di acquisizione. Risulta molto probabile che non si riesca a garantire un’elevata qualità di dati da inserire nel processo di estrazione delle informazioni.

Sarà necessario quindi tener di conto di questo connotato nel momento in cui si basano decisioni strategiche sulle informazioni da essi generate.

Proprio a riguardo della veridicità ed affidabilità delle informazioni, in un sondaggio effettuato da IMB134 risulta che il 33% dei dirigenti aziendali non da piena fiducia alle informazioni che utilizzano per il processo decisorio; inoltre, il 27% di rispondenti ad una intervista si dichiaravano incerti circa l’accuratezza dei dati che possedevano.

Il grosso problema che si viene a formare è relativo alla conseguenza dell’utilizzo di dati inaccurati nelle scelte; una scelta errata porta a sostenere dei costi che non saranno coperti dal ritorno dell’investimento effettuato. A tal proposito, si stima che i costi che le aziende statunitensi sostengono a causa della scarsa affidabilità dei dati si attesa intorno ai 3,1 trilioni (migliaia di miliardi) di dollari all’anno.

5.2.2 Dati strutturati e non strutturati

Altra peculiarità che contraddistingue i big data è l’essere un insieme di dati non strutturati. Vediamo che cosa significa esattamente “strutturati” e, di contro, quale è la caratteristica dei big data.

Figura 5 - Caratteristiche dei dati da: Silvi e Visani (2016)

Dati strutturati

I dati strutturati, come dice la parola stessa, sono dotati e organizzati in strutture specifiche e conservati in database, organizzati secondo schemi e tabelle.

È la tipologia di dati principalmente utilizzata per i modelli di database relazionale, data la facilità di trattamento (in termini di software e abilità tecniche) e il costo relativamente basso della raccolta ed utilizzo. Sono costituiti esclusivamente da file di testo; da ciò discende la facilità di organizzazione in modelli predefiniti.

Dati non strutturati

Sono dati che possiedono una propria struttura, ma non risultano organizzati seguendo schemi tipici preimpostati (database o tabelle). Un tipico esempio sono i file multimediali (video, audio, ecc.) i quali, non essendo schematizzati risultano di difficile utilizzo per l’estrazione delle informazioni.

Sono costituiti oltre che da testo, da immagini, video, suoni e altri formati, che ne rendono difficile la modellizzazione.

Dati semi strutturati

Sono dati che non sono conformi a schemi come database o tabelle, ma possiedono caratteristiche che permettono di dividere le strutture semantiche, i record e campi all’interno del pool di dati.

Un tipico esempio sono i file con sintassi XML135 che, nonostante non possiedano una struttura predefinita, vengono, comunque, organizzati secondo logiche strutturate e interoperabili.

5.2.3 Criticità dei Big Data

Come ogni novità prorompente, che prefigura strabilianti innovazioni e miglioramenti, è necessario anche valutare il risvolto della medaglia, ossia le problematicità che i big data si portano dietro.

Lambrecht e Tucker (2016) fanno notare quali sono i quattro tipici errori che chi si trova ad approcciarsi con i big data deve star attento a non compiere.

Errore 1: Non comprendere i problemi dell'integrazione

Una delle caratteristiche chiave dei big data, come detto in precedenza, è la provenienza da fonti diverse. Questi dati non sono naturalmente facili da integrare, infatti la varietà delle fonti può renderli difficilmente sfruttabili dalle aziende per le finalità decise a tavolino.

Inoltre, molti di questi dati disponibili per l'azienda sono spesso non strutturati, il ciò significa che è molto difficile archiviarli trasformandoli in dati strutturati, come nel caso

135_{“L’eXtensible Markup Language (XML) è un meta-linguaggio di markup, cioè un linguaggio che}

permette di definire altri linguaggi di markup. […] Non ha tag predefiniti e non serve per definire pagine Web né per programmare. Esso serve esclusivamente per definire altri linguaggi.”

di dati binari. Ciò rende spesso molto difficile l’integrazione dei dati generati da fonti differenti.

Errore 2: Non rendendosi conto dei limiti di dati non strutturati

La seconda sfida per rendere utili i big data è relativa alla gestione della natura non strutturata dei dati stessi. Le attuali tecniche di data mining sono state sviluppate per la gestione ed estrazione di informazione a partire da insiemi di dati strutturati. L’attuale contesto prevede la gestione di dati prettamente non strutturati che non sono ancora facilmente analizzabili.

Estrarre conoscenza dai dati non strutturati è una sfida a cui le aziende stanno attivamente partecipando; quando verranno acquisite le conoscenze necessarie, allora i big data saranno pienamente sfruttati.

Errore 3: Difficoltà nell’identificare relazioni

La terza sfida è legata alla difficoltà di identificare relazioni causali all'interno di grandi pool di dati raccolti. Insiemi di dati molto grandi contengono generalmente un insieme di valori molto simili (o identici) tra loro, che possono portare a correlazioni falsate e, di conseguenza, di indurre in errore i responsabili del processo decisionale.

L'abilità nella valorizzazione dei big data sta nel passare da mere correlazioni facilmente osservazionali, all’identificare correttamente quali correlazioni sono indicatrici di un modello causale sul quale basarsi per la determinazione delle linee di azione.

Errore 4: Sottovalutazione delle competenze necessarie

I big data non hanno valore intrinseco ma è la loro combinazione, tramite l'abilità manageriale, ingegneristica e analitica che gli fornisce un valore per le aziende.

Da ciò si capisce come le abilità del trattamento dei dati siano un driver di valore indispensabile per il massimo sfruttamento dell’opportunità offerta.

L’ottenimento dei dati è economico rispetto al costo della loro gestione e delle conoscenze per l’elaborazione. Da ciò si capisce come le competenze per l’elaborazione sono più importanti dei dati stessi nella creazione di valore per un'impresa.

Non sempre è semplice valorizzare quel patrimonio, perché gli strumenti di analisi sono spesso troppo complessi per l'utente medio ma anche perché i database spesso non contengono tutti i dati necessari dall'utente esperto136_.

Uno dei massimi esperti in materia, Thomas H. Davenport137, fa notare che se un’azienda si è approcciata in modo scorretto all’utilizzo dei big data, si trova di fronte ad un mucchio sconfinato di dati senza reali obiettivi, con conseguente perdita di molto tempo e denaro. Quindi è imprescindibile avere uno scopo ben delineato per ciò che si vuole realizzare con essi.

Un altro rischio che deve essere valutato è quello che comporta la violazione di dati sensibili dei clienti. A tal proposito è necessario che le aziende si cautelino utilizzando tecniche e politiche di raccolta e trattamento dei dati che limitino tale rischio, rispettando le normative vigenti.

Nel documento I sistemi di Business Analytics per il management accounting: analisi del contesto attuale di utilizzo e future evoluzioni (pagine 92-97)