I Big Data - Un cambiamento “orizzontale” per le aziende

Capitolo 2. Dalla Business Intelligence all’Advanced Business Analytics

2.2 Un cambiamento “orizzontale” per le aziende

2.2.1 I Big Data

Nonostante vi sia un entusiasmo diffuso, non esiste una definizione univoca di “Big Data”.

Riuscire a dare una definizione che unisca tutte le caratteristiche del fenomeno dei Big Data non è compito semplice. Esso è un fenomeno molto ampio del quale si è iniziato a parlare solo negli ultimi anni, quando nuove tecnologie e nuovi dispositivi hanno moltiplicato a dismisura i dati creati e trasmessi a livello mondiale.

Una visione interessante di cosa sono i Big Data è stata esposta da Alexander Jaimes, ricercatore presso Yahoo Research: i dati siamo noi.

Tutti parliamo di big data:

“Big Data grows up “Forbes

“Big data powers revolution in decision making” – Wall street journal “How big data got so big” – New York Times

“Big data is hot, now what?” – Forbes

“Business ‘freak out’ over big data” - Information week

Di seguito una roadmap del concetto di Big Data.

Nel 2011 il McKinsey Global Institute definisce i Big Data quali “dataset la cui dimensione superi la capacità degli strumenti software, relativi ai database tradizionali, di acquisire, archiviare, gestire e analizzare” dati22_{. Viene, quindi, messa in evidenza la dimensione quantitativa dei dati:}

viene previsto che con l’evoluzione tecnologica, i dataset considerati “Big Data” risulteranno di dimensioni sempre più considerevoli, con differenze significative legate al settore industriale considerato.

Nel 2013 il National Institute of Standards and Technology (NIST) con il termine “Big Data” intende un insieme di “tecnologie avanzate che sfruttano risorse indipendenti per costituire sistemi scalabili di dati, quando le caratteristiche dei dataset richiedono nuove architetture per archiviare, manipolare e analizzare dati in modo efficiente”23_{. L’enfasi viene posta, pertanto, sulle tecnologie}

di gestione dei dati e sulla loro capacità computazionale.

Nel 2013 Gartner definisce i Big Data come un “asset di informazioni caratterizzati da grandi volumi, velocità e varietà, che richiedono forme innovative ed economicamente vantaggiose di processamento per [ottenere] insight potenziati e utili a migliorare il processo decisionale”.

Gartner definì i Big Data utilizzando le tre caratteristiche fondamentali. Oggi, queste caratteristiche non sono più sufficienti a definire il fenomeno.

Oltre alla varietà, velocità e al volume andremo ad declinare anche i concetti di veridicità, variabilità.

22_{“Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture,}

store, manage, and analyze.” McKinsey Global Institute (2011).

23_{“Big data consists of advanced techniques that harness independent resources for building scalable data}

systems when the characteristics of the datasets require new architectures for efficient storage, manipulation, and analysis.” NIST Big Data Working Group (2013).

Volume: Il 90% di tutti i dati creati è stato creato negli ultimi 2 anni. D'ora in poi, la quantità di

dati nel mondo raddoppierà ogni due anni. Entro il 2020, avremo 40 Zettabytes, un aumento di 300 volte i dati presenti nel 200524_.

Il volume di dati è enorme e rappresenta un grande contributo all’ universo digitale in continua espansione.25 _{In passato, la creazione di una mole così elevata di dati avrebbe causato seri}

problemi. Oggigiorno, con la diminuzione dei costi di stoccaggio, soluzioni di storage migliori come Hadoop e gli algoritmi, creare significato da tutti i dati non rappresenta più un problema focale.

Il Cloud Computing offre risorse per la memorizzazione, il processamento e la condivisione di vaste moli di dati su macchine virtuali poste in remoto accessibili mediante il web e dà la possibilità di disporre di tecnologia sempre meno costosa e più performante.

Gartner, prevede che sino al 2017, il 50% delle aziende utilizzerà un sistema cloud26_.

Il Cloud-based Business Intelligence (BI) è destinato a crescere da $ .75B nel 2013 a $ 2.94B nel 2018, raggiungendo un CAGR del 31 %.

Redwood Capital segmenta il marcato della Business Intelligence in tradizionale, mobile, cloud and social business intelligence.

I seguenti grafici dimostrano come Redwood Capital prevede i progressi del mercato della BI sino al 2018.

24_{IBM, 2015. IBM nel 2011 aveva stimato 35 ZettaByte.}

25_{Uno studio condotto da EMC2, in collaborazione con IDC, ipotizza che nel 2020 potranno essere raccolti}

44 ZB di dati, risultato di un tasso di crescita superiore rispetto al previsto.

Figura 17: Andamento del mercato globale della Business Intelligence suddiviso per tecnologie (Gartner, Redwood Capital)

Figura 18: Andamento percentuale del mercato globale della Business Intelligence suddiviso per tecnologie

(Gartner, Redwood Capital)

Velocità: Si tratta della velocità con cui i dati sono ricevuti e analizzati. Le organizzazioni oggi

non dispongono più di soli dati statici, ma si trovano a dover gestire “flussi di dati” (ossia dati in continuo movimento), la cui validità spesso permane per periodi di tempo molto brevi. Si passa sempre più, da analisi periodica, ad un’analisi real-time. Questo aspetto si lega molto al processo per il quale il dato è analizzato e ad un fattore culturale degli utilizzatori che vedono la velocità di trasmissione del dato come un valore aggiunto per il proprio lavoro. La velocità con cui vengono analizzati i dati necessita di reazioni rapide da parte delle imprese: queste considerazioni rafforzano l’esigenza delle aziende di elaborare i dati con velocità crescenti, spesso in tempo reale.

Varietà: è qualcosa di nuovo. L’era dei Big Data è caratterizzata dalla necessità e desiderio di

esplorare anche i dati non strutturati, oltre ed insieme, alle informazioni tradizionali.

I dati tradizionalmente usati sono di tipo relazionale, ovvero rappresentati e schematizzati in tabelle. La presenza di uno schema e quindi di una struttura, rende i dati facilmente analizzabili e

manipolabili. L’insieme di più tabelle, inoltre, costituisce un database relazionale, implementato su un sistema di gestione di basi di dati.

Se pensiamo ad un post di Facebook, ad esempio, o ad un tweet o a un blog, essi possono essere in un formato strutturato (JSON) ma il vero valore si trova nella parte di dati non strutturati.

Sulla base della classificazione proposta dall’Osservatorio Big Data Analytics & Business

Intelligence del Politecnico di Milano, è possibile distinguere due tipologie di dati che l’azienda è in grado di raccogliere e gestire:

o Dati Strutturati: si tratta di dati schematizzati, che possono essere gestiti e manipolati molto agevolmente, perché memorizzabili nei database relazionali tradizionali. Es. Fogli Excel, informazioni provenienti dai sistemi transazionali, ecc.

o Dati Destrutturati: la loro caratteristica principale è l’assenza di schema totale (dati non strutturati) o parziale (dati semi-strutturati), che ne rende difficili, se non impossibili, sia la memorizzazione in database relazionali, che la gestione nel suo complesso. Es. Immagini, file audio, video, documenti di testo, XML, ecc.

Ma dove si trovano i Big Data?

Dal 2005 al 2011 gli RFID sono cresciuti da 1.3 a trenta miliardi; un motore aeromobile genera circa 10 TB di dati ogni trenta minuti di volo; gli “Smart meeting” impongono misurazioni complesse di dati e i sensori per un amplissimo orizzonte temporale; anche la meteorologia genera una moltitudine di dati, basti pensare ai milioni di sensori, telecamere, rilevatori che sono presenti nel mondo; ovviamente i social networks, solo nel 2009, FB aveva già generato 35 TB di log ogni giorno.

Le piattaforme relazionali non sono in grado di gestire questi dati ed emerge, pertanto, la necessità di nuove tecnologie, al fine di sfruttare le potenzialità offerte. Infatti, da uno studio condotto nel 2014 dall’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano è stato riscontrato che i dati utilizzati nei sistemi di Big Data Analytics e di Business Intelligence sono per l’83% strutturati e per il restante 17% privi di schema. E’ importante sottolineare anche l’origine dei dati: i dati utilizzati sono prevalentemente interni all’organizzazione (generati perciò dai processi aziendali); risultano in minoranza i dati provenienti da fonti o processi esterni (es. dal web o social media).

Figura 19: Percentuali di utilizzo aziendale delle tipologie di dato (Osservatorio Big data & Business Intelligence del Politecnico di Milano)

Veridicità: La caratteristica della veridicità dei Big Data è stata declinata per la prima volta da Paul C. Zikopoulos27_{. Il termine veridicità si riferisce alla correttezza e all’affidabilità dei dati:}

fattori questi altamente auspicabili ma difficili da garantire, in particolare con dati provenienti da più fonti. Si pensi ad esempio alla situazione sentimentale di un social network, come informazione a scopo di marketing potrebbe essere molto utile, allo stesso tempo però potrebbe non rispecchiare la realtà. Questa caratteristica sottolinea l’attenzione che va posta nell’ analizzare i Big Data.

Variabilità: I dati possono essere estremamente variabili. Un esempio è dato dal mondo social: le opinioni riguardo ad un prodotto o un evento possono variare sensibilmente con una frequenza molto alta.

Inoltre, il significato o l'interpretazione di uno stesso dato può variare a seconda del contesto in cui il dato stesso viene raccolto ed analizzato. Pensiamo, ad esempio, ad una semplice asserzione quale può essere "leggete il libro". Nel caso venga espressa su un blog di appassionati di letteratura la frase può significare che il libro in oggetto abbia riscosso il mio gradimento. Nel caso in cui la stessa identica frase venga espressa invece su un blog di cinefili, il suo significato può cambiare completamente ed indicare, ad esempio, che il film tratto dal libro a cui mi riferisco non

27_“_{Director of Technical Professionals for IBM Software Group’s Information Management division and}

è stato di mio gradimento. Il valore del dato, quindi, non risiede solamente nel dato in sé, ma è strettamente collegato al contesto in cui si ricava il dato.

Molti analisti aggiungono a queste “5 V” una sesta: il valore.

Ai fini di questo lavoro, credo che il valore sia intrinseco in tutti i dati. Il Valore dei Big Data è la conseguenza della corretta gestione delle caratteristiche sopra analizzate: il valore è infatti la capacità di comprendere e gestire adeguatamente tutti questi aspetti dei Big Data che consente di estrarne il loro valore.

Nel documento Advanced analytics in azienda : un modello di maturità per rilevare le esigenze, guidarne l’introduzione e la gestione a regime (pagine 52-58)