• Non ci sono risultati.

LE DIMENSIONI DEI BIG DATA

Nel documento "big data:organizzazione e metodi" (pagine 63-71)

CAPITOLO 2: I BIG DATA

2.1 LE DIMENSIONI DEI BIG DATA

I big data sembrano rappresentare una dinamica emersa solamente nel corso degli ultimi anni, ma in realtà non si tratta di un fenomeno del tutto nuovo, quanto piuttosto di un fenomeno che attualmente si trova sotto i riflettori per una serie di ragioni che illustreremo successivamente e che stanno facendo dei big data uno dei temi maggiormente discussi e su cui i business stanno iniziando a riporre la loro attenzione.

I big data sono sempre esistiti, ma la nascita di nuove fonti di dati e lo sviluppo di dispositivi per la loro raccolta hanno fatto sì che raggiungessero dimensioni significative, al punto tale da necessitare di nuove strumentazioni per la loro gestione, ecco uno dei motivi principali per cui in tempi più recenti il business si sta sempre più interessando a tale argomento.

Esploriamo di seguito alcune definizioni del fenomeno. “Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high- velocity capture, discovery, and/or analysis” (Gantz e Reinsel, 2011).

“In information technology, big data is a collection of data set so large and complex that it becomes difficult to process using on-hand database management tools. The challenges include capture, curation, storage, search, sharing, analysis, and visualization.(...) Data sets grow in size in part because they are increasingly being gathered by ubiquitous information-sensing mobile devices, aerial sensory technologies (remote sensing), software logs, cameras, microphones, radio-frequency identification readers, and wireless sensor networks.The world's technological per-capita capacity to store information has roughly doubled every 40 months since the 1980s; as of 2012, every day 2.5 quintillion (2.5×1018) bytes of data were created.

Big data usually includes data sets with sizes beyond the ability of commonly-used software tools to capture, curate, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. With this difficulty, a

64

new platform of "big data" tools has arisen to handle sensemaking over large quantities of data, as in the Apache Hadoop Big Data Platform”.21

Come accennato in precedenza, anche nella definizione fornita da wikipedia, si fa riferimento all'insufficienza da parte dei mezzi tradizionali di far fronte alla gestione di questa grande quantità di dati. Su Mike 2.0, open source per la gestione delle informazioni, ci si riferisce ai big data descrivendoli attraverso un elenco di caratteristiche, ovvero in termini di trasformazioni utili, complessità e difficoltà a cancellare record individuali, infatti, gli elementi che caratterizzano i big data vengono riconosciuti nel grado di complessità all'interno del data set, nell'ammontare del valore che può essere trasferito/liberato dall'utilizzo di tecniche d'analisi innovative rispetto a quelle tradizionali/non innovative ed infine nell'utilizzo di informazioni longitudinali che integrano e supportano le analisi.22

Per quanto riguarda la complessità, il primo aspetto a cui solitamente ci si riferisce per definire i big data è quello relativo alla dimensione in termini di misura quantitativa, ovvero all'ammontare volumetrico dei dati. È possibile considerare una “misura limite”, ovvero un indicatore oltre cui è opportuno iniziare a parlare di big data e questo, può variare a seconda delle capacità analitiche specifiche di ciascuna azienda (si ritorna alla definizione sulla base degli strumenti analitici richiesti per la trattazione dei dati).

L'impressionante volume di dati con cui si riesce ad avere a che fare deriva da un insieme di fonti di dati indipendenti, ciascuna con un elevato potenziale di interazione, che permette a sua volta la generazione di nuovi dati. I big data hanno dunque la grande necessità di essere organizzati in maniera efficace per poter essere sfruttati ed impiegati nei processi a supporto delle decisioni aziendali, essi dunque proprio per le loro caratteristiche fondamentali non si prestano per essere gestiti da parte di tecniche standard per la gestione dei dati in quanto molto spesso tendono a presentarsi secondo delle combinazioni incoerenti ed imprevedibili, richiedendo quindi strumentazioni non convenzionali e più sofisticate.

Risulta opportuno cercare di considerare diverse prospettive di inquadramento dei big data, non solo big nel senso figurato del termine ovvero la misura della grande quantità di dati, ma, una buona definizione di big data può essere “to describe “big” in

21 http://en.wikipedia.org/wiki/Big_data

65

terms of the number of useful permutations of sources making useful querying difficult (like the sensors in an aircraft) and complex interrelationships making purging difficult (as in the toll road example).”.23 Il termine “big” in questo caso finisce per riferirsi alla grande complessità piuttosto che al grande volume. Naturalmente, i dataset di questo tipo, che raggiungono un considerevole valore e un importante grado di complessità, tendono a crescere rapidamente in maniera spontanea e pertanto i big data diventano davvero imponenti in tempi molto veloci. Inoltre, i big data e le analitiche per i big data vengono utilizzati per descrivere “the data sets and analytical techniques in applications that are so large (from terabytes to exabytes) and complex (from sensor to social media data) that they require advanced and unique data storage, management, analysis, and visualization technologies” (Chen et al., 2012).

Per avere un'idea della dimensione del fenomeno faremo riferimento ai dati riportati da IBM24: ogni giorno vengono creati 2,5 x10^30 byte di dati, questo fa sì che il 90% dei dati esistenti al mondo siano stati creati solamente negli ultimi due anni. Questi dati provengono oltre che dai social media, dai sensori utilizzati per raccogliere informazioni sul clima, dai record relativi alle transazioni d'acquisto e dei segnali gps dei cellulari, solo per nominarne alcuni, tutti questi dati sono big data.

Usama Fayyad al workshop KDD BigMine 2012 fornisce una stima relativa ad alcuni dati prodotti nell'ambito del Web 2.0, presentando numeri impressionanti sull'utilizzo di internet, fra tutti citiamo i seguenti: ogni giorno Google registra più di un miliardo di quesiti, Twitter riporta più di 250 milioni di tweet al giorno; Facebook riceve più di 800 milioni di aggiornamenti ogni giorno e Youtube ha più di 4 miliardi di visioni al giorno. I dati prodotti oggigiorno vengono stimati nell'ordine degli zettabyte, ed è stato riscontrato un tasso di crescita attorno al 40% ogni anno.

Esistono fondamentalmente due scuole di pensiero nel descrivere il fenomeno dei big data: da un lato abbiamo la definizione sulla base delle caratteristiche di volume, velocità e varietà, le tre “v”; dall'altro si assiste ad un approccio legato alla capacità degli strumenti di analisi.

Come è stato appena accennato i big data vengono tipicamente definiti attraverso tre dimensioni, conosciute anche come le tre “v” dei big data ovvero: volume, velocità e varietà.

23https://infodrivenbusiness.wordpress.com/page/2/

66 Volume

Rappresenta la caratteristica che principalmente si ricollega al concetto di big data: il beneficio che è possibile trarre dalla capacità di processare grandi quantità di informazione rappresenta infatti l'attrazione principale nei confronti dell'analisi dei big data. Il fatto di poter accedere ad ammontare di dati sempre maggiori permette di creare modelli migliori, più accurati. Il volume presenta la sfida più immediata alle strutture IT convenzionali delle imprese, molte di esse infatti possiedono già enormi quantità di dati, ma non dispongono della capacità per processarli.

Varietà

I dati oggigiorno provengono da molteplici fonti, in particolare queste vengono ampliate dalla recente esplosione dei sensori e degli smart device, così come dalle tecnologie collaborative social che hanno contribuito ad aumentare la complessità dei dati all'interno delle aziende, questi dati non sono più soltanto i tradizionali dati relazionali , ma consistono anche e soprattutto in dati grezzi, semi-strutturati e dati non strutturati provenienti tipicamente dalle pagine web, dai file relativi ai web log, o relativi agli indici di ricerca, ai forum dei social media, alle e-mail e altri documenti, ed ancora ai dati registrati da sensori provenienti da sistemi attivi e passivi e così via. Diventa dunque fondamentale per le imprese essere in grado di processare tutte queste diverse tipologie di dati: “To capitalize on the Big Data opportunity, enterprises must be able to analyze all types of data, both relational and nonrelational: text, sensor data, audio, video, transactional, and more (DeRoss et al., 2011).

Come sottolinea Edd Dumbill (2012) l'emergenza dei big data nelle imprese porta con sé una controparte necessaria: l'agilità. Sfruttare con successo il valore dei big data richiede la sperimentazione e l'esplorazione. Che lo scopo sia quello di arrivare a creare nuovi prodotti o guadagnare un vantaggio competitivo, il lavoro dietro ai Big Data richiederà una buona dose di curiosità ed una prospettiva imprenditoriale.

“the faster you analize your data, the greater its predictive value, companies are moving from batch processing to real time to gain competitive advantage” (Dumbill, 2012).

Velocità

La velocità è un altro aspetto decisamente importante dei big data, anche in questo frangente è possibile descriverli basandosi sull'impossibilità da parte degli strumenti tradizionali di gestire l'attuale velocità con cui questi dati proliferano in quanto si tratta

67 di un flusso costante.

È quindi indispensabile, anche per questo loro aspetto, disporre di strumenti in grado di governare la rapidità, anche e soprattutto perché la maggior parte dei dati che vengono prodotti oggi dispongono di una shelf-life molto ridotta: come velocemente vengono prodotti, molto spesso altrettanto velocemente diminuisce il loro valore, pertanto le imprese devono essere in grado di analizzarli quasi in tempo reale se vogliono sperare di trovare degli insight attendibili e utili al loro interno. Avere a disposizione gli strumenti necessari a presidiare la velocità diventa fondamentale per poter sfruttare realmente il valore dei dati.

Oltre alle originarie 3 “v”, in tempi più recenti sono state aggiunte anche quelle relative alla “veridicità” e al “valore” dei Big Data.

Veridicità

IBM per prima ha introdotto il concetto di “veridicità”, da un sondaggio condotto dalla stessa è emerso che un business leader su tre non abbia fiducia nelle informazioni che vengono utilizzate per prendere decisioni. Si tratta di un aspetto particolarmente critico, infatti stabilire la fiducia nei confronti dei big data rappresenta un enorme sfida, soprattutto dal momento in cui aumentano il numero e la varietà delle fonti di riferimento.

La veridicità affronta appunto l'aspetto relativo all'intrinseca attendibilità dei dati. L'incertezza dei decisori sulla coerenza e la completezza dei dati ed altri aspetti ambigui possono rappresentare degli ostacoli non indifferenti. Pertanto, i principi fondamentali come la qualità e la pulizia dei dati, l'impiego di esperti nella gestione dei dati e la governance dei dati rimangono discipline critiche quando si lavora con i Big Data. I Big Data, come vedremo, rappresentano molto più di una semplice questione di dimensione, essi offrono la possibilità di trovare insight a partire da tipologie di dati nuove ed emergenti, a rendere il business più agibile e a rispondere a domande che in precedenza erano considerate fuori portata.

68

FIGURA 6.LE DIMENSIONI DEI BIG DATA25

Valore: un ulteriore “v” da considerare

Qual' è il valore dei big data? La loro importanza deriva dal fatto che all'interno di questi dati si trovano informazioni, modelli e schemi preziosi, che prima rimanevano nascosti a causa dell'enorme sforzo richiesto per la loro estrazione. Alcune grandi aziende, come ad esempio Walmart e Google, sono riuscite a sfruttare questi dati già da prima di molti altri, a fronte di costi esorbitanti e avvantaggiate dalla loro struttura e dal business di riferimento. Oggi la situazione si presenta notevolmente più vantaggiosa e sono state abbattute diverse barriere, offrendo così la possibilità di gestire i big data non solo alle grandi aziende: “today's commodity hardware, cloud achitectures and open source software bring big data processing into the reach of the less well-resourced. Big data processing is eminently feasible for even the small garage startups, who can cheaply rent server time in the cloud” (Dumbill, 2012).

Per l'IDC (International Data Corporation) i big data rappresentano qualcosa di essenzialmente dinamico: un'attività in grado si oltrepassare i molti confini dell'IT e, definisce il fenomeno come: “Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity caprture, discovery and/or analysis” (Villars et al., 2011).

Gartner (2012) definisce i Big Data come “high volume, velocity and variety information assets that demand cost-effective, innovative forms of information

69

processing for enhanced insight and decision making”.

Dalle definizioni viene delineato il concetto di Big Data, questi enormi volumi di dati non strutturati rappresentano una fonte informativa ed una risorsa strategica per le aziende.

Manyika et al. (2011) individuano sette aspetti fondamentali che riguardano i Big Data: 1) Big Data come fattore di produzione: grandi quantità di dati si muovono attraverso

ogni industria e funzione del business e rappresentano un importante fattore di produzione;

2) Big Data e la creazione del valore: I Big Data creano valore in molti modi:

- permettono di creare trasparenza informativa: il valore può essere creato dal fatto che i dati diventano più facilmente accessibili ed in tempi migliori;

-l'accesso ad un'enorme quantità di dati permette di analizzare in maniera più accurata la variabilità e di conseguenza di mettere in atto strategie per migliorare le performance;

- permettono di segmentare la popolazione e personalizzare le azioni, questo rappresenta uno degli aspetti più interessanti, soprattutto dal punto di vista del marketing, i Big Data infatti, permettono alle imprese di realizzare livelli di segmentazione altamente specifici ed offrire quindi prodotti e servizi mirati;

- in alcuni casi a partire dai Big Data è possibile creare degli algoritmi che possono automatizzare alcune decisioni umane, in altri casi invece funzionano da supporto; - i Big Data possono essere sfruttati per la creazione di nuovi prodotti, servizi o modelli di business.

3) Big Data come fonte di vantaggio competitivo: l'utilizzo dei Big Data rappresenta un fattore chiave per la competizione e la crescita delle imprese;

4) l' utilizzo dei Big Data sostiene nuove ondate di crescita produttiva e di surplus del consumatore, in quanto le aziende sfruttando i dati possono riuscire a progettare prodotti che si combinano al meglio con i bisogni del consumatore;

5) Come affermato in precedenza, i Big Data interessano tutti i settori, tuttavia alcuni settori si prestano a trarre maggiori benefici rispetto ad altri;

70 imprese per trarre vantaggio dai Big Data;

7) esistono alcune questioni che devono essere affrontate per poter catturare l'intero potenziale dei Big Data, che riguardano la privacy, la sicurezza, la proprietà intellettuale e la responsabilità dei dati.

Tracciato il profilo di quello che viene interpretato dal concetto di big data, si cercherà di approfondire alcuni aspetti che riguardano la loro provenienza, il formato in cui si presentano (dati strutturati, semi-strutturati e non strutturati), quali strumenti e tecnologie sono indispensabili, quali sono le loro principali applicazioni.

I dati e le informazioni costituiscono una base fondamentale per le decisioni e la risoluzione di problemi, una gestione efficace ed efficiente dei big data può garantire alle imprese la possibilità di compiere scelte in conformità ad analisi più accurate ed affidabili, soprattutto a fronte della forte dinamicità dell'ambiente in cui le imprese si trovano ad operare. Come rilevano Griffin e Danson (2012): “it's an old statistical axiom that the larger the data sample, the more precise the measurements can be”, infatti un più ampio data set permette agli analisti con le giuste abilità di sviluppare modelli predittivi e prescrittivi per effettuare decisioni migliori e maggiormente consistenti.

71

Nel documento "big data:organizzazione e metodi" (pagine 63-71)