L'impiego dei Big Data nella ricerca di marketing: il caso Share'ngo

(1)

Dipartimento di Economia e Management

Corso di laurea magistrale in

Marketing e Ricerche di Mercato

Tesi di Laurea

L’impiego dei Big Data nella

ricerca di Marketing:

il caso Share’ngo

Relatore: Candidato:

Prof. Alessandro Gandolfo Federico Burgalassi

(2)

(3)

3

“There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days.”

(4)

(5)

5

INDICE

______________________________________________________________________

INTRODUZIONE 5

CAPITOLO 1. BIG DATA 9

1.1 IL FENOMENO BIG DATA

9 1.2 EVOLUZIONE E CRESCITA

12 1.2.1 THE “INTERNET IN REAL-TIME”

16

1.3 DEFINIZIONI DI BIG DATA

19

1.3.1 DAI DATA AI BIG DATA

19

1.3.2 LE "4V" DEI BIG DATA

21

1.3.3 ILDATA SCIENTIST 24

CAPITOLO 2. IMPORTANZA DEI BIG DATA 27

2.1 POTENZIALITÀ E APPLICAZIONI

27

2.1.1 ANALISI DEI DATI: DESCRITTIVA, PREDITTIVA, PRESCRITTIVA 27

2.2 BENEFICI PER L’AZIENDA 34

2.2.1 I VANTAGGI DEI BIG DATA NELLA PRESA DELLE DECISIONI 34

2.3 CRESCITA PROFESSIONALE 35

2.3.1 BIG DATA E BUSINESS EDUCATION CURRICULUM 35

2.4 CRITICITÀ E RISCHI DERIVANTI DAI BIG DATA 38

2.4.1 LA QUALITÀ 39

2.4.2 LA PRIVACY 41

2.5 SISTEMI PER LA MEMORIZZAZIONE E LA GESTIONE DEI BIG DATA 42

(6)

6

2.5.2 NOSQL 43

2.5.3 DATI GIS 44

CAPITOLO 3. IMPORTANZA PER LE RICERCHE DI MARKETING 47

3.1 RICERCHE DI MARKETING 3.0 49

CAPITOLO 4. ANALISI DI UN CASO REALE: SHARE’NGO 55

4.1 SHARING ECONOMY 56

4.2 INFORMAZIONI SULL’AZIENDA 59

4.3 CONTATTO CON LA DIREZIONE 64

4.4 DOMANDE DI RICERCA 65

4.5 TIPO DI RICERCA E METODO DI RICERCA 66

4.6 PRESENTAZIONE DEL DATASET 66

4.7 RISULTATI DELLA RICERCA 72

4.7.1 RISULTATI DELL’ANALISI DESCRITTIVA 72

4.7.2 RISULTATI DELLA CLUSTER ANALYSIS 104

CONCLUSIONE 118

APPENDICE 1 126

(7)

7

INTRODUZIONE

______________________________________________________________________

Recentemente, anche in Italia, sia in ambiti accademici che aziendali, si discute su cosa sia il Data Science, un nuovo campo di ricerca meglio noto con il termine

Big Data.

Si tratta di un termine relativamente recente: secondo la banca dati "Business

Source Complete (EBSCO)" è comparso per la prima volta in una pubblicazione

del 1994, ma è solo dal 2011 che inizia ad acquisire il significato odierno1.

La crescente importanza e i crescenti benefici, ormai resi noti a molti, “costringono” le aziende a tenerne conto, analizzarli, per avviare opportune strategie di marketing basate sui distinti risultati.

La ragione per cui ho scelto di approfondire le mie conoscenze sui Big Data è per rispondere a delle domande di ricerca poste da una società di car sharing denominata “Share’ngo”.

Le research question che il mio lavoro si propone di investigare sono:

1. Conoscere la clientela: si vuole sapere chi sono le persone che s’iscrivono al servizio di car sharing della società, conoscere la composizione della clientela;

2. Individuare, basandosi su informazioni relative al comportamento degli utenti a livello aggregato, se sono presenti gruppi di clientela omogenei per creare dei profili associati a ciascuna delle diverse tipologie di clienti.

1

Interrogazione alla Banca Dati EBSCO effettuata in data 30 giugno 2016. “Alki seek find files in big data piles” Simon, Barry. PC magazine. 3/29/1994, Vol.13 issue 6, p24. 1/2p. 1 Color Photograph. “Big data: the next frontier for innovation, competition, and productivity” Manyika, James. Jun2011, preceding p1-143. 147p.32 Charts.

(8)

8

3. Una volta compreso il comportamento dei clienti, si cerchi di individuare dei “forecast” ovvero, se possibile, essere in grado di prevedere il consumatore dove sarà in un secondo periodo.

Il mio compito sarà quello di osservare ed analizzare i dati con cui entrerò in possesso, forniti direttamente dall’azienda, relativi al comportamento di utilizzo dei loro clienti.

L’elaborato di tesi si suddividerà in due macro aree, la prima introduttiva e teorica, riguardo il concetto di Big Data, e la seconda dedicata, appunto, alla fase di analisi dei dati.

Nel primo capitolo si illustrerà che cosa sono i Big Data soffermandosi su diversi aspetti provenienti da differenti fonti, con l’obiettivo di offrire una definizione chiara e ampia.

Il secondo capitolo denominato “Importanza dei Big Data” vuole mostrare le loro potenzialità strategiche osservando le possibili applicazioni in capo aziendale. Con il capitolo terzo “Importanza per le ricerche di marketing” si introducono le cosiddette “ricerche di marketing 3.0” in quanto unione tra la tradizionale indagine di mercato e l’analisi approfondita tramite i Big Data.

Infine, nel capitolo quarto si presenta l’analisi di un caso reale basato sui i dati forniti dalla società di car sharing Share’ngo.

(9)

9

CAPITOLO 1

BIG DATA

______________________________________________________________________

1.1 Il fenomeno Big Data

I Big Data rappresentano un fenomeno in crescita, di importanza incrementale, che suscita molta attenzione sia da parte degli studiosi che dei manager.

La ragione per cui questo ambito sta diventando sempre più rilevante è legata ad una serie di trend2, ciascuno indipendente ma che insieme convergono sullo stesso risultato.

Il primo trend che prendiamo in considerazione sono le transazioni digitali. Qualsiasi attività noi compiamo quotidianamente che sia per lavoro o per divertimento, è mediata da qualche dispositivo elettronico collegato ad internet. Ci sono pochissime attività che non hanno un riflesso da qualche parte sulla rete, ciò significa che noi lasciamo continuamente dietro a noi tracce virtuali del nostro “comportamento” reale.

Basti pensare ad ogni nostra giornata, fin dal primo momento in cui ci svegliamo lasciamo tracce digitali. Semplicemente toccando il telefono, accedendo ad internet, usando i trasporti, pagando un prodotto o un servizio in un certo locale o negozio. Queste tracce, chiaramente, non saranno studiate a livello d’insieme affiancando i vari acquisti e gli spostamenti compiuti, poiché tale passaggio è estremamente articolato, tuttavia complessivamente sono la rappresentazione

2

Tratto dall’intervento di Euro Beinat, professore di Geoinformatica dell'Università di

Salisburgo, al seminario “Big Data, quali opportunità per il turismo?” del giorno 31 marzo 2014

(10)

10

molto precisa di ciò che noi effettivamente abbiamo fatto nell’arco della giornata (Beinat, 2014).

Il secondo trend è legato ai social media. Non è altro che la volontà delle persone di esprimersi dal basso, dichiarando, in questo modo, interessi e percezioni su ciò che li circonda. Tramite i social network gli individui esprimono in prima persone quali siano i propri interessi riguardo diversi argomenti, fornendo a chi li “ascolta” importanti indicazioni. A differenza di altri strumenti, questi, hanno il vantaggio di ottenere informazioni pure, dirette e non filtrate.

Molti di questi social media sono di accesso pubblico, come Facebook o Twitter, permettendo alle aziende di studiare i dati che vengono generati dagli individui su queste piattaforme, al fine di capire il comportamento collettivo.

Il terso trend è l'“Internt of People”, ovvero internet delle persone, ed è uno dei sensori principali di quello che succederà nel futuro. Prendendo come esempio il settore della ristorazione, se fossimo interessati a conoscere degli andamenti futuri in questo mercato sarebbe sufficiente "domandare" a Google tramite ricerche apposite, quali sono i locali più richiesti, oppure sfruttare sistemi come “Trip Advisor”, che grazie all’interazione delle persone consentono di conoscere quali siano i ristoranti più apprezzati e probabilmente quelli che saranno i più scelti in futuro (Beinat, 2014).

Se l’internet delle persone è un argomento molto vasto, poiché come dicevamo considera tutto il materiale da esse prodotto nel Web, non ha niente a che vedere con il quarto trend, “Internet of Things (IoT), ovvero l’internet delle cose (Beinat, 2014).

L’Internet of Things è stato identificato come la quarta rivoluzione industriale. Lo afferma H. Michael O’Brien in articolo per il “Journal of Internet Law” del giugno 2016; prosegue con quanto riportato in seguito. Nel 2015, varie stime suggeriscono che sono stati collegati a Internet fino a 5 miliardi di dispositivi e

(11)

11

prevedere un aumento di 25 miliardi in più nei prossimi cinque anni. Entro il 2016, la crescita fenomenale dello “IoT” è stata maggiore di quanto originariamente previsto. Gartner, Inc. stima un aumento del 30 per cento di “IoT

device” collegati a Internet nel 2016, il che equivale a 6,4 miliardi di dispositivi.

In media, 5,5 milioni di nuovi dispositivi sono collegati a Internet ogni giorno (O’Brien, 2016).

La “IoT” consente ai device di connettersi a Internet tramite sensori incorporati in tali dispositivi. Questi sensori inviano informazioni ambientali e attività ai centri di stoccaggio di dati che a loro volta consentono a dei software analitici di fornire un feedback di controllo. La “IoT” ha trasformato dispositivi di uso quotidiano in dispositivi intelligenti connettendo oggetti di consumo e apparecchiature industriali a Internet, consentendo così la raccolta d’informazioni. Inoltre questi apparecchi potranno essere gestiti attraverso software in grado di aumentare l'efficienza, attivare nuovi servizi, o di ottenere altri vantaggi di salute, di sicurezza e ambientali (O’Brien, 2016).

Un rapporto del 2014 svolto dalla Goldman Sachs ha individuato cinque aree chiave di adattamento dell'”Internet of things”: wearables (qualcosa di indossabile, ad esempio, bracciali intelligenti), connected cars, connected homes,

connected cities, e industrial Internet (tra cui l’industria dei trasporti, del petrolio

e del gas, e dell'assistenza sanitaria) (O’Brien, 2016).

Gli “IoT device” comprendono tutti quegli oggetti che noi giornalmente utilizziamo, che una volta collegati alla rete, comunicheranno all’esterno informazioni sulle nostre abitudini. In un futuro molto prossimo qualsiasi oggetto che acquisteremo potrà essere connesso alla rete: elettrodomestici come frigorifero o aspirapolvere saranno collegati in un sistema che li gestirà via internet. In questo modo, tali oggetti trasferiranno informazioni sul nostro comportamento, dove abitiamo, le nostre abitudini, fornendo spunti e intuizioni

(12)

12

alle imprese per progettare oggetti strettamente compatibili con le nostre esigenze (Beinat, 2014).

Infine il quinto trend riguarda quei dati raccolti da governi e istituzioni che fino ad alcuni anni fa non erano accessibili (Beinat, 2014), mentre adesso sono disponibili e consultabili via internet. Un esempio sono i dati forniti pubblicamente dai comuni3.

1.2 Evoluzione e crescita

In questa prima sezione si intende di fare chiarezza e mettere in evidenza su questo nuovo filone di studi e di ricerca, senza addentrarci in definizioni eccessivamente dettagliate, che presenteremo in seguito.

“I Big Data sono informazioni estratte dalla complessa realtà in cui viviamo basandosi sulle tracce lasciate dalle nostre impronte digitali" (Chandler, 2015). Prendiamo in considerazione la figura 1. Nell'immagine è raffigurato il confronto tra il momento della proclamazione del nuovo pontefice nel 2005, Papa Benedetto XVI e quella del 2013 che ha annunciato Papa Francesco.

3

(13)

13

Figura 1 - Proclamazione del pontefice anni 2005 e 2013 a confronto.

E' immediato notare cosa sia cambiato in quegli 8 anni.

Stesso luogo, stesse persone, stesso motivo per trovarsi in quel posto, ma nel 2013 ognuno ha un dispositivo, device, per immortalare il momento. Ciascuna di queste persone in quel momento stava comunicando alla rete che si trovava lì e che era interessata ad un certo tipo di evento, inondando il Web di informazioni (Beinat, 2014).

Ma ciò, è stato anche possibile grazie ad una rapida evoluzione nel campo delle

memory card, dove in meno di 10 anni siamo passati dalla “micro SD” da 128

(14)

14

Figura 2 – Confronto memory card tra il 2005 e il 2014.

Come è possibile osservare le due memory card sono identiche nella dimensioni e nel peso, tuttavia la seconda ha con una capacità di memorizzazione mille volte superiore. L'incremento della memoria rende l’acquisizione di immagini e video meno impegnativa e più thoughtless, con una qualità spesso nettamente superiore (Beinat, 2014).

Il mondo dei Big Data comprende, dunque, informazioni provenienti da molteplici fonti, tra le quali i social media, gli smartphone, il mapping, le visualizzazioni degli utenti, gli apparecchi di registrazione e il numero dei così detti data-sharing device sta crescendo esponenzialmente.

A mio avviso a questi strumenti si aggiunge una generale tendenza delle persone nel condividere le proprie esperienze con amici e con il Web più in generale. Ci troviamo oggi in un’epoca in cui la presenza online rischia di diventare più importante di quella offline e porta le persone a generare materiale condivisibile per accrescere il proprio narcisismo. Così la rete viene sovraccaricata di informazioni. Informazioni che se analizzate diventano chiari indicatori degli

(15)

15

atteggiamenti e comportamenti, abitudini e preferenze di ben definiti gruppi di clienti, consumatori o persone (Beinat, 2014).

Così i Big Data trasformano la nostra realtà di tutti i giorni e la nostra immediata relazione con gli oggetti che ci circondano, in insights (dall'inglese, intuizioni). Questa "datafication" della realtà quotidiana è alla base dei Big Data, non solo è il cuore pulsante dei Big Data. E' uno strumento che permette di esaminare la realtà portando le interazioni e le relazioni in superficie rendendole visibili, leggibili e quindi governabili, piuttosto che cercare di comprendere le leggi nascoste della casualità (Chandler, 2015).

Come afferma Rob Kitchin, riportato da David Chandler (2015), l'analisi dei Big

Data è un fenomeno unico in quanto la sua costruzione non è parte di un

processo consapevole, elaborato da individui. Infatti, i Big Data non seguono il moderno processo di produzione di informazioni in quanto non sono mediati da apparati concettuali, bensì tali informazioni son acquisite automaticamente da dei sensori o apparecchi adatti (Chandler, 2015).

I dati di cui il data scientist4 disporrà non saranno il frutto di richieste coscienti

da parte degli analisti o ricercatori di marketing, infatti non rispondo a specifiche domanda fatte in sede di avvio della ricerca bensì sono più che altro un "effetto collaterale" di attività svolte in campi dove tecnologie avanzate di gestione e memorizzazione permettono una raccolta automatica. Il fatto che questi dati non siano il frutto di test su teorie o modelli di business, sono visti più come una risposta piuttosto che un problema (Chandler, 2015).

L'analisi dei Big Data consente un approccio epistemologico del tutto nuovo per dare senso a ciò che ci circonda. Piuttosto che testare una teoria analizzando dati

4

In breve il data scientist è l’analista impiegato nell’analisi dei Big Data. Un ruolo molto articolato che richiede un maggior dettaglio; il paragrafo 1.3 sarà dedicato alla figura del data scientist.

(16)

16

prerichiesti, l'analisi di questi nuovi dati tenta di ottenere insignts, conoscenze, "born from the data" (Chandler, 2015).

Invece di iniziare con ipotesi o teorie deduttive, che poi saranno testate attraverso la sperimentazione, i Big Data consentono di essere più induttivi, preservando maggiormente la realtà, senza influenzarla con assunzioni causali astratte e talvolta riduzioniste.

“La promessa dei Big Data è che, attraverso l'elevata rapidità nella generazione dei dati e lo sviluppo sempre maggiore nelle analisi computazionali, il mondo può iniziare a parlare per se stesso senza l'interpretazione umana, spesso soggetta a cadere in errore” (Chandler, 2015).

Ciò che il dottor David Chandler vuole evidenziare è la comodità nella raccolta delle informazioni. A parer suo, in un futuro prossimo non sarà più necessario interfacciarsi direttamente a dei soggetti ponendo loro quesiti, poiché le risposte le avremo già grazie ai loro acquisti, spostamenti e transazioni. Si tratta, a mio avviso, di una visione ancora troppo utopistica ma è indubbio che le potenzialità di questi sistemi portino facilmente a tali conclusioni.

1.2.1 The “Internet in real-time”

Cerchiamo di capire meglio di cosa stiamo parlando, di quale sia effettivamente la grandezza delle informazioni, dei dati, delle transazioni, che vengono riprodotte continuamente nel mondo.

Quantifichiamo i Big Data. Quanti sono i dati? Quanto velocemente vengono generati?

Doxa.it5 ha pubblicato nel loro sito internet una pagina denominata “How quickly

data is genereted” che mostra un’infografia interattiva, dove possiamo osservare

5

(17)

17

cosa accade nel mondo virtuale secondo dopo secondo, mostrando “quanto velocemente vengono generate le informazioni”. In figura 3 possiamo vedere quante informazioni vengono caricate in rete in soli 60 secondi.

Figura 3 – Internet in real-time. Fonte: Doxa.it

È una rappresentazione grafica molto esplicativa perché dal momento in cui si accede alla pagina Web inizia a scorrere il tempo trascorso visualizzando la pagina stessa e parallelamente, nei riquadri colorati è possibile osservare i valori di alcuni tra le aziende più importanti che crescono a velocità sorprendenti, secondo dopo secondo.

Così, nell'esempio riportato in figura 3, possiamo notare le 120 ore di video caricare su YouTube e le 138.840 ore di visualizzazioni in un solo minuto di internet (Doxa, 2016).

Un minuto, 120 ore; un ora, 7.200 ore; un giorno, 172.800 ore, come deducibile dalla figura 3 (Doxa, 2016).

(18)

18

Possiamo solo rimanere affascinati, o sconvolti, dall’enormità di dati che gli utenti generano in tempi infinitamente piccoli.

Sempre in un minuto di internet gli utenti di Facebook cliccano 3 milioni di volte il tasto "Like" postano più di 3 milioni di foto e generando 360 GB di dati (Doxa, 2016).

Sorprendenti sono anche i numeri dei download delle app, circa 100 mila tra “App Store” e “Play Store”, per non parlare delle ore di film visti su Netflix, i 13 milioni di messaggi inviati tramite WhatsApp o i 140 mila dollari spesi dagli utenti su Amazon, in un solo minuto, per ogni minuto della giornata; come si può osservare in figura 3 (Doxa, 2016).

Quindi possiamo affermare, ed esserne certi, che il mondo dei dati è uno dei pochissimi fenomeni dove il problema di gestione è il problema dell’abbondanza (Beinat, 2014).

Noi, come razza umana, abbiamo imparato a gestire la scarsità, poiché qualsiasi risorsa che abbiamo incontrato fino ad oggi è quasi sempre stata scarsa e con gli anni abbiamo capito come estrarne di più. Qua invece abbiamo il problema opposto, ovvero estrarre contenuti da un’infinità di dati. E siamo solo all’inizio (Beinat, 2014).

In soli 4 anni sono quasi raddoppiate le ore di video caricate su YouTube, erano 70 nel 2012 (Qualman, 2012).

È un fenomeno che non accenna a fermarsi, ma crescerà con ritmi esponenziali crescenti.

L’Economist (2014) è arrivato a stimare che se nel 2005 ogni persona collettivamente ha prodotto meno di uno zettabyte 6(ZB) appena 0,13 ZB, nel 2020 saranno prodotti collettivamente 34,6 ZB.

6

Per focalizzare meglio questi valori, uno zettabyte sono 1021 byte e corrisponde ad 1 miliardo di terabyte (TB = 1012 byte) e mille miliardi di gigabyte (GB = 109 byte) unità a noi più comuni.

(19)

19

Un’altra previsione contenuta nel Cisco Visual Networking Index del 27 maggio 2015 afferma che il traffico annuale su Internet supererà la soglia dello zettabyte nel 2016, per raggiungere la soglia di due zettabyte nel 2019. Nel 2016 quindi il traffico globale raggiungerà 1,1 zettabyte prodotti all’anno, 88,4 exabyte ogni mese, volume che arriverà a 168 EB tre anni dopo.

Questo è un fenomeno che raddoppia ogni anno e mezzo per 15 anni e non c’è nessuna ragione di pensare che non continui per altri 15, 20 o 50 anni, anche perché il costo per salvare i dati è talmente basso da raggiungere quasi lo 0. Così, quasi tutte le aziende mondiali salavano i dati anche solo per il valore potenziale che possono generare in futuro.

Andiamo adesso a definire più nel dettaglio cosa sono i Big Data.

1.3 Definizioni di Big Data

Non esiste una definizione univoca condivisa dagli studiosi e dai manager, ma molte varianti dello stesso concetto. Tuttavia è doveroso capire cosa siano i Big

Data e come siamo arrivati a questo concetto.

1.3.1 Dai data ai Big Data

Esiste una descrizione molto chiara e pratica, utilizzata anche dal Dottor Euro Beinat in uno dei suoi seminari riguardo questi argomenti tenuto nel 2014 a Trieste.

Immaginiamoci una persona che acquista un libro, questa sarà una singola transazione compiuta da una singola persona, e non ci dirà niente di più, siamo di fronte ad un semplice dato.

(20)

20

Immaginiamo adesso di considerare tutte le singole transazioni compiute da una stessa persona, l’acquisto del libro, del caffè al bar, la benzina ad un distributore e molto altro. A questo punto riesco a capire per una persona quello che ha comprato in un arco di tempo, riuscendo a prevedere cosa sia meglio offrirle in un certo giorno della settimana perché so che quel giorno storicamente ha acquisto un certa serie di prodotti.

La domanda sorge spontanea, che cosa accadrebbe se andassimo a combinare anche le transazioni di altre persone? È ciò che succede su Amazon continuamente; quando si osserva un oggetto su Amazon, il sistema automaticamente suggerisce una serie di ipotesi ulteriori basata sugli acquisti pregressi di altre persone. Chi ha acquistato il prodotto "X", poi ha acquistato anche "Y", perciò se stiamo osservando "X" viene proposto anche il prodotto "Y", specificando che una persona probabilmente tale e quale a noi ha fatto questa scelta.

Pertanto qua la focalizzazione non è esclusivamente sulle transazioni di una persona ma di tutte le transazioni prese collettivamente.

Ma quello che effettivamente permette ai dati di diventare "big" è quando vengono considerare assieme non solo l’informazione della transazione ma anche le informazioni esterne e di contesto, come il tempo o i valori di borsa. Avremo così una visibilità estrema e generale sul comportamento delle persone.

Quindi i Big Data non sono solo molti dati, perché grazie a queste informazioni riusciamo a guadagnare un’elevata visibilità e prevedibilità su un sistema complesso come può essere l’uomo, in un modo che non è mai stato possibile prima.

Un esempio semplice ma allo stesso tempo calzante che aiuta a comprendere tale importanza, viene da un sito di nome 23andMe7. Pagando 149 dollari è possibile

7

(21)

21

inviare un campione del proprio DNA all'istituto di analisi a cui si affida la società. Questo analizzandolo e correlandolo con tutti gli altri di DNA ricevuti riesce, tra le altre cose, a stabilire con una certa precisione da dove proveniamo, se siamo di origine europea, asiatica, africana o altro. Questo rende l’idea del grado di dettaglio che possiamo raggiungere sulla base di un’informazione di una singola persona quando viene confrontata con tutte le informazioni delle altre persone.

1.3.2 Le "4V" dei Big Data

Per meglio intendere, a livello tecnico, cosa siano i Big Data, come spesso accade quando si vogliono dare delle definizione, per renderle più memorizzabili, vengono enunciate delle caratteristiche associandole a delle lettere cardine: In questo ambito è stata scelta a "V", ed ecco che presentiamo le "4V" dei Big Data (Rezzani, 2013):

 Volume: uno degli aspetti fondamentali è proprio la quantità dei dati. Si parla di dati generati sia dagli utenti in prima persona tramite gli strumenti del Web 2.0, e quelli generati in forma automatica da macchine quali sensori in grado di registrare per esempio transazioni bancarie e movimenti sui mercati finanziari (Rezzani, 2013). Secondo un'altra fonte rispetto all'"Economist", citato in precedenza, l'"International Data

Corporation" (IDC) stima (Gantz, 2012) che entro il 2020 l'universo

digitale possa raggiungere la mastodontica quota di 40 zettabyte, ovvero 1021 byte. Si può quantificare con più chiarezza l'incremento di volume di informazioni se pensiamo che solo nel 2005 la quantità di dati complessivamente raggiungeva i 130 exabyte, 0,13 zettabyte, come già riportato. (Altri si spingono fino ad ipotizzare sempre per il 2020 una

(22)

22

quantità di dati pari a 110 zettabyte (Yiu, 2012)).Questo ovviamente riguarda l'intero mondo digitale, i dati con cui si confrontano le aziende possono raggiungere al massimo l'ordine dei terabyte o petabyte. Le grandezze che si raggiungo impediscono il loro utilizzo tramite i tradizionali database. Piuttosto che immagazzinare questa mole di dati in un normale database relazionale, RDBMS8 (Relational Database Management System), che richiede elevati investimenti, conviene seguire le orme di grandi imprese come Google e Facebook che utilizzano strumenti, di proprietà od open source9. Tra le tecnologie open source la più diffusa è sicuramente Apache Hadoop, ha la capacità di processare grandi quantità di dati a costi contenuti.

 Varietà: La seconda caratteristica dei Big Data riguarda l'elevata diversità dei formati e, spesso, l'assenza di una struttura che permetta la rappresentazione in una tabella di un database relazionale. Questi dati vengono chiamati “dati non strutturati”; i formati variano da documenti di diverso genere come Word, Excel o PDF, a blog, post, commenti sui social network come Facebook o strumenti di microblogging come Twitter. Ma la varietà non riguarda esclusivamente i formati e le strutture

8

Il termine Relational database management system (RDBMS) (sistema per la gestione di basi di dati relazionali) indica un database management system basato sul modello relazionale, introdotto da Edgar F. Codd. Oltre ai RDBMS esistono, anche se meno diffusi a livello commerciale, sistemi di gestione di basi di dati che implementano modelli dei dati alternativi a quello relazionale: gerarchico, reticolare e a oggetti.

Il modello relazionale è un modello logico di rappresentazione o strutturazione dei dati in un database e si basa sulla teoria degli insiemi e sulla logica del primo ordine ed è strutturato intorno al concetto matematico di relazione, detta anche tabella (Rezzani, 2013).

9

Tra le tecnologie open source la più diffusa è sicuramente Apache Hadoop, ha la capacità di processare grandi quantità di dati a costi contenuti.

(23)

23

ma fa riferimento anche alle fonti: difatti alcuni dati sono generati automaticamente da macchine o sensori, mentre altri sono generati dagli utenti, come accade nel Web 2.0. L'eterogeneità di formati strutture e fonti impediscono l'utilizzo di tradizionali database relazionali per lo stoccaggio dei dati. Database NoSQL, ad esempio, permettono il salvataggio di dati semi-strutturati, come un documento Word il quale oltre alla parte non strutturata del testo contenuto presenta anche una serie di metadati che forniscono informazioni sul documento stesso (autore, data di creazione, data di modifica, ecc.)

 Velocità: la velocità con cui nuovi dati si rendono disponibili è il terzo fattore che identifica i Big Data. Riprendendo l'esempio dei dati provenienti da sensori e strumenti scientifici, oltre al volume elevato, anche la velocità con cui queste fonti generano nuovi elementi rende necessario l'utilizzo di strumenti in grado di tenerne traccia. In questo ambito, la sfida per le aziende consiste nella capacità di sfruttarli con altrettanta rapidità, estrapolando da essi informazioni utili per l'attività, minimizzando i tempi di elaborazione. L'esigenza di rapidità nelle risposte ha portato allo sviluppo di database non relazionali, come i database "NoSQL", di cui accenneremo più avanti.

 Veracità: quest'ultima "V" sta ad indicare la validità dei dati. La credibilità e l'affidabilità delle diverse informazioni variano a seconda della fonte da cui raccogliamo i dati. Per esempio, i social media sono invasi dallo "spam", si conta che oltre il 20% degli account in tutto il World Wide Web siano fittizi. Pertanto la veracità si occupa di regolare l'affidabilità, l'integrità, la rilevanza, e l'usabilità dei dati.

(24)

24

1.3.3 IL Data Scientist

“Per capitalizzare i “grandi dati” sarà necessario assumere scienziati di dati altrettanto grandi”. Questo è ciò che affermano Thomas Davenport e D.J. Patil in un articolo del tardo 2012 che ci aiuta a comprende più a fondo il decisivo ruolo del data scientist. È questa la “sfida” per i manager, quella di imparare a identificare quel talento, attrarlo nell’impresa, e renderlo produttiva. Trattasi di una “sfida” poiché questa ricerca per il manager non sarà tanto semplice, quanto lo era per gli altri ruoli organizzativi. Per cominciare non esistono programmi universitari che offrono lauree in Scienze dei Dati. Inoltre non c'è una visione comune su dove tale ruolo debba inserirsi in un’organizzazione, su come i data

scientist possano aggiungere un maggior valore all’impresa, e su come le loro

prestazioni debbano essere misurate (Davenport 2012).

Perciò il primo passo per valutare se tale ruolo sarà necessario, è quello di capire il loro compito in imprese. Così ci domandiamo, di quali competenze hanno bisogno? E in quali campi queste competenze sono più facili da trovare?

“Più di ogni altra cosa, ciò che i data scientist fanno è fare scoperte mentre il nuoto nei dati” (Davenport 2012). A loro agio nell’ambiente digitale, sono in grado di elaborare una struttura di dati senza forma e renderne possibile l'analisi. Identificano ricche fonti di dati, le uniscono con altre fonti di dati, potenzialmente incompleti, e puliscono il set risultante. In un panorama competitivo in cui le sfide continuano a cambiare e i dati non smettono di fluire, gli scienziati di dati aiutano i decisori consentendo di superare un’analisi ad hoc in favore di una continua conversazione con i dati.

Devono essere anche soggetti dotati di creatività, poiché questa permette di esporre le informazioni in modo visibile e rendere gli schemi che trovano chiari e convincenti. Essi consigliano i dirigenti e responsabili di prodotto sulle implicazioni dei dati per i prodotti, i processi e le decisioni (Davenport, 2012).

(25)

25

Dato lo stato nascente del loro mestiere, spesso i data scientist sono costretti a crearsi i propri strumenti e persino condurre una ricerche accademiche. Yahoo è una delle aziende che sin da subito ha impiegato un gruppo di data scientist, questi sono stati determinanti nello sviluppo del software “Hadoop”. Mentre il data team di Facebook ha creato il linguaggio di “Hive” per la programmazione di progetti di “Hadoop”. Molti altri scienziati di dati, in particolare in aziende

data-driven come Google, Amazon, Microsoft, Wal-Mart, eBay, LinkedIn e

Twitter, hanno ampliato e affinato il kit di strumenti.

Che tipo di soggetto è in grado di fare tutto ciò? Quali sono le abilità che rendono uno data scientist di successo? Dobbiamo pensare a lui o lei come un ibrido di hacker di dati, analista, comunicatore, e consigliere di fiducia. La combinazione è veramente potente e rara (Davenport, 2012).

La più basilare e universale abilità del data scientist è la capacità di scrivere codici. Cosa, che risulterà meno veritiera tra 5 anni quando molte più persone avranno il titolo di "scienziato dei dati" sui loro biglietti da visita. Più duratura sarà la necessità per i data scientist di comunicare in un linguaggio che tutti gli stakeholder comprendano, così da dimostrare tali abilità speciali, coinvolte nell’analisi dei dati, sia verbalmente che visivamente (Davenport, 2012).

Ma la caratteristica dominante tra i data scientist è un intensa curiosità, il desiderio di osservare la superficie di un problema, di trovare le domande al suo interno, e di svilupparle in una chiara serie di ipotesi che possono essere testate. Ciò comporta spesso il pensiero associativo, che caratterizza i migliori scienziati creativi in qualsiasi campo. Ad esempio, sappiamo di un data scientist che studiando un problema di frode si rese conto della somiglianza con un tipo di problema di sequenziamento del DNA. Mettendo insieme questi mondi disparati, lui e il suo team sono stati in grado di sviluppare una soluzione che riduce drasticamente le perdite per frode (Davenport, 2012).

(26)

26

A conclusione del primo capitolo, dedicato al fenomeno “Big Data”, presento, di seguito, un prospetto riassuntivo, che evidenzia le varie definizioni appena esposte per una migliore chiarezza di tale concetto (tabella 1).

(27)

27

CAPITOLO 2

IMPORTANZA DEI BIG DATA

______________________________________________________________________

E' sorprendente pensare che circa i 90% dei dati mondiali siano stati generati solo negli ultimi 2 anni secondo una ricerca risalente al 2013 di SINTEF, un istituto indipendente di ricerca norvegese.

Come afferma Bill Hardgrave nel 2013, l'enorme quantità di dati prodotti da umani e macchine è molto più massiccia che in qualsiasi altro momento nel passato.

Così molte aziende hanno iniziato a reclutare ed assumere figure in grado di lavorare con queste grandi quantità di dati, accrescendo la domanda di lavoro per gli analisti. In seguito saranno analizzati questi sviluppi in campo professionale.

2.1 Potenzialità e applicazioni

Osserviamo adesso le potenzialità analitiche e le opportunità strategiche che può offrire un’attenta analisi dei dati.

2.1.1 Analisi dei dati: Descrittiva, Predittiva, Prescrittiva

Aziende e governi hanno da sempre raccolto dati a vari livelli di dettaglio. Ciò che è cambiato sono le moderne tecnologie che hanno incrementato le tipologie di dati che possono essere raccolti e hanno reso meno costoso, più semplice, più veloce la raccolta appunto, ma anche la memorizzazione e la relativa analisi (Blum, 2015).

(28)

28

Un'immediata e ovvia implicazione è che dati migliori e tecnologie più veloci permettono analisi migliori e più veloci. Mentre una implicazione meno ovvia è che con questi dati migliori e queste nuove tecnologie, le aziende faranno analisi in modo diverso.

Bernardo Blum, Avi Goldfarb e Mara Lederman, nel loro articolo "The path to

prescription" (2015) definiscono tre macro aree di analisi per la raccolta dei dati.

 Descritpive Analysis: consiste nel modello più semplice di analisi in quanto si occupa (o si limita) di descrivere e memorizzare ciò che sta accadendo o è accaduto. L'analisi descrittiva tiene traccia degli indicatori chiave di performance spesso tramite semplici analisi statistiche ottenendo output quali tabelle, grafici e diagrammi. Risponde a domande come "quante chiamate in entrata abbiamo registrato nell'ultima settimana nel call center?". Questo tipo di analisi dei dati è chiamata "dashboarding" perché come il cruscotto fa per l'auto fornisce tempestivamente e facilmente informazioni sulle parti più importanti del sistema. Pertanto questo tipo di analisi consente di identificare dove si stanno verificando i vari problemi e quali aree necessitano di maggiore attenzione. Così l'analisi descrittiva può informare i decisori aziendali ma spesso non genera sufficienti informazioni per fornire soluzioni.

 Predictive Analysis: L'analisi predittiva utilizza i dati esistenti nelle organizzazioni, siano essi strutturati o non strutturati, per predire l'evoluzione delle variabili che non si possiedono, ma che dalla cui conoscenza potremo beneficiare. Ad esempio le aziende produttrici di bevande si impegnano a prevedere quali saranno le vendite per ogni brand trattato e ogni tipo di package prodotto, al fine di prendere decisioni riguardo la produzione; oppure i vari retailer predicono quanti saranno i clienti che nel periodo natalizio entreranno nel loro store. Difatti gran

(29)

29

parte dell'entusiasmo intorno ai Big Data è incentrato sulle potenzialità di ottenere predizioni più veloci, migliori e più affidabili.

La stampa è piena di esempi ormai ben noti di analisi predittive: tra i più citati c'è sicuramente il caso di "Target" (Duhigg, 2012) e la previsione delle gravidanze.

o Caso Target

Ogni qualvolta andiamo a fare shopping, condividiamo dettagli anche piuttosto intimi sui nostri modelli di consumo con i rivenditori. Mentre noi facciamo acquisti e consumiamo, molti di questi rivenditori studiano i nostri comportamenti per capire quello che ci piace, ciò di cui abbiamo bisogno o quali coupons possono soddisfarci meglio.

Target, il secondo più grande discount retailer degli Stati Uniti dopo WalMart, ha capito come "minare i dati" (data mining) tanto da conoscere se una certa cliente stia aspettando un bambino prima ancora che, come ironicamente afferma il titolo dell'articolo di Forbes (Hill, 2012), suo padre lo sappia. Più praticamente l'obiettivo era di scoprirlo prima che iniziasse ad acquistare i "pannolini".

Charles Duhigg delinea sul NewYork Times (2012) come Target sia riuscito a catturare gli "aspiranti genitori" prima che lo diventassero a tutti gli effetti.

Andrew Pole, statistico di Target, intervistato dal giornalista, spiega come Target assegni ad ogni consumatore un codice ID, legato al nome, alla carta di credito o all'indirizzo di posta elettronica, e a quello venga poi associato ogni movimento all'intero del punto vendita. In questo modo viene realizzato, per ogni cliente, uno

(30)

30

storico che contiene tutto ciò che essi abbiano acquistato integrate con informazioni demografiche, registrate internamente all'azienda o acquistate da fonti esterne.

A questo punto Pole, studiando gli storici è in grado di osservare andamenti ricorrenti. Più nello specifico, in questo ambito, ha analizzato gli storici di acquisto delle donne che poi avrebbero avuto dei bambini in futuro. Studiando il passato è riuscito a "predire il futuro" (Duhigg, 2012)

Così vennero identificati alcuni prodotti che se acquistati con una certa regolarità oppure prodotti differenti acquistati in serie, induce a credere che l'interessata stesse percorrendo le tappe della gravidanza.

Un esempio di prodotto era la lozione (nell’articolo Andrew Pole non specifica quale tipo di lozione, ma rimane sul generico), prodotto acquistato da molte persone indistinte, ma analizzando gli storici delle donne diventate mamme in un secondo momento, si notò che veniva acquistato in grandi quantità all'inizio del terzo mese di gravidanza. Un altro analista osservò che spesso nelle prime 20 settimane, le donne in gravidanza acquistavano integratori come calcio, magnesio e zinco.

Molti consumatori acquistano, inoltre, sapone e batuffoli di cotone, ma anche per questi articoli, quando improvvisamente si riscontravano acquisti di notevoli quantità come extra-sacchi di batuffoli di cotone, oltre a disinfettanti e sapone inodore, era un chiaro segnale di vicinanza alla data del parto.

A questo punto il computer di Pole, avendo abbastanza informazioni sugli acquisti passati e i loro effetti, è stato in grado di

(31)

31

identificare circa 25 prodotti, che se analizzati insieme, permettevano di assegnare ad ogni acquirente un punteggio di "previsione della gravidanza" ("pregnancy prediction score"). Ma ancora più importante, è stato in grado di stimare, entro una piccola finestra, la data di "conclusione" della gravidanza.

Con queste informazioni Target sarebbe stato in grado di inviare differenti coupon per i differenti momenti della gravidanza.

L’articolo di Forbes (Hill, 2012) propone a titolo esemplificativo gli acquisti che potrebbe effettuare una ragazza di 23 anni in un giorno di marzo. Tra gli oggetti acquistati si evidenzia: del burro di cacao, una borsa abbastanza grande paragonabile ad una borsa per pannolini, degli integratori di zinco e magnesio ed un tappeto blu. Esiste una probabilità dell'87%10 che sia incinta, che partorisca entro la fine di agosto, e che il figlio atteso sia un maschio per via del tappeto blu.

Perciò Target ebbe l'idea "geniale" di inviare coupon di sconti su articoli per bambini agli acquirenti con punteggi elevati di "previsione della gravidanza".

Ciò che non avevano previsto era un padre infuriato che si sarebbe recato dai dirigenti Target per domandare riguarda la posta ricevuta dalla figlia liceale, e furioso chiedeva se stessero cercando di incoraggiare sua figlia a rimanere incinta. Il caso ha voluto che il padre non fosse a conoscenza dello stato interessante della figlia adolescente.

10

(32)

32

Come possiamo osservare da questo caso aziendale le potenzialità dei Big Data hanno come unico limite l'immaginazione del data

scientist.

Però, è doveroso essere non solo estremamente certi della fonte delle informazioni che estrapoliamo ma anche saperle usare nel modo più conforme possibile.

Il fatto che certe informazione siano raggiungibili, non significa che sia altrettanto etico utilizzarle. Entra in gioco l’importante criticità legata alla privacy, che sarà affrontata in seguito.

 Prescriptive analysis: l'analisi prescrittiva è differente dalla descrittiva e dalla predittiva in quanto fornisce una visione diretta sulla conseguenze delle diverse azioni, scoprendo le relazioni chiave di causa-effetto su fattori rilevanti per l'azienda. Spesso, sono richieste interpretazioni più sottili e sfumate rispetto ai risultati che forniscono le due analisi precedenti. L'analisi prescrittiva riguarda la comprensione di "che cosa causa cosa" e "perché". Mentre l'analisi predittiva mira a prevedere il valore di un parametro d'interesse, come le vendite di un determinato prodotto. L'analisi prescrittiva, invece, ha l'obiettivo di comprendere i fattori che determinano un certo risultato, in modo che possa essere influenzato favorendo l'impresa. Facendo un esempio sempre tratto dall'articolo "The path to prescription" (Blum et al, 2015), un'azienda produttrice di bevande potrebbe notificare che uno dei suoi brand non è popolare tra il pubblico femminile, perciò per poterlo incrementare le vendite ha bisogno di determinare che cosa sta causando questo rifiuto. E' a causa del gusto, del marketing, della distribuzione, dei canali?

L'analisi descrittiva risponde a quesiti come "quali livelli di vendita sono

(33)

33

meglio nell'ultimo anno?". L'analisi predittiva risponde a domande come

"chi è più propenso a cliccare su un banner online?" oppure "quale

macchinario richiede la manutenzione successiva?". Queste informazioni

sono estremamente utili ma un'organizzazione ha bisogno di andare più nel profondo rispondendo a quesiti con "perché" e "come".

Steve Weber nell'articolo "Mining Big Data" propone delle caratteristiche che devono avere le "nuove" e domande che dobbiamo porci.

Piuttosto che chiedersi "quanto è cresciuto il nostro business nell'ultimo anno?", le così dette "Big Data question" saranno formulate più seguendo questo stile: "come possiamo incrementare gli acquisti dei consumatori del 20% e la loro

fedeltà del 30%?.

Sarà possibile rispondervi se comprenderemo meglio l'interesse e il comportamento dei consumatori, integrandolo con una gamma di probabili previsioni economiche e movimenti dei concorrenti.

Questo nuovo tipo di quesito abbraccia generalmente le seguenti caratteristiche, esse devono:

 essere specifiche, ma a tempo indeterminato;

 riferirsi ad un processo di business e al raggiungimento di un obiettivo strategico;

 focalizzarsi su come ottimizzare e innovare, non informare;

 considerare il cambiamenti rispetto ad altri indicatori o processi;

 sfruttare ed integrare dati interni ed esterni;

 visione lungimirante;

 puntare maggiormente sulla differenziazione piuttosto che sul semplice confronto;

(34)

34

 essere realizzabile: aspirare di più al "do it" che al "prove it".

Secondo l'autore c'è bisogno di un forte cambiamento culturale in Informaton

Tecnology e spesso anche nelle divisioni aziendali. Come per ogni grande

trasformazione, il consiglio di amministrazione dovrebbe chiedere e fornire la supervisione di un formale piano di gestione del cambiamento con chiari obiettivi e risultati.

2.2 Benefici per l’azienda

E’ indiscutibile che una società dal momento in cui decida di raccogliere i dati ed elaborarli otterrà un immediato vantaggio competitivo verso i concorrenti. Perché persino nello scenario peggiore, avrà comunque fatto chiarezza sul suo mercato, su suoi clienti e i suoi concorrenti.

2.2.1 I vantaggi dei Big Data nella presa delle decisioni

Gran parte dei doveri del management è prendere decisioni.

Tradizionalmente, la conoscenza circa la situazione, le abilità, l'esperienza, l'intelligenza e l'intuizione del manager, erano fattori fondamentali per la presa delle decisioni in modo tempestivo. In queste occasioni una buona dose di fortuna gioca un ruolo importante perché c'è molta più incertezza riguardo i fattori esterni. L'azienda, fidandosi dei passati successi del dirigente, spera che possa prendere ottime decisioni future grazie alla sua esperienza. Come si può intuire, in questo tipo di processo, c'è un'elevata dose di soggettività.

Con l'avvento dei Big Data osservabili in tempo reale e raccolti da varie fonti, i manager hanno avuto accesso a strumenti utili per aiutarli a prendere rapide

(35)

35

decisioni, smart decision, guidate dai dati, data-driven. Tali decisioni sono fondate su una maggiore oggettività, su eventi attuali e specifici insights.

Adesso non è strettamente necessario affidarsi esclusivamente all'esperienza del manager grazie alla disponibilità di insights consultabili in real-time. Così il "fattore fortuna" e le "incertezze sui fattori esterni" diminuiscono in favore di potenziali decisioni migliori.

2.3 Crescita professionale

Seconda un'analisi realizzata nel 2014 da Hanna Smigala, responsabile della comunicazione globale e dei media in IBM, ha previsto che per il 2015 sarebbero stati offerti 4,4 milioni di posti di lavoro a livello globale per fronteggiare il bisognio di professionalità per quanto riguarda l’analisi dei Big Data.

Molte università nel mondo stanno riconoscendo il bisogno di inserire competenze analitiche sui Big Data nel curriculum dei nuovi laureandi.

2.3.1 Big Data e Business Education Curriculum

L'esponenziale aumento dei dati, diventanti "big" e della loro crescente importanza per le aziende, crea inevitabilmente offerte di lavoro. Aumentano le richieste da parte delle aziende di figure con competenze analitiche, i data

scientist, il cui ruolo è la gestione e l'analisi dei Big Data.

Tali affermazioni sono fondate su recenti previsioni. Una proiezione per il 2015 negli Stati Uniti prevedeva la creazione di 1,4 milioni di posti di lavoro. Secondo il professor N. Lazar, in uno studio del 2013, gli Stati Uniti avranno una carenza di personale specializzato in lavori di analisi dei dati tra le 140.000 e le 190.000 unità entro il 2018, un gap che deve essere colmato.

(36)

36

E' arrivato il momento per le università di capire cosa possono fare per preparare gli studenti a carriere di questo tipo.

Molti datori di lavoro come Taco Bell, General Electric, Boeing e Walt Disney stanno cercando figure con competenze di analisi in Big Data. Perciò è evidente che tale domanda di personale deve essere fronteggiata con un'altrettanta consistente offerta da parte dei futuri laureati (Lazar, 2013).

Alcune, ma ancora poche, delle maggiori business school americane come Arizona State University, University of Southern California, e Michigan State University hanno recentemente intrapreso programmi di laure specialistiche in

Business-Analytics (Lazar, 2013).

Gli insegnanti si devono impegnare a riempire quel gap di cui parlavamo, mettendo a punto un curriculum adatto a confrontarsi con le richieste del mercato del lavoro.

Secondo la visione di Steve Weber (2013), è necessario effettuare un forte

upgrande nelle abilità analitiche. I Big Data richiedono persone con avanzate

capacità analitiche che comprendono i dati e sanno come estrarli (mining), cosa cercare e inseguire, quali modelli sviluppare e quali fonti di informazioni sono le più valide per rispondere al nuovo set di domande.

Molte aziende stanno assumendo "data scientist" per rispondere a tali necessità. Diverse università stanno progettando di avviare “data science programs”, mentre programmi già esistenti di analisi, come ad esempio il “Master of Science

in Analytics Program” alla North Carolina State, sono stati arricchiti

aggiungendo esercitazioni e corsi sui Big Data (Davenport, 2012).

Alcune aziende stanno inoltre cercando di sviluppare i propri “scienziati dei dati”. Così, la divisione “Education Services” della EMC ha promosso training di analisi su data science e Big Data e un programma di certificazioni. La “EMC” ha reso il programma usufruibile sia da dipendenti che clienti, e alcuni

(37)

37

dei suoi laureati sono già al lavoro su iniziative di Big Data interni (Davenport, 2012).

Grazie alla proliferazione di diverse offerte formative, queste nuove abilità dovrebbero iniziare ad espandersi. I fornitori di tecnologie di Big Data stanno anche lavorando per renderli più facili da usare (Davenport, 2012).

La “Insight Data Science Fellows Program”, un borsa di studio post laurea progettata da Jake Klamka, prende gli scienziati dall’università e in sei settimane li prepara ad avere successo come data scientist. Il programma combina tutor esperti in dati, provenienti da aziende locali (come Facebook, Twitter, Google e LinkedIn) con l'esposizione a reali sfide di Big Data. Originariamente Klamka ha accettato 30 borsisti, da un pool di candidati superiore a 200. Molte organizzazioni sono in coda per partecipare (Davenport, 2012).

Il data scientist ideale, secondo Steve Weber (2013), oltre alle capacità basilari quali il data management, l'analytics modelling e il business analytics, deve possedere un certo numero di skills:

 Comunicazione: sia “verso l'alto” che “verso il basso” della catena di fornitura delle informazione. Coloro che emergono in questo ambito sono molto abili nella persuasione, nella gestione delle aspettative e nel "confezionare" i risultati per il pubblico.

 Collaborazione: per far bene il loro lavoro, gli scienziati dei dati, devono impiegare tempo e attenzione in entrambe le comunità tecniche e dirigenziali. Devono essere considerati come partner e consulenti di valore.

 Leadership: a causa della natura complessa e a tempo non programmato del loro lavoro, i data scientist sono spesso chiamati a guidare squadre di professionisti qualificati verso uno scopo o obiettivo comune.

(38)

38

 Creatività: per loro stessa natura, il successo dei data scientist dipende dall'analisi orientata all'innovazione seguendo un percorso poco, o per niente, chiaro. Inoltre devono essere creativi nella ricerca dei dati, nel testare i vari modelli e nell'utilizzare certe tecniche analitiche.

 Disciplina: come la creatività è cruciale, così lo sono anche approcci e metodi scientifici adeguati. Ciò garantirà la validità degli insights e delle conclusioni.

 Passione: può sembrare una qualità insolita, ma le organizzazione al momento dell'assunzione dovrebbero cercare figure con un'insaziabile curiosità analitica, che adorino risolvere problemi apparentemente insormontabili e che siano quasi ossessionati dall'idea di trovare vie sempre più originali per accelerare i risultati di business.

L'analisi dei Big Data può avere un impatto incredibile nel successo di ogni impresa, oppure può diventare un'importante voce di spesa. Ma, come abbiamo visto, nessuna di queste chiavi di successo hanno a che fare con la tecnologia. Quindi è bene che le università in impegnino a formare i futuri data scientist e che le aziende scelgano tra questi le figure migliori.

2.4 Criticità e rischi derivanti dai Big Data

I Big Data non offrono solo grandi opportunità e vantaggi, esistono infatti varie criticità che rischiano di compromettere i benefici promessi.

Andiamo ad osservare alcuni aspetti per valutarne i rischi derivanti qualora non venissero gestiti nel modo più opportuno.

(39)

39

2.4.1 La qualità

Il primo aspetto da analizzare è la qualità dei Big Data.

Vediamo di definire inizialmente che cosa intendiamo per qualità dei dati; definizioni valide a livello generale.

La qualità dei dati è il risultato di un insieme di caratteristiche, che elencheremo di seguito (Rezzani, 2013).

 Completezza: la presenza di tutte le informazioni necessarie per descrivere una transazione, un evento, un'entità. Ad esempio, sarà un problema la mancanza di valori nei campi anagrafici, rendendo l'anagrafica incompleta.

 Consistenza: ovvero, l'assenza di contraddizioni nei dati, ed è legata al concetto di equivalenza dei dati. Per esempio in una banca, le rilevazioni dei saldi e dei movimenti saranno consistenti se la somma del saldo di fine mese precedente, di un conto corrente con i movimenti attivi e passivi, sarà uguale al saldo di fine mese corrente.

 Accuratezza: consiste nella conformità dei valori reali, ovvero la correttezza dei valori stessi.

 Assenza di duplicazione: campi, valori o tabelle devono essere presenti una volta sola, evitando ripetizioni nello stesso sistema o in sistemi diversi.

 Integrità: database relazionali garantiscono, attraverso strumenti particolari, che i dati rispettino alcuni vincoli. Per esempio che in una colonna vi siano soltanto dati dello stesso tipo (numerici, alfabetici, dati e così via); oppure che non esistano due righe uguali all'interno di una tabella.

Spesso in azienda la qualità complessiva dei dati non è elevata a causa di (Rezzani, 2013):

(40)

40

 errori nelle operazioni di data entry manuale;  errori nei software di gestione dei dati;  errori di progettazione delle basi dati.

La qualità dei dati deve essere controllata e verifica costantemente, e tale processo di data quality deve rilasciare come output quali sono i dati con i livelli di completezza, consistenza, accuratezza e integrità ritenuti accessibili e quelli da migliorare.

Se basiamo le nostre analisi, e conseguentemente, i nostri processi decisionali, su dati di scarsa qualità, i risultati saranno inevitabilmente di scarsa qualità: rischiando di prendere decisioni inappropriate o addirittura del tutto errare.

Trasferendo questi concetti nel campo dei Big Data, possiamo distinguere tre tipi di dati, ciascuno con differenti problematiche qualitative (Rezzani, 2013).

 Dati proveniente da sistemi operazionali: si tratta del caso di sistemi legati, ad esempio, al mondo della finanza o alla grande distribuzione, dove si producono una vasta quantità di dati. I problemi di qualità riscontrabili in questi sistemi sono conosciuti e quindi sarà relativamente semplice adoperare i vari strumenti per la "pulizia" e il controllo dei dati. Strumenti utilizzabili anche quando il volume dei dati è molto elevato.

 Dati provenienti da sensori, "RFID" e strumenti scientifici: questi tipi di dati vengono generati automaticamente da macchine; perciò, è ovvio che non sono soggetti a errori di immissione. Tuttavia, possono verificarsi problemi di qualità dei dati quando si riscontrano difetti nei sensori o negli strumenti di misurazione. Da ricordare che dati di questo genere sono semplici serie storiche e quindi spesso devono essere integrati con dati provenienti da altri sistemi al fine di avviare delle analisi.

 Dati provenienti dal Web: si tratta del caso dei dati provenienti dai social network, che si presentano in forma semi-strutturata. Esclusi i metadati,

(41)

41

che in genere costituiscono la porzione strutturata e quindi più affidabili e completi, il testo invece, è spesso soggetto a errori e imprecisioni. Basti pensare, per esempio, ai post, ai commenti o ai tweet, contenenti errori di battitura, errori grammaticali, ma anche abbreviazioni e modi di dire. Altre complicazioni riguardano la categorizzazione delle informazioni; infatti spesso possiamo incontrare parole che possiedono significati diversi rendendo difficile l'interpretazione. Ad esempio, la parola "cucina" può riferirsi sia all'arte culinaria ma anche ai mobili e gli elettrodomestici presenti nell'abitazione.

Mentre, alle volte il lavoro è reso più semplice quando i dati sono "etichettati" con dei cosiddetti tag, poiché da essi è possibile ricavare l'ambito di pertinenza. Tuttavia bisogna fare attenzione a non farci condizionare dall'assoluta ricerca di qualità, perché spesso, soprattutto nei dati provenienti dal Web, queste analisi non è detto che richiedano l'esattezza e la precisione che normalmente si osservano. Infatti, l'analisi del sentiment relativa ad un'azienda, a un prodotto o ad un personaggio politico non sarò sicuramente inficiata da qualche valore anomalo o da qualche commento e post non pertinente. Anzi bisogna precisare che in questo tipo di analisi, l'applicazione di regole di pulizia dei dati potrebbe eliminare informazioni ed elementi potenzialmente utili (Rezzani, 2013).

2.4.2 La privacy

Quando iniziamo ad addentrarci nel mondo dei Big Data, e quindi delle grandi quantità di dati su comportamenti e abitudini delle persone, è doveroso non trascurare i problemi legati alla privacy, alla proprietà dei dati e, conseguentemente, all'autorizzazione del loro utilizzo da parte di terzi. È stato già affrontato brevemente questo concetto, quando si è parlato del caso di Target e l’erronea se pur efficace operazione strategica.

(42)

42

Per quanto riguarda lo user-genereted content proveniente dal Web, il fatto che offra moltissime informazione e che, inoltre, siano accessibili a tutti, non significa che sia altrettanto etico utilizzarle (Rezzani, 2013).

Dai social network è possibile estrarre informazioni sensibili come orientamento politico o religioso degli utenti che potrebbero essere utilizzati in modo inappropriato e discriminatorio. Un esempio molto chiaro è la localizzazione geografica degli individui e dei loro spostamenti. Come abbiamo discusso in precedenza, è praticamente impossibile non lasciare tracce digitali del proprio passaggio: tramite l'utilizzo degli smartphone, dotati di GPS e sistemi elettronici di pagamento, le aziende riescono a monitorare gli spostamenti di una persona (Rezzani, 2013).

Perciò le informazioni ci sono, sono molte e spesso relativamente facili da acquisire, adesso il fatto sta nel saperle utilizzare nel modo più opportuno e nel rispetto degli interessati. Se mal gestite queste informazioni possono recare danni sia agli utenti sia alle aziende che li hanno elaborati.

Osserviamo adesso più nel dettaglio quali sono i sistemi che consentono la memorizzazione e l'analisi di queste grandi quantità di dati.

2.5 Sistemi per la memorizzazione e la gestione dei Big Data

I Big Data non sono solo dei massicci database. I database tradizionali presentavano dati strutturati in formati tabellari. I dati strutturati possono essere facilmente processati con software come Oracle, DB2 o SQL. I Big Data, invece, sono spesso in forma non strutturata. Sono generati sia da esseri umani che da macchine (Rezzani, 2013).

(43)

43

Esempi, di user-genereted data sono i file in Microsoft Word, i messaggi di testo, i post su Facebook e Twitter. Mentre quelli generati dalle macchine possono essere le localizzazioni, informazioni provenienti dai telefoni cellulari, sensori sulle automobili, immagini satellitari o video clip (Rezzani, 2013)..

Perciò, i tradizionali sistemi di gestione dei database non sono efficienti né efficaci per maneggiare i Big Data a causa della loro natura non strutturata e l'elevato volume.

Esistono nuovi sistemi molto più calzati per organizzare e gestire informazioni di quel genere, tra i più conosciuti ci sono Apache Hadoop e NoSQL (Rezzani, 2013).

2.5.1 Apache Hadoop

Hadoop è una piattaforma in Open Source per la memorizzazione e l'elaborazione di grandi quantità di dati. A differenza dei sistemi tradizionali dove i costi per lo stoccaggio si aggirano intorno alle decine di migliaia di dollari per terabyte, con le capacità in computing e storage che offre Hadoop il risparmio è impressionante: qua i costi sono intorno alle centinaia di dollari per

terabyte (Rezzani, 2013).

2.5.2 NoSQL

“Not only SQL” è il metodo più conosciuto per memorizzare i dati sui server di Hadoop, perché alcuni tipi di indagini sono più veloci da calcolare e più semplici da impostare piuttosto che usando i tradizionali SQL sui database relazionali. Tuttavia a differenza degli SQL non esistono database standard NoSQL, ma differenti, per i diversi tipi di problemi che dobbiamo affrontare. Tra i quali,

(44)

44

Cassandra, Hbase, Apache CouchDB, MongoDB, Dynamo e Neo4J (Rezzani, 2013).

Molte delle imprese di IT, Information Tecnology, come SAP, Microsoft, HP, IBM possiedono i loro strumenti per analizzare i Big Data (Rezzani, 2013).

2.5.3 Dati GIS

Anche i dati GIS (Geographic Information Sistem) fanno parte dell'universo dei

Big Data e sono spesso utilizzati per arricchire l'analisi. Permettono di aumentare

notevolmente l'efficacia degli strumenti di analisi.

Analizzando i dati geografici siamo in grado di far emergere nuovi modelli basati sulla dislocazione nel territorio (Rezzani, 2013).

L'origine geografica può essere un'informazione estremamente utile anche per geolocalizzare i "post" e commenti sui social network.

Un caso molto conosciuto di integrazione tra social network e dati GIS lo troviamo negli Stati Uniti, sono stati elaborati per osservare il fenomeno dell'uragano Irene. Analizzando i "post" in tempo reale sono riusciti a tracciare questa minaccia (Rezzani, 2013).

L’analisi dei Big Data si può far ricadere nell’ambito delle ricerche di marketing perché consente di ottenere informazioni su clienti. Tuttavia a differenza delle ricerche di marketing più tradizionali riescono ad ottenere risultati senza un’interazione personale con gli individui (Rezzani, 2013).

Nelle ricerche di marketing di tipo quantitativo è necessario predisporre un questionario e interagire direttamente o indirettamente con gli eventuali intervistati.

(45)

45

Le potenzialità sono davvero infinite, e solo l'impegno, il lavoro e l'innovazione continua possono creare opportunità sempre nuove, l'unico limite è l'immaginazione.

(46)

(47)

47

CAPITOLO 3

IMPORTANZA PER LE RICERCHE DI MARKETING

______________________________________________________________________

"La ricerca di marketing è il processo che consiste nella identificazione, raccolta, analisi e presentazione di informazioni utili a risolvere uno specifico problema di marketing"

Queste ricerche consentono di ottenere informazioni tramite l'interazione con degli individui, che essi siano clienti o non.

Ci troviamo nella prima fase del processo di marketing. Tale processo si suddivide in 3 fasi:

 fase analitica, incaricata di reperire le informazioni;

 fase decisionale, che si articolare nelle due funzioni del marketing strategico e marketing operativo, si occupa di prendere le decisione basate sulle informazioni raccolte;

 e si "conclude" con la fase di controllo, atta a verificare il raggiungimento degli obiettivi.

Una volta scelto l'oggetto dell'analisi tra il macro-ambiente, il micro-ambiente, il comportamento del consumatore o altro, la fase analitica prevede l'utilizzo degli strumenti per l'analisi al fine di raccogliere le necessarie informazioni.

Le ricerche quantitative e le ricerche qualitative sono i due strumenti fondamentali per ottenere informazioni fruttuose per il decision maker.

I Marketing Manager hanno bisogno di informazioni per fare le scelte più idonee al raggiungimento del successo aziendale, perche come sosteneva Peter Druker:

"Successful companies know and understand the customer so well that

the product conceived, priced, promoted and distributed by the company is ready to be bought as soon as it's available".