La personalizzazione dell'offerta tramite i big data: il caso Netflix

(1)

Corso di laurea in Economia e Management LM-77

Tesi di laurea

La personalizzazione dell’offerta tramite i big data: il caso Netflix

Candidato: Relatore:

(2)

Ai miei nonni, alla mia famiglia e a Matilde. A chiunque sa di non sapere.

Alla capacità di affrontare le avversità senza mai dimenticarsi come sorridere.

(3)

Indice

Introduzione……… 6

1. Big data………. 9

1.1 Cosa sono

1.2 I big data come nuova fonte di valore

1.3 Fasi e modelli di analisi dei dati

1.4 Benefici e rischi dietro ai big data

2. Netflix……… 35

2.1 Storia di un successo

2.2 Netflix in Italia

2.3 Analisi di mercato

2.4 Netflix e i suoi competitor

2.5 La sfida delle piattaforme

3. I big data al centro della personalizzazione dell’offerta

Netflix……… 67

3.1 L’importanza di un consiglio

3.2 Big data e Netflix Originals

3.3 I tre livelli di analisi dei dati

3.4 La strategia Netflix in un mercato a coda lunga

3.5 Una rivoluzione chiamata Netflix

(4)

3.7 I numeri di Netflix

Conclusioni………. 95

Ringraziamenti………. 98

Bibliografia, sitografia e indice delle figure……… 100

(5)

“La terra era la materia prima dell’era dell’agricoltura. Il ferro era la materia prima dell’era industriale. I dati sono la materia prima dell’era dell’informazione” (Ross A.).

(6)

Introduzione

La moderna società è stata plasmata dalla possibilità offerta da internet di tener traccia delle azioni di tutti i suoi cittadini: ogni qualvolta essi acquistano online, effettuano delle operazioni finanziarie o più semplicemente interagiscono sui social media, generano una impressionante quantità di informazioni - denominata big data - che permette alle imprese di conoscere dettagliatamente i loro gusti, preferenze e opinioni. Per l’impresa, i big data significano dunque poter istaurare con un cliente una relazione più profonda, capace di accedere ai suoi sentimenti e dalla quale definire un’offerta sempre più personalizzata sulle sue esigenze.

Al centro della società attuale vi è quindi l’utente con i suoi dati, i quali vengono costantemente raccolti, studiati e interpretati con l’obiettivo di massimizzare il suo grado di soddisfazione. Il valore dei big data emerge proprio qui: essendo lo specchio fedele di una persona, permettono di articolare proposte così vicine con un utente che questo finisce per identificarcisi, aprendo così ad una sua fidelizzazione verso l’impresa stessa.

Il focus sui dati trova concreta applicazione nei sistemi di ranking di Google - i quali permettono ad un utente di trovare l’argomento cercato già con le prime lettere digitate - o nei sistemi di raccomandazione di Netflix, Amazon, Facebook che invece, suggeriscono ad un individuo un articolo che potrebbe interessargli sulla base degli acquisti precedenti o a seconda del grado di similarità con gli altri abbonati; tutti strumenti questi che riflettono la personalità di una persona, riuscendo così a guidarla all’interno del mare magnum di contenuti che è il mondo online.

L’impatto dei big data è tale da rivoluzionare l’economia globale: sono sempre più numerose le aziende che impostano (o adattano) il loro business sui dati, così come sempre più ingenti sono gli investimenti in data mining; attualmente soltanto le imprese abili nell’analisi e nell’interpretazione delle informazioni hanno successo e si

(7)

garantiscono un futuro nella nuova economia, definibile come l’economia dei dati.

La seguente tesi si pone come obiettivo, quello di analizzare e approfondire le sconfinate possibilità di personalizzazione e fidelizzazione che si celano dietro ai dati e il valore che da essi può essere ricavato. Verrà fornita anche una panoramica dei rischi caratterizzanti la nuova impostazione orientata ai dati - in particolare quelli riguardanti il diritto alla privacy - e come la normativa si è adeguata ad essa.

Il fulcro dello studio verterà su come Netflix utilizza i big data con lo scopo di accedere al sentiment dei suoi abbonati e offrire loro una nuova esperienza, la quale risulterà sempre più intima e personale a mano a mano che l’utente usufruirà dei servizi proposti.

Il business che l’azienda di Los Gatos ha saputo diligentemente costruire intorno all’utente e ai suoi dati comporta la possibilità di attuare nuove e più potenti politiche di personalizzazione e fidelizzazione; di fatto, una simile strategia costituisce l’applicazione concreta del potenziale dei dati ed è alla base del successo internazionale che l’azienda ha avuto, arrivando a ricoprire velocemente il ruolo di leader nel mercato dello streaming online. Settore, quest’ultimo, che sta attraversando una vera e propria epoca d’oro, tanto da porre in crisi il tradizionale intrattenimento televisivo in cui la programmazione è rigidamente prestabilita dal palinsesto. La maggior comodità offerta da Netflix, unita ad una proposta più coinvolgente e intima, è la causa dei profondi cambiamenti in atto nei gusti e nelle abitudini del pubblico e del suo progressivo allontanamento dalla televisione.

Simili risultati spiegano la forte concorrenza che Netflix deve fronteggiare pur di proteggere la posizione conquistata e che la spinge ad effettuare un continuo processo di affinamento e miglioramento della propria struttura, alla ricerca di una maggiore flessibilità ed

(8)

In definitiva, la seguente analisi si propone l’intento di aprire una ulteriore finestra di discussione e confronto sul vasto e ancora in parte inesplorato territorio dei big data e sul loro utilizzo nel perseguimento del successo imprenditoriale.

(9)

1. Big data

L’avvento di internet ha costituito il primo passo verso una nuova società, quella attuale, caratterizzata da nuovi modi di comunicazione e di trasmissione in tempo reale e virale di informazioni. Quest’ultime assumono carattere sempre più personale tanto da diventare il fulcro dell’attuale contesto socioeconomico, poiché una loro approfondita e accurata analisi nasconde un vantaggio competitivo rilevante: partendo dai dati che ogni utente genera nelle proprie attività online, è possibile giungere alla definizione di modelli per lo studio delle abitudini di consumo dei clienti, delle loro opinioni circa i prodotti, l’impresa stessa e i suoi competitor. Lo scopo ultimo di questo processo consiste nell’attuazione di politiche di fidelizzazione e personalizzazione nei confronti dei clienti già acquisiti e di mirate politiche di marketing (pubblicità specifica, offerte speciali etc.) verso i potenziali nuovi clienti (Rezzani).

Lo studio dei dati attraverso precisi modelli e metodi rimarca l’enorme valore aggiunto insito in essi, ma farlo emergere è un processo tutt’altro che semplice: dal primo utilizzo dei dati si riesce a estrarre solo parte di tale valore, la restante verrà portata a galla e sfruttata solo con applicazioni reiterate; ecco perché il bisogno di integrare continuamente la base dati a disposizione, permettendo un suo ampliamento in termini di dimensioni e profondità (più dati significa più conoscenza).

1.1 Cosa sono

I big data possono essere definiti come quel patrimonio informativo caratterizzato da velocità, volume e variabilità elevati e che richiede innovative forme di gestione e analisi finalizzate a ottenere una migliore comprensione nei processi decisionali.

In origine la teoria descriveva il fenomeno dei big data attraverso tre fattori (i primi tre), l’intensificarsi degli studi in tale ambito ne ha

(10)

individuati altrettanti, tanto che attualmente si possono identificare sei peculiarità:

La prima peculiarità (Volume) è senz’ombra di dubbio la più intuitiva infatti sta a indicare la mastodontica quantità che caratterizza i big data. Questo aspetto è sicuramente una conseguenza delle potenzialità di internet, visto che è il luogo dove ormai si svolgono la maggior parte delle nostre azioni giornaliere. Domo, società americana il cui business è focalizzato proprio sui dati, annualmente prova a dare una rappresentazione grafica di quanto detto in precedenza; questo è il risultato:

Valore

Velocità Varietà Veridicità Variabilità Viralità Volume

(11)

Figura 1.1

L’insieme di operazioni online genera quotidianamente dati per un valore di circa 3 quintillon di byte (un numero a 18 cifre, 3 zettabyte→ art 25), in un minuto infatti vengono prodotti:

- 100.000 tweet in tutto il mondo - 300 ore di video caricate su Youtube

- 35.000 like facebook a siti ufficiali di organizzazioni - 160.000.000 di e-mail inviate

Sono numeri questi destinati a crescere: recenti studi (IDC - Internation Data Corporation) stimano che nel 2020 l’universo digitale raggiungerà dimensioni vicino ai 40 zettabyte.

Ovviamente l’impresa non è interessata a tale volume intero, anche perché non riuscirebbe a gestirlo, ma ad una sua porzione, quantificabile comunque in terabyte e quindi ancora molto vasta. Questo enorme ammontare di dati consente alle aziende di conoscere ogni aspetto della vita della propria clientela: età, sesso, residenza, composizione familiare, gusti e preferenze commerciali, dati biometrici e finanziari.

La quantificazione della mole di dati a cui un’impresa è, o potrebbe essere, interessata permette di evidenziare come l’immagazzinamento dei big data sia sempre una delle fasi più delicate nel processo di analisi. Ciò è amplificato dal fatto che molti dati hanno natura temporanea, vedi ad esempio (libro big data):

- dati generati da sensori, - log di web server,

- documenti e pagine web,

quindi devono essere immediatamente salvati a prescindere dal loro immediato utilizzo o no. Ovviamente tale caratteristica comporta un ulteriore incremento del volume dei big data.

Attualmente la gestione dei big data avviene attraverso strumenti, proprietari o open source, che permettono la capacità di processo di

(12)

grandi quantità di dati a costi sostenibili. Il più diffuso, soprattutto nelle grandi aziende come Google, Facebook e Netflix, è Apache Hadoop. L’immagazzinamento tramite un tradizionale database relazionale (RBMS, Relational Database Management System) può essere possibile, a patto di grossi investimenti sia per dotarsi degli adeguati dispositivi di archiviazione (storage), sia per raggiungere la necessaria capacità di calcolo. Tutto questo però potrebbe non bastare per raggiungere le performance desiderate e a giustificare gli investimenti sostenuti. Ecco perché sono sempre di più le imprese che ricorrono a software specifici.

La velocità è inerente a due aspetti dei big data: 1. frequenza con cui i dati vengono generati

2. velocità con la quale i programmi di gestione permettono di accedere ai dati

Per l’impresa diventa cruciale sfruttare, il più rapidamente possibile, questi dati traendo da essi informazioni privilegiate sui clienti, in modo da comprendere le loro esigenze, i loro gusti e quindi strutturare un’offerta sempre più personalizzata.

La velocità di analisi diventa imprescindibile dal momento in cui l’azienda si troverà di fronte a clienti sempre meno fidelizzabili: nel caso in cui su Amazon non trovassimo il prodotto desiderato, o su Netflix una determinata serie tv, ci rivolgeremmo immediatamente a altre piattaforme. L’impresa si trova cioè nella situazione in cui non solo deve conoscere i gusti e le esigenze dei propri clienti, ma anche come questi si evolvono nel tempo così da strutturare un’offerta continuamente allettante.

Un’analisi real-time diventa fulcro del vantaggio competitivo imprenditoriale dal momento che la maggior parte dei dati sono soggetti a rapida obsolescenza: una trattazione tardiva di essi non solo comporta la non realizzazione del vantaggio competitivo, ma anche il sostenimento inutile di costi rilevanti.

(13)

La varietà sottintende l’abitudine dei big-data a presentarsi in formati diversi e comprende numerosi aspetti che influenzano il valore complessivo creato. Una prima specificazione di varietà porta a distinguere tre classi di dati:

1. dati strutturati se rappresentabili tramite un’apposita tabella. Hanno lunghezza variabile e vengono raccolti in un tradizionale database relazionale. Tale tipologia di dati era la preponderante fino al momento in cui le imprese hanno intuito il potenziale vantaggio competitivo ottenibile da internet, tant’è che attualmente rappresenta solo il 20% di tutti i dati esistenti. 2. dati non strutturati se conservati senza preciso schema e

composti da metadati, ovvero informazioni subordinate che approfondiscono nel dettaglio e quindi completano la descrizione di un qualsiasi oggetto presente sul web (da semplici contenuti fino a intere pagine web). La memorizzazione, l’organizzazione e l’accesso a questi dati avviene ricorrendo a particolari tecniche operative. Rientrano in questa categoria:

- file audio - video

- linguaggio umano

3. dati semi-destrutturati se presentano caratteristiche di entrambe le classi precedenti. Sono infatti dati non analizzabili sfruttando i classici database tradizionali, ma che presentano, nonostante ciò, marcatori e/o etichette utili per l’individuazione e la separazione degli elementi semantici. Il tipico esempio ci proviene dai dati in XML.

Dati non strutturati e semi-strutturati rappresentano insieme l’80% dei dati esistenti.

Altro fattore di varietà si determina a seconda da chi o che cosa i dati sono prodotti, sotto questo punto di vista si è soliti distinguere tra dati:

(14)

- computer or machine generated cioè generati automaticamente dalle macchine, come avviene nel caso di sensori, log dei web server, log dei router

- human generated se scaturiti dall’interazione con gli utenti La mole di dati fin qui definita può essere ulteriormente estesa inserendovi i dati generati dai processi di automazione (immagini satellitari o dei sistemi di sicurezza etc.) e quelli derivanti dalle attività relazionali online. Quest’ultimi sono composti dai social media data, ovvero le informazioni generate al momento di utilizzo di un social network e dai mobile data creati tramite i mobile device.

L’eterogeneità dei dati rende estremamente difficile la loro analisi, in particolare i più ostici da questo punto di vista risultano i social media data.

È da intendersi come veridicità dei dati il loro livello di accuratezza e attendibilità. Come già visto i dati sono conoscenza, la quale può presentarsi in forma standardizzata o implicita: più un dato risulta attendibile, accurato e specifico, tanto maggiore sarà l’interesse per l’impresa a segretare le sue fonti, sottoponendolo a diritti di proprietà intellettuale, tanto maggiore sarà il potenziale valore ottenibile da esso. Un dato diventa standardizzato nel momento in cui viene socializzato, da qui in poi il suo valore risulterà decrescente fino a completa obsolescenza e sostituzione con altri dati.

Per variabilità si fa riferimento a come un dato viene contestualizzato. A seconda infatti del contesto in cui i dati vengono raccolti può variare l’interpretazione di essi e quindi le indicazioni operative da trarre. Sul risultato finale incide ovviamente anche il momento dell’interpretazione, generalmente si privilegia un’interpretazione in tempo reale dei dati per le stesse motivazioni viste nella velocità. Per una corretta interpretazione serve quindi attribuire ai dati una semantica in funzione di quelli che sono i nostri obiettivi.

La viralità infine è la caratteristica inerente al meccanismo e alla velocità di diffusione dei dati. Siamo di fronte a un concetto resosi

(15)

estremamente attuale con lo sviluppo di internet: oggi infatti una notizia può essere diffusa a livello globale in pochi secondi attraverso siti internet e social network. Ne consegue l’opportunità per un’impresa di individuare legami tra persone fisicamente lontane, ma con gusti, esigenze ed esperienze simili e quindi soddisfabili con lo stesso prodotto o gamma di prodotti.

È proprio con riferimento a questo aspetto che Netflix studia i dati raccolti dai suoi abbonati alla ricerca di community dedicate a una determinata serie tv o film, in modo da ricevere importanti feedback utili nella definizione delle stagioni successive o per le nuove programmazioni.

Si rileva un trade-off nel rapporto di interdipendenza che contraddistingue i parametri appena descritti: una elevata varietà comporta si una maggiore accuratezza, ma anche un minor volume; così come una maggior velocità di elaborazione determina una più precoce obsolescenza.

Tale aspetto rappresenta un’ulteriore complicazione nel processo di estrazione di valore dai dati, il quale infatti necessita, come sarà approfondito nel successivo paragrafo, di una specifica funzione dedicata.

1.2 I big data come nuova fonte di valore

La Business Intelligence identifica la funzione aziendale dedita alla raccolta e all’analisi dei dati, all’estrazione di valore e all’ottenimento di indicazioni operative da essi. In altre parole, rappresenta l’insieme di modelli, metodologie, strumenti e persone che permettono una raccolta regolare e organizzata dei dati e, tramite analisi, aggregazioni, correlazioni la loro trasformazione in informazioni che agiranno poi da supporto alle decisioni aziendali strategiche. Da qui è possibile identificare un vero e proprio ciclo di vita dei big data articolato in:

(16)

3. integrazione 4. analisi

5. azione

Se per l’immagazzinamento dei dati strutturati è possibile l’utilizzo dei tradizionali database relazionali, lo stesso non vale per quelli destrutturati o semi-destrutturati, per i quali è invece necessario il ricorso a nuove tecnologie (NoSQL).

La creazione di valore si verifica nelle tre fasi centrali, quelle in cui i dati vengono preparati, con modifiche al loro formato originale e integrandoli a informazioni aggiuntive, e analizzati.

È in questa occasione che l’impresa riesce a strutturare un processo di divisione dei dati in funzione del loro utilizzo commerciale, nel quale i suoi clienti agiscono da prosumer visto che è da essi che derivano le stesse materie prime.

Si viene quindi a creare un sistema in cui le istanze di vita di ciascuno di noi sono catturate proprio dalle relazioni umane, le quali vengono studiate tramite processi di machine learning che hanno alla base gli algoritmi.

Gli algoritmi, ovvero metodi di calcolo per la soluzione di determinati problemi, dominano la società attuale in quanto rappresentano l’unico strumento di orientamento nella vastità di dati presenti nel mondo online; ovviamente più sono i dati disponibili, maggiore sarà l’efficienza di un algoritmo. Conseguenza diretta di ciò è la loro capacità di influenzare i gusti e le scelte di consumo degli utenti.

Amazon già nell’attimo successivo l’acquisto o la ricerca è in grado di proporre ai propri clienti altri prodotti che potrebbero interessare, lo stesso dicasi di Netflix che suggerisce nuove serie tv o film al termine di quelle in corso o di Facebook che avanza post e articoli sulla base dei contenuti in precedenza letti, commentati o condivisi.

Per Amazon, Netflix o Facebook tale potere deriva dagli algoritmi: essi partendo dai big data (input) permettono una profilatura più dinamica

(17)

e approfondita degli utenti generando così una selezione personalizzata di contenuti.

Tali algoritmi sono definiti di collaborative filtering proprio perché attuano un’attività di filtraggio tra la mole di dati prodotta e gli utenti, permettendo la strutturazione e l’aggiornamento del loro profilo (libro personalizzazione offerta). Questo filtro è basato sulla logica umana dal momento che si avvale di esperienze, opinioni, consigli provenienti da coloro ritrovatosi in situazioni simili. Vengono perseguiti due obiettivi generali:

- previsione dei contenuti più vicini alle preferenze di ciascun utente

- previsioni delle preferenze che l’utente può assegnare a un certo contenuto

Dal punto di vista architetturale gli algoritmi di collaborative filtering prevedono uno o più moduli di osservazione per l’acquisizione di informazioni, che può essere:

- esplicita se basata su rating espressamente dichiarati,

- implicita se caratterizzata dalla codifica e l’organizzazione del clickthrough (tasso tramite cui viene misurata l’efficienza di una campagna pubblicitaria).

Le informazioni qui raccolte vengono arricchite attraverso i moduli di estensione, i quali partendo dalle valutazioni rilasciate da ciascun utente evidenziano eventuali correlazioni con altri profili; a ciascuna famiglia poi il modulo di selezione avanzerà un’offerta specifica basata sulle caratteristiche di utenti rappresentativi (gusti e opinioni di essi vengono condivisi dagli appartenenti alla stessa famiglia).

I punti di forza dei sistemi di collaborative filtering possono essere così rappresentati:

- prestazioni crescenti nel tempo dal momento che a disposizione trovano un seti informativo via via più ampio, - identificazione di nuove aree di interesse per l’utente e quindi

(18)

- tutela della privacy dal momento che si avvalgono soltanto delle previsioni, opinioni rilasciate dai clienti e non intaccano i loro dati personali,

i principali svantaggi invece riguardano:

- le valutazioni espresse risultano efficienti solo quando il set informativo è adeguatamente ampio

- perdita di efficienza in caso di un numero troppo elevato di item da raccomandare

- la presenza di free rider, ovvero soggetti che forniscono solo le informazioni necessarie per avere un’adeguata offerta e che successivamente non alimentano il sistema

1.3 Fasi e modelli di analisi dei dati

Con riferimento alla classica distinzione dell’analisi dei dati in multivariata e multidimensionale, per lo studio dei big data risulta più idonea la seconda considerando la sua maggior efficacia nel lavorare con fenomeni complessi, sulla cui distribuzione è difficile avanzare delle assunzioni a priori.

I fenomeni oggetti di studio dell’analisi multidimensionale si caratterizzano infatti per dati multidimensionali, ossia spiegati attraverso numerosi caratteri statistici tra loro concatenati e rappresentativi di più aspetti.

L’analisi multidimensionale si sviluppa generalmente tramite sette fasi: 1. documentazione statistica di partenza

2. codifica a priori 3. codifica a posteriori

4. scelta della tabella dei dati o codifiche a posteriori dell’intera matrice dei dati

5. scelta della metrica

6. scelta del metodo e del software 7. output dei risultati

(19)

La documentazione statistica di partenza comprende quell’insieme di operazioni preliminari imprescindibili per il proseguo dell’analisi, ossia la definizione: della popolazione P, delle N unità statistiche (numero finito per indagini demoscopiche, infinito per popolazioni teoriche), delle K variabili, del metodo di raccolta e del supporto dei dati.

La codifica a priori successivamente consiste nella trasposizione dei dati grezzi raccolti nella fase precedente nella seguente matrice dei dati iniziali: N/K K1 K2 … Kj … Kk 1 a11 a12 … a1j … a1k 2 a21 a22 … a2j … a2k … … … … i ai1 ai2 … aij … aik … … … … N aN1 aN2 … anj … aNk con: N numero righe, K numero colonne, i  N individuo appartenente a N,

Kj  K carattere statistico appartenente a K,

ai,j generico elemento relativo all’unità i -esima e al carattere j-esimo.

La scelta della matrice dei dati iniziali può ricadere su varie forme, le più frequenti sono:

- Matrice di dati qualitativi (n x k), se composta da codici alfanumerici aij = [aij = codici;]

- Matrice di intensità (n x k), se composta da numeri reali  aij =

[aij =  ;]

- Matrice delle preferenze (k x n), se composta da ranghi o punteggi - Matrice di dati testuali, se composta da parole, frasi aij = [aij = dato

(20)

Ovviamente non vi è una scelta obbligata purché risulti pertinente con il problema in studio, omogenea nei dati ed esaustiva nei confronti di N e K.

Le variabili della matrice dei dati si definiscono attive qualora inerenti all’oggetto indagato, passive (o supplementari o illustrative) se invece permettono di evidenziare relazioni e/o vicinanze con le variabili attive. In quest’ultima categoria rientrano tutte le informazioni circa le caratteristiche socio/demografiche dell’intervistato.

La codifica a posteriori si rende necessaria dal momento che difficilmente le varie metodologie di analisi possono essere direttamente applicate alla matrice dei dati iniziali, la quale di conseguenza differisce dalla tabella dei dati. Quest’ultima è infatti ottenuta solo al termine di opportune trasformazioni, le c.d. codifiche a posteriori, che possono riguardare singole o tutte le variabili della matrice dei dati iniziali (codifiche di tipo  e ) o la stessa matrice (4° fase).

Le codifiche di tipo  sono trasformazioni che apportano un cambiamento strutturale della variabile considerata, le più frequenti risultano:

- divisione in classi di una variabile cardinale considerandola poi una categoriale, così da descriverla attraverso distribuzioni di frequenza più significative dei singoli valori,

- trasformazione per ranghi, ovvero sostituzione del valore della variabile cardinale con il rango dell’unità nel collettivo in esame, con lo scopo di omogeneizzare variabili espresse in diverse unità di misura.

Le codifiche di tipo  si configurano come trasformazioni che non cambiano la struttura della variabile, ne sono un esempio:

- trasformazione delle variabili cardinali in variabili scarti dalla media, cioè la matrice dei dati originari è trasformata in matrice degli scarti centrati o dalla media

(21)

- trasformazione delle variabili cardinali in variabili standardizzate. Tale processo determina, sull’intera matrice dei dati una riduzione della variabilità e, di conseguenza, una variazione della distanza tra i punti unità. Il ricorso a questa tecnica avviene in caso di dati espressi in diverse unità di misura o dei quali è necessario ridurne l’intensità o la variabilità.

- cambiamento di scala (0-100):

𝑦𝑖𝑗 =𝑥𝑖𝑗 − min⁡(𝑋𝑗) 𝑅𝑎𝑛𝑔𝑒⁡(𝑋𝑗) . 100

Il 𝑅𝑎𝑛𝑔𝑒⁡(𝑋𝑗) è dato dalla differenza tra il valore massimo e il valore minimo di una distribuzione rilevata; o rispetto ad un valore massimo o minimo:

𝑦𝑖𝑗 = 𝑥𝑖𝑗

max 𝑜 min(𝑋𝑗). 100

Nella quarta fase la matrice iniziale dei dati subisce trasformazioni in merito alla sua struttura, così da renderla omogenea rispetto le tecniche e la metrica di analisi prescelti. Anche in questo caso il tipo di tabella finale di dati ricavata varia a seconda dei metodi di analisi dei dati utilizzati: per un’analisi in componenti principali è conveniente determinare la matrice degli scarti dalla media Sn,k (Zn,k, se

standardizzati), per la cluster analysis la matrice di distanze o quelle individui x variabili.

Una volta costruita la tabella dei dati vi è la scelta della metrica, utile a misurare la rassomiglianza o dissomiglianza fra unità statistiche o il tipo di relazione esistente tra più variabili.

La dissomiglianza (Fraire M. e Rizzi A.) fra unità statistiche viene calcolata attraverso la distanza.

(22)

La distanza tra due punti corrispondenti ai vettori X, Y 𝜖 ℝ𝑃_{è la funzione}

d (X, Y) che rispetta le seguenti proprietà (Fraire M. e Rizzi A.): 1. non negatività: d (X, Y) > 0  x, y 𝜖 ℝ𝑃

2. identità: d (X, Y) = 0 se e solo se X = Y 3. simmetria: d (X, Y) = d (Y, X)

4. disuguaglianza triangolare: d (X, Y)  d (X, Z) + d (Y, Z)  X, Y, Z  ℝ𝑃

Una delle principali forme di distanza è quella euclidea: Siano date le seguenti unità statistiche:

ui = [xi1, xi2,⁡…,⁡xip],

uj = [xj1, xj2,⁡…,⁡xjp],

allora:

dij = √∑𝑝_𝑠=1(𝑥_𝑖𝑠− ⁡ 𝑥_𝑗𝑠)2

si definisce distanza euclidea.

La matrice DN,N contenente tutte le distanze esprime quindi la

rassomiglianza/dissomiglianza di tutte le coppie di unità statistiche rispetto i k caratteri considerati e risulta:

- quadrata (N X N),

- simmetrica: D (i, j) = D (j, i)  i,j,

- positiva: ciò deriva dalla prima proprietà della distanza, - nulla solo se D (i, i) = D (j, j) = 0  i,j,

- 𝑛(𝑛−1)

2 è il numero di distanze utili.

Nel caso invece di dati categoriali, ottenuti cioè non tramite misurazioni, ma piuttosto con classificazioni e confronti, risulta più opportuno ricorrere agli indici di similarità o dissimilarità.

L’indice di similarità su un insieme E è un’applicazione s di E x E in R+ dei

numeri non negativi tale che:

1. s (Xi, Xj) = s (Xj, Xi)  (i,j)  E x E (simmetria),

2. s (Xi, Xi) = s (Xj, Xj) = Max  s (Xi, Xi)  i  E x Ei  j,

e risulta simmetrico e massimo quando misura la similarità tra un’unità e se stessa:

(23)

L’indice di dissimilarità è un indice simmetrico che assume valore zero qualora le due unità coincidano.

3. d (Xi, Xj) = d (Xj, Xi)  (i,j)  E x E

4. d (Xi, Xi) = 0  i  E

La matrice SN,N contenente tutte le similarità sarà una matrice quadrata,

simmetrica e positiva.

Dissomiglianza e similarità sono dunque due metriche che mirano a fornire la vicinanza o la distanza tra due vettori riga.

Per le variabili cardinali, la metrica utilizzata corrisponde alle più tradizionali matrici varianza-covarianza o a quelle di correlazione: Entrambe risultano avere lo stesso rango della matrice dei dati, quadrate (k x k) e simmetriche:

 xj xj’ = xj’xj,

r (Xj Xj’) = r (Xj’ Xj)

Risulta fondamentale il calcolo dell’inerzia totale, che per la matrice di varianza-covarianza corrisponde alla sua traccia ossia alla somma delle varianze. Rientra tra gli indici di variabilità lineare, infatti quando:

X1  X2  X3 …  Xk

In questo caso siamo di fronte a una nuvola di punti omoschedastica (le unità statistiche hanno la stessa varianza).

Per la matrice di correlazione invece l’inerzia totale corrisponde alla sua traccia (somma degli elementi sulla diagonale principale):

tr (Rk,k) = Σ_𝑗=1𝑘 1 = k

Si fa notare che la forma della nuvola dei punti varia a seconda del valore del coefficiente di correlazione RXY.

Tale forma determina la schedasticità, ovvero la larghezza della banda del diagramma di dispersione: in caso di uniformità vi è omoschedasticità, altrimenti eteroschedasticità.

(24)

La scelta del metodo e del software, considerando la mole di dati disponibile oggi per un’impresa si rileva di estrema sensibilità poiché impatta sulla tempistica e la qualità dell’intero processo di analisi. Attualmente sono presenti numerosi software statistici per l’analisi dei dati: SAS, SPSS, SPAD, ma anche open source come R, Apache Hadoop e così via.

L’ultima fase prevede la produzione degli output derivanti dai dati analizzati e l’ottenimento di preziose indicazioni operative.

Arrivati a questo punto l’impresa possiede tutte le conoscenze necessarie per profilare i propri clienti, evidenziare eventuali similarità e peculiarità nei loro comportamenti e quindi strutturare ad essi un’offerta specifica di creazione di valore.

L’analisi dei dati assolve funzioni diverse a seconda degli obiettivi perseguiti: in generale si parla di analisi descrittiva o diagnostica qualora si prefigga di spiegare il succedersi di determinati eventi passati che hanno avuto un impatto rilevante sull’equilibrio economico dell’impresa; analisi predittiva o prescrittiva laddove invece lo studio dei dati miri a prevedere e anticipare possibili scenari futuri.

L’analisi descrittiva e quella diagnostica sono da intendersi come fasi preliminari dove si procede alla raccolta, all’organizzazione e allo studio dei dati per creare conoscenza su fenomeni passati e quindi sul percorso tenuto dall’impresa. L’obiettivo in questo caso consiste nell’approfondire specifici eventi ricercando tra essi, tramite l’applicazione di precisi modelli matematici come quello di regressione lineare, correlazioni o qualsiasi altra forma di relazione. Il passo successivo è rappresentato dalla rappresentazione delle informazioni in formati grafici (mappe di calore, tabelle di pivot) e nella loro categorizzazione, ovvero creazione di categorie contenenti dati tra di loro accumunati.

(25)

Queste due tipologie di analisi sono quindi alla base del processo di segmentazione del mercato che permette all’impresa di suddividere la clientela, in base alle loro esigenze, gusti e bisogni, in segmenti e dedicare a ciascuno di questi una personale offerta.

L’analisi predittiva implica l’estrapolazione di informazioni dai dati con lo scopo di tracciare previsioni su le possibili tendenze future, per far ciò il data set iniziale viene suddiviso tra: variabili esplicative o predittori, ovvero informazioni rilevanti per la spiegazione del fenomeno osservato e necessarie per il suo verificarsi e che di conseguenza permettono di creare delle aspettative sugli andamenti futuri e variabili risposta, quelle strettamente legate alle prime e inglobanti la previsione stessa.

Il risultato finale dell’analisi varia a seconda dell’approccio adottato: - l’approccio tradizionale prevede innanzitutto la definizione di un

modello statistico-matematico (regressione lineare etc.), il quale permette la creazione di aspettative e previsioni solo dopo essere stato aggiustato e sottoposto ai dati raccolti. La più forte critica qui rivolgibile verte sulla rigidità di questa impostazione dal momento che la scelta del modello è precedente ai dati e quindi si potrebbe verificare lo scenario di forte incongruenza tra teoria statistico-matematica e dati.

- l’approccio adattabile ai dati invece parte dalla raccolta e l’organizzazione dei dati e l’individuazione fra essi delle variabili esplicative e di quelle di risposta; solo a questo punto viene scelto il modello matematico. Il tipico esempio di adattamento ai dati deriva dal machine learning, dove gli algoritmi sono chiamati ad analizzare milioni di dati, ricercando ogni possibile relazione così da arrivare a una previsione. Alle macchine viene qui richiesto di imparare da sole a raggiungere gli obiettivi prefissati, quella che Arthur Samuel definisce “l’abilità di apprendere senza essere stati esplicitamente programmati”: mostrando a un

(26)

soltanto se quello in figura è il numero prescelto oppure no, esso sarà presto capace di identificare tale numero (Gambetta). Il limite più rilevante risiede nella qualità dei dati: più essi risultano di difficile interpretazione o di scarsa descrizione degli eventi, più la previsione finale sarà lacunosa. Il caso che più evidenzia l’importanza della qualità dei dati arriva da Tay, un software sviluppato da Microsoft e utilizzato da Twitter per raccogliere informazioni sugli utenti. Esso però si è trovato a interagire anche con milioni di troll razzisti, sessisti e omofobi che hanno portato Microsoft a chiuderlo dopo aver twittato  Hitler was right I hate the jews .

- l’approccio modello dipendente che può essere considerato intermedio ai due precedenti dal momento che vi è anche qui la specificazione iniziale di un modello statistico-matematico di riferimento, il quale viene poi continuamente migliorato tramite i dati raccolti.

A prescindere dall’approccio seguito è fondamentale l’aggiornamento del modello matematico per evitare la sua obsolescenza.

La regressione lineare rappresenta uno dei modelli matematici più utilizzati in ambito di analisi dei dati per la sua capacità di far emergere l’esistenza di una relazione tra due variabili, ovvero il rapporto causa-effetto che accomuna due fenomeni.

Oltre alla specificazione della relazione che accomuna due variabili x e y, il modello di regressione lineare permette anche la stima dei valori intermedi e di quelli oltre x e di eliminare gli errori accidentali.

La funzione di regressione è del tipo: y = β₀+ β₁x + 

con 𝛽_0⁡ intercetta della funzione e ⁡𝛽₁⁡coefficiente angolare della retta. Il problema consiste nell’assegnazione a 𝛽₀ e 𝛽₁ di quei valori che permettono di determinare quella retta di regressione che più si allinea all’insieme di punti osservati (nuvola dei punti).

(27)

𝑦̂ = b0 + b1xi con i=⁡1,2,⁡…,⁡N

come funzione dei valori teorici di Y quando X assume i valori osservati x1, x2,⁡…,⁡xN.

I valori b0 e b1 corrispondono a quelli che minimizzano la somma dei

quadrati delle differenze tra i valori effettivi e quelli teorici di X: Sq = (y1 – b0 – b1x1)2 + (y2 – b0 – b1x2)2 +⁡…⁡+⁡(yN – b0 – b1xN)2, ovvero: b0 = 𝜇𝑌 – b1 𝜇𝑋 𝑏1⁡ = ⁡⁡∑ (𝑥𝑖 − 𝜇𝑋)(𝑦𝑖− 𝜇𝑌) 𝑁 𝑖=1 ∑𝑁 (𝑥_𝑖 − 𝜇_𝑋)2 𝑖=1 ⁡⁡ =𝑐𝑜𝑑𝑒𝑣⁡(𝑋𝑌) 𝑑𝑒𝑣(𝑋) ⁡ = ⁡ 𝑐𝑜𝑑𝑒𝑣⁡(𝑋𝑌)/𝑁 𝑑𝑒𝑣(𝑋)/𝑁 ⁡ = ⁡𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑋𝑌) 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑌) ⁡ = ⁡ 𝜎𝑋𝑌 𝜎_𝑋2

𝑏1 è il coefficiente angolare della retta di regressione e indica la variazione media di 𝑌 al variare di 𝑋, mentre 𝜇_𝑋⁡𝑒⁡⁡𝜇_𝑌⁡indicano la media aritmetica di X e Y.

I residui ei rappresentano le differenze tra i valori osservati e quelli

previsti dalla retta di regressione:

ei = yi - 𝑦̂i con i = 1, 2,⁡…,⁡N

In modo analogo avviene la costruzione della retta di regressione di X nei confronti di Y.

Le due rette si intersecano nel punto di baricentro (𝜇_𝑋, 𝜇_𝑌): se risultano tra loro perpendicolari e parallele agli assi significa che tra X e Y esiste una correlazione nulla, invece in caso di sovrapposizione vi è perfetta correlazione lineare.

La verifica dell’adeguatezza del modello a rappresentare la relazione tra Y e X può avvenire attraverso l’indice di determinazione, ricavato dalla scomposizione della devianza in devianza spiegata e devianza residua:

Dev T = ∑𝑁 (𝑦_𝑖− 𝜇_𝑌)2

𝑖=1 =

= ∑ (𝑦𝑁_𝑖=1 _𝑖 − 𝑦̂⁡_𝑖)2 + ∑ (𝑦𝑁_𝑖=1 _𝑖− 𝜇_𝑦)2 + 2[(∑ 𝑦_𝑖 − ∑ 𝑦̂⁡_𝑖)(∑ 𝑦̂⁡_𝑖 − 𝑁𝜇_𝑦)]

(28)

quindi:

Dev T = ∑𝑁 (𝑦_𝑖− 𝑦̂⁡_𝑖)2

𝑖=1 + ∑ (𝑦2𝑖=1 𝑖 − 𝜇𝑦)2

con:

- Dev R = ∑2 (𝑦_𝑖− 𝜇_𝑦)2

𝑖=1 : la devianza spiegata rappresenta la

variabilità totale dei valori di Y attribuibile alla variabilità dei valori attesi, dati dalla retta di regressione,

- Dev E = ∑𝑁_𝑖=1(𝑦_𝑖 − 𝑦̂⁡_𝑖)2: la devianza residua rappresenta la devianza degli scarti tra i valori osservati e i valori teorici e quindi non è attribuibile alla retta di regressione.

Da cui si ricava l’indice di determinazione come: r2 = ∑𝑁𝑖=1(𝑦̂𝑖⁡−⁡𝜇𝑌)2

∑𝑁𝑖=1(𝑦𝑖−𝜇𝑌)2

o anche:

r2_{= 1 -}∑𝑁𝑖=1(𝑦𝑖−𝑦̂𝑖)2

∑𝑁𝑖=1(𝑦𝑖−𝜇𝑌)2

I valori tra cui oscilla l’indice di determinazione lineare sono 0  r2  1,

in particolare:

- r = 0 in caso di indipendenza lineare tra X e Y (forte discostamento tra dati teorici e empirici), quindi la retta di regressione sarà parallela all’asse dell’ascisse, infatti:

Y = 𝛽0,

Dev E = Dev T,

- r = 1 in caso di massima dipendenza lineare tra X e Y, cioè i dati empirici si collocano sulla retta di regressione.

Le osservazioni ricavate dallo studio di regressione lineare, cioè la tipologia di relazione esistente tra due variabili, possono essere confermate tramite la misura della correlazione. A tale proposito, siano:

zxi = 𝑥𝑖−⁡𝜇𝑋 𝜎𝑋 e zy

i = 𝑦𝑖−⁡𝜇𝑌 𝜎𝑌

(29)

Il coefficiente lineare di Bravais è dato da: r =⁡1 𝑁 ∑ ( 𝑥𝑖⁡−⁡𝜇𝑋 𝜎𝑋 ∗ ⁡ 𝑦𝑖⁡−⁡𝜇𝑌 𝜎𝑌 ) 𝑁 𝑖=1

e varia nell’intervallo [-1, 1]; con perfetta relazione lineare nei due estremi.

Tale coefficiente corrisponde alla radice quadrata dell’indice di determinazione, infatti la correlazione è tanto più forte quanto più forte è la dipendenza tra Y e X, ovvero tanto più la nuvola dei punti è addensata alla retta di regressione.

L’analisi prescrittiva infine opera da completamento dell’analisi predittiva, dato che partendo dai modelli matematici e le previsioni di quest’ultima ricava le indicazioni operative per il raggiungimento degli obiettivi prefissati. Permette dunque un incremento di efficienza lungo l’intero processo decisionale aziendale poiché implica un controllo più approfondito dei processi e il fronteggiamento di una gamma più ampia di problemi.

L’aggregazione delle varie tipologie di analisi porta alla formazione di sistemi di raccomandazione, ovvero modelli appositi per la definizione ai clienti di consigli e proposte personalizzate, proprio sulla base dei dati da essi raccolti. In questo caso quindi l’impresa si trova di fronte al seguente problema di massimizzazione:

max U(x): C * I → R con:

C: insieme degli m N utenti, I: insieme degli n N prodotti,

U(x): funzione di utilità che esprime l’utilità che l’utente C ricava dal prodotto I,

R: insieme ordinato di utilità per un utente.

Il fatto che un utente non esprima le proprie preferenze su tutti i prodotti disponibili significa che la funzione di utilità U(x) non sarà definita nell’intero spazio C * I; tali valori mancanti vengono stimati dal

(30)

medesimo sistema di raccomandazione sulla base dei punti in cui la funzione è definita.

In funzione del criterio di classificazione utilizzato, i sistemi di raccomandazione si scompongono in tre tipologie: sistemi content-based, sistemi collaborativi e sistemi ibridi.

In un sistema content-based le raccomandazioni si sviluppano partendo dalla similarità tra un prodotto e quelli acquistati e/o valutati positivamente in passato dallo stesso utente. Il grado di similarità tra due prodotti viene stimato tramite il loro profilo, ossia il vasto insieme di metadati (attributi, caratteristiche etc.) sussunti dalle proprietà intrinseche dell’oggetto che ne descrivono e riassumono il contenuto. Al momento della raccomandazione viene costruito uno storico per ciascun utente comprendente i prodotti consigliati e le loro caratteristiche.

Data la natura dei metadati questo approccio presenta elevata efficacia in ambienti testuali, in quanto è possibile descrivere dettagliatamente qualsiasi contenuto e tempi di addestramento limitati, dal momento che è sufficiente una valutazione da parte dell’utente per la definizione di un consiglio. Possono inoltre essere anche facilmente raccomandati nuovi oggetti.

L’esclusivo orientamento sulla storia di acquisto di un utente porta a consigli ripetitivi e privi di qualsiasi forma di novità e imprevedibilità. Si registrano infine dei limiti nelle raccomandazioni verso i nuovi clienti poiché il loro storico non è ancora sufficientemente ampio.

Nei sistemi collaborativi invece all’utente vengono consigliati prodotti piaciuti ad altre persone ritenute simili. In questo caso la stima della similarità varia a seconda dell’algoritmo usato:

1. Algoritmi memory-based cioè basati sulle valutazioni passate di ciascun utente, le principali tipologie sono:

- User to user: per ogni utente viene costruito un profilo comprendente le valutazioni effettuate, il quale costituirà poi la pietra di confronto per evidenziare gusti e abitudini simili tra gli

(31)

utenti. Il punto di forza di questo approccio risiede nella capacità di proporre contenuti più accurati e in grado di sorprendere il cliente con il sostenimento di costi non eccessivamente superiori rispetto ai sistemi content-based. I limiti emergono in caso di ampi cataloghi poiché vi saranno numerosi avranno spazi non definiti o nei primi momenti di vita del sistema stesso, quando cioè le valutazioni sono ancora quantitativamente insufficienti. - Item to item: questi algoritmi permettono la formulazione

accurata e veloce di proposte verso gli utenti da poco iscritti attraverso la valutazione di somiglianza tra i vari prodotti in catalogo. Si differenzia da sistemi content-based dal momento che le similitudini tra gli oggetti sono ricavate non da metadati, ma dall’interazione sistema-utente, ovvero il profilo prodotto conterrà l’utilità ricavata dagli utenti che lo hanno valutato. Questo sottintende la possibilità di creare dei consigli anche verso quei soggetti che hanno espresse poche valutazioni, potenzialmente anche una sola.

Questa tecnica oltre ai limiti già visti nello user to user si caratterizza per il sostenimento di elevati costi, in quanto per la stima delle similarità deve scandire per ognuno degli n oggetti gli m utenti che lo hanno valutato e per ciascun utente che lo ha valutato gli altri possibili n oggetti preferiti, cioè:

O = m * n2

Mentre nell’approccio user to user le operazioni sono O = m * n. - Raccomandazioni indirette: questi modelli comportano

un’estensione del classico concetto di similitudine e quindi una soluzione al problema della funzione di utilità non definita in tutti gli spazi del dominio. Due utenti vengono rappresentati in un grafo, in forma di nodi, e collegati da un arco in caso di similitudine. La raccomandazione sarà fatta tenendo conto non soltanto gli utenti più vicini, ma anche quelli con distanza maggiore (di solito due-tre archi). In questo modo si verifica un

(32)

ampliamento della base dati e un incremento della capacità delle raccomandazioni di esplorare legame indiretti.

2. Algoritmi model-based, se analizzano i profili degli utenti e degli oggetti per apprendere un modello statistico-matematico che sarà poi utilizzato per la formulazione delle raccomandazioni. In questa categoria rientrano tecniche come le reti bayesiane, le tecniche di clustering etc.

I sistemi ibridi infine sono quelli che si avvalgono sia degli approcci content-base sia di quelli collaborativi. Un primo approccio prevede l’applicazione separata dei due algoritmi, per poi proporre come raccomandazione una combinazione dei due loro risultati finali; un secondo invece consiste nell’implementazione contemporanea delle due tecniche.

1.4 Benefici e rischi dietro ai big data

I big data portano dietro benefici e rischi che devono essere affrontati in un’ottica sistematica in quanto profondamente integrati fra loro. Il primo vantaggio che emerge riguarda le sconfinate possibilità di innovazione, tanto da arrivare alla coniazione del termine “data driven-innovation”: la raccolta, l’aggregazione e l’analisi dei dati consentono alle imprese di tracciare un profilo sempre più dettagliato e preciso della clientela e di strutturare nei loro confronti un’offerta estremamente personalizzata capace di incontrare e soddisfare le loro esigenze.

Saranno i dati a tracciare progressivamente l’evoluzione del business imprenditoriale, che quindi avanzerà di pari passo con le abitudini di consumo della clientela.

Il ricorso ai big data permette dunque un incremento dell’efficienza operativa, un miglioramento delle capacità decisionali degli amministratori e una più accurata e tempestiva capacità di previsione dei cambiamenti nei gusti della clientela e quindi il sorgere di nuove tendenze di mercato. Tutto questo si tramuta infine in notevoli

(33)

possibilità di crescita economica, stimata nell’1,9% per la sola Unione Europa entro il 2020.

Un altro aspetto è rappresentato dal fatto che la maggioranza dei servizi inerenti i big data vengono erogati a titolo gratuito (Facebook, Instagram) o comunque ad un prezzo minimo (Netflix), ciò è spiegato dalla possibilità per tali imprese di monetizzare i dati stessi vendendoli ad altri mercati: l’acquisto nel 2014 da parte di Facebook di WhatsApp per 19 miliardi di dollari trova giustificazione non tanto nel software quanto piuttosto nei dati inerenti circa 400 milioni di utenti (Gambetta). È anche grazie a questa operazione che oggi la compagnia guidata da Mark Zuckerberg può vantare la più grande base dati del mondo.

Nonostante per qualsiasi impresa sia plausibile incentrare la propria attività sui dati, business simili comportano il sostenimento di elevati costi fissi e modesti costi marginali lungo tutte le fasi di analisi: ciò significa che quello dei big data si presenta come un mercato caratterizzato da economie di scala e di scopo e per questo con forti barriere all’entrata, dove soltanto imprese di gradi dimensioni e/o estremamente specializzate riescono a stare traendo profitti.

Un esempio di quanto detto ci proviene da Chili Tv, società italiana che è riuscita a conquistare un suo spazio (il fatturato nel 2018 è cresciuto da 13 a 30 milioni di euro) nel mercato nazionale della televisione e del cinema online, dominato da colossi come Netflix e Amazon: ciò è stato possibile attraverso un’accurata diversificazione dell’offerta, nella quale infatti non è previsto un abbonamento periodico, ma la possibilità per gli utenti di scegliere nel catalogo i film a cui sono interessati pagando per il loro noleggio o acquisto.

Alle barriere di costo si aggiungono anche quelle tecnologiche, la creazione di valore dai dati è possibile solo ricorrendo agli adeguati strumenti tecnologici di analisi e quelle di rete: la qualità dei prodotti dipende da quella dei dati raccolti, la quale a sua volta è legata al

(34)

In conclusione, si viene a formare un mercato fortemente anti-competitivo: nel quale per un’impresa è estremamente difficile entrare e, qualora ci riuscisse, competere con competitors di grandi dimensioni e con una fonte dati ben radicata e sviluppata (dominant super-platforms). Quest’ultimi possono ricercare un vantaggio iniquo attraverso politiche volte a limitare l’accesso ai dati da parte di altri soggetti.

I dati rientrano tra i beni non rivali dal momento che il consumo da parte di un individuo non impedisce quello da parte di altri; è vero che vengono ceduti spontaneamente dagli utenti, ma è anche vero che in molte occasioni il non consenso alla cessione impedisce lo sfruttamento del servizio stesso.

Il rischio più rilevante è sicuramente rappresentato dalla possibilità di violazione della privacy: i dati contengono informazioni sensibili che permettono di determinare l’orientamento politico, religioso o sessuale di una persona, il suo stato di salute o la sua situazione finanziaria. Tutti elementi che possono essere monetarizzati e usati in modo inappropriato e discriminatorio per l’ottenimento di uno sleale vantaggio competitivo

Finora la tematica big data non ha suscitato particolari interventi antitrust, ciò perché i tipici prezzi bassi, se non addirittura nulli, sono stati considerati fattore di benessere sociale. Sulla questione è tuttora in corso un dibattito che vede contrapposti i fautori di un intervento minimo con coloro che inneggiano invece a un’operatività più rigida. I primi sono coloro che pongono enfasi sui vantaggi derivanti dai big data ed evidenziano un’inadeguatezza degli strumenti antitrust, su tutti lo SSNIP test (cerca di identificare il più piccolo mercato nel quale un eventuale monopolista potrebbe imporre un aumento non transitorio del prezzo), a valutare il potere economico derivante dai dati. I secondi invece focalizzano le proprie considerazioni sul potenziale anti-competitivo insito nei big data, sul rischio di violazione della privacy derivante e sulla possibilità di creazione di cartelli o collusioni.

(35)

2. Netflix

2.1 Storia di un successo

Dopo essersi laureato in matematica, aver prestato servizio nei Corpi di Pace e fondato alcune società - tra cui Pure Software - Reed Hastings insieme a Mark Randolph e Mitch Lowe decisero di avventurarsi nel mercato del noleggio DVD, fondando nel 1997 Netflix.

Alla base del successo che negli anni ha caratterizzato Netflix vi è sicuramente l’insieme di competenze variegate e compatibili proveniente da questi tre soggetti: il primo possiede grandi conoscenze tecniche accompagnate da una forte inventiva, la quale è perfettamente pubblicizzata da Randolph. Il tutto è poi supportato e rafforzato dall’esperienza di Lowe, tra i pionieri del noleggio fisico di VHS.

In quegli anni il mercato del noleggio DVD vedeva dominare Blockbuster e il suo business incentrato su una capillare rete di negozi fisici, per un contatto e una comunicazione diretta con gli utenti; da qui la necessità per Netflix di distinguersi, permettendo ai propri clienti di scegliere il film da noleggiare attraverso una piattaforma online. Questa piattaforma può essere vista come un primo tentativo di personalizzazione dell’offerta tramite i dati: consentiva infatti di accedere a un catalogo di film, che nel 1998 contava già circa 900 articoli e arrivò a 5200 nel 2000, filtrando i risultati per titolo, attori etc.

(36)

I DVD scelti venivano poi inviati per posta a casa dell’utente insieme alla famosa busta rossa per la restituzione.

Se inizialmente era previsto il noleggio di un singolo film al costo di 50 centesimi, dal 1999 fu introdotta la politica dell’abbonamento che rendeva possibile il noleggio fino a 4 DVD contemporaneamente e senza penali per la consegna tardiva (no-late-fee) a $19,95 mensili. La capacità di comprendere e assecondare le esigenze dei propri clienti permette una forte crescita di Netflix, sia nelle entrate che negli abbonamenti; a questa fanno da contraltare i risultati negativi registrati nello stesso periodo da Blockbuster, nel tentativo di contrastare la concorrenza.

Nel 2000 Hasting propose all’allora CEO di Blockbuster, John Antioco, di acquistare Netflix per $50 milioni: quest’ultimo rifiutò seccamente sottovalutando i potenziali rischi per la propria attività derivanti da internet e dallo streaming e definendo Netflix come un business limitato e di nicchia.

Tale decisione segna di fatto il destino di Blockbuster che negli anni successivi va incontro a perdite sempre più ingenti, fino alla dichiarazione di fallimento avvenuta nel 2013.

L’ascesa di Netflix ha come fulcro il ricorso al servizio Cinematch, ovvero un software che permetteva di creare un sistema di raccomandazione di tipo collaborative filtering: le valutazioni rilasciate da un utente su un film in catalogo venivano analizzate per individuare legami e relazioni con altri clienti e definire nuove associazioni con altri prodotti. Tale sistema ha permesso un notevole ampliamento degli abbonati e una loro maggior soddisfazione.

L’impostazione adottata fin dalla nascita e il ruolo centrale giocato dagli algoritmi - come Cinematch - confermano che quella del noleggio DVD non è mai stata per Netflix l’attività principale, ma che la sua strategia operativa mira da sempre allo sfruttamento delle potenzialità di internet, come ammesso dallo stesso Hastings “There was a reason he called the company Netflix and not, say, DVDs by Mail”.

(37)

Nel 2006 viene lanciato il Netflix Prize, un concorso dove l’azienda metteva in palio un premio di $ 1 milione per quel team che sarebbe riuscito a rendere più accurate di almeno il 10% le raccomandazioni di Cinematch. La consistenza del premio deriva dall’importanza dei dati come fonte di personalizzazione dell’offerta, dal momento che proposte più specifiche e vicine al cliente permettono un suo miglior soddisfacimento e un incremento della sua lealtà.

Il premio fu vinto nel 2009 dal team BellKor’s Pragmatic Chaos con una soluzione composta da più di 100 algoritmi.

Nonostante un mercato ancora latente Netflix nel 2007 decise di introdurre il suo primo servizio di streaming online, Watch Instantly, che permetteva agli utenti l’accesso a più di 17 mila film noleggiabili per $7,99 mensili.

Il punto di forza di questo servizio risiedeva nella sincronizzazione multi-device, ovvero la possibilità di accedervi da vari dispositivi, tra cui Xbox360, Playstation3, televisori connessi, iPhone, iPad etc e infatti determina una forte crescita degli abbonati Netflix, che nel 2010 arrivano a superare i 20 milioni.

I successi provenienti dal settore dello streaming uniti alla crisi del mercato dei DVD, nel 2007 registra per la prima volta da quando era nato il formato dieci anni prima un calo delle vendite, spingono sempre più Netflix a guardare al business online.

Un servizio di streaming di qualità impone ingenti investimenti per dotarsi dell’adeguata tecnologia e per la costruzione di un ricco e ampio catalogo; ecco perché la società di Hastings fu costretta ad alzare il prezzo dell’abbonamento del 60%, andando incontro ai malumori e alla disapprovazione degli utenti. Tale situazione divenne ancor più complicata a causa della pressione portata da Amazon che nello stesso periodo lanciò il proprio servizio di streaming online.

Le possibilità di crescita erano limitate geograficamente a causa del ritardo tecnologico che l’Europa stava registrando sul fronte delle

(38)

grazie alla notevole disponibilità sul territorio dei cosiddetti servizi over-the-top television (OTT): piattaforme per la diffusione in rete di contenuti audiovisivi caratterizzate dalla neutralità dell’offerta rispetto al device tecnologico utilizzato dall’utente (Marrazzo).

È possibile distinguere tre tipologie principali di broadband tv:

- Subscription Video on-Deman (Svod): il pagamento di un canone fisso mensile oermette l’accesso all’intero catalogo. È questo il format scelto da Netflix, Sky Online, Mediaset Infinity etc. Generalmente si caratterizzano per una library meno profonda di quelle dei Tvod, a cui però è possibile accedervi a un costo più basso.

- Transactional Vod (Tvod): è la pay-per-view, ovvero l’utente deve acquistare ogni singolo contenuto a cui è interessato (Chili TV, I Tunes etc.). La diffusione di tali servizi passa dall’aggiornamento periodico della library.

- Avod: servizio gratuito e basato sulla pubblicità (YouTube etc.). Nonostante tali limiti tecnologici il mercato europeo è sempre risultato attraente agli occhi di Netflix, le stime evidenziano 55,66 milioni di abbonati a servizi SVOD per il 2020, tanto da entrarvi progressivamente a partire dal 2012 (Regno Unito).

La strategia adottata dall’azienda di Hastings è stata quella di consolidare innanzitutto la posizione nei paesi europei considerati privilegiati, ovvero quelli con alta disponibilità di banda larga e una stretta affinità a livello linguistico, per poi espandersi nel resto dell’Unione Europea. Tra i primi rientra il Regno Unito, i paesi scandinavi e l’Olanda: tutti paesi nei quali Netflix ha registrato fin da subito un notevole successo e un forte incremento degli abbonati, risultati che hanno permesso di limitare la situazione nel mercato statunitense.

Nel resto d’Europa il percorso è stato maggiormente accidentato, tanto che in tali paesi il grado di penetrazione è ancora al di sotto i 30 punti percentuali (contro il 43% del Regno Unito): l’entrata in seconda

(39)

battuta su questi mercati ha permesso agli emittenti nazionali di strutturare un’offerta più competitiva. Caso emblematico è quello della Germania che nel 2014, anno di approdo di Netflix, presentava un mercato VOD già sviluppato e ripartito tra Amazon -il servizio più utilizzato è tutt’ora Amazon Prime Instant Video- e varie pay-per-view. Lo sbarco dei principali OTT americani in Europa ha posto due sfide: la prima riguarda i broadcasters e i Telcos nazionali, chiamati a rimodulare le proprie strategie operative per presidiare più intensivamente il settore dei servizi online, collaborando o scontrandosi con gli OTT; la seconda invece è per gli stessi OTT, il cui successo su tale mercato passa necessariamente dallo sviluppo e l’offerta di contenuti locali.

A partire dal 2012 per fronteggiare il calo di abbonati e fatturato e l’entrata nel mercato europeo Netflix intraprende un’ampia strategia di acquisizioni di contenuti esclusivi, così da ampliare la propria library e meglio soddisfare i propri clienti. Progressivamente diventa un elemento di pericolo per la tradizionale televisione statunitense, che registra infatti la perdita di oltre 400 mila abbonati.

Il 2013 rappresenta l’anno di svolta per Netflix poiché, intraprendendo la produzione e la distribuzione di serie tv e film originali, riesce a differenziarsi rispetto i suoi principali competitors -Hulu e Amazon-, arrivando a scontrarsi con HBO, la più importante premium cable americana e produttrice di serie tv di successo globale come Game of Thrones e True Detective.

Simbolo di questa strategia è la prima produzione Netflix, House of cards: al netto di un investimento iniziale di cento milioni di dollari per acquistare i diritti di sfruttamento dell’omonimo romanzo, la serie - incentrata sulla vita del politico americano Frank Underwood – si rivela un immenso trionfo e non soltanto negli Stati Uniti, dal momento che tramite specifici accordi è distribuita anche nei Paesi in cui Netflix non era presente.

(40)

Trova così soddisfazione una delle principali ambizioni di Reed Hastings, ovvero quella di far diventare Netflix un one-stop shop di contenuti originali e distribuiti tramite la propria piattaforma.

Tracciata la via maestra, non restava che seguirla e infatti furono avviate anche le produzioni di Orange is the new black e Arrested Development.

Il successo di tale modus-operandi fu sancito dalle quattordici nomination che House of cards e Arrested Development riscossero agli Emmy Awards del 2013 e dal raggiungimento di 36 milioni di abbonati, contro i 30 milioni di HBO.

Alle difficoltà riscontrate nel 2015, a seguito del lancio da parte di HBO di un nuovo servizio (HBO Now) per lo streaming online di 2700 ore tra serie e film a soli 14,99 $ al mese, Netflix ha risposto intensificando il processo di espansione territoriale e quello di ampliamento del proprio catalogo, sia ricorrendo alle produzioni originali sia tramite alleanze. È in quest’ottica che si inserisce l’accorso siglato con The Walt Disney Company per la trasmissione dei suoi film dopo solo 7-9 mesi dall’uscita al cinema.

L’espansione territoriale ha colpito innanzitutto Canada e Regno Unito per poi raggiungere il resto Europa (nel 2015 Netflix sbarca Italia), l’America Latina (Messico e Brasile i primi) e infine nel 2016 l’India, per un totale di più di 300 paesi raggiunti.

Se in un primo momento questo processo ha comportato il sostenimento di ingenti costi per l’acquisizione dei diritti per nuove serie tv e/o film, questi sono stati coperti dai risultati ottenuti: nel 2015 infatti Netflix registra 5,5 milioni di nuovi abbonati sul mercato statunitense, contro gli 11,8 milioni di nuovi clienti derivanti dagli altri mercati internazionali; arrivando a 75 milioni di utenti complessivi. Opposta è la situazione per i profitti (112,6 milioni di dollari complessivi) su cui pesano i risultati negativi provenienti dai mercati extra-statunitensi, dove si sono resi necessari gli importanti investimenti di cui sopra. Da qui la decisione di investire nella

(41)

produzione di serie tv per specifici mercati, ma dal potenziale gradimento globale come è accaduto con la serie Narcos. In origine essa doveva agevolare l’ingresso nei paesi del Sud America, è stata poi presto inserita in molti cataloghi visto il successo riscosso.

Come annunciato da Reed Hastings, nei piani di espansione di Netflix vi è ancora un obiettivo, la Cina. Questa tuttavia si presenta come una sfida dalle enormi difficoltà: finora nessun gigante di internet (Google, Facebook etc.) è riuscito ad affermarsi in un mercato caratterizzato da una forte radice nazionalistica e numerosi cloni di questi servizi (è recente l’annuncio Amazon di ridurre la propria presenza in tale area poiché incapace di reggere il passo di Alibaba) come quello cinese; tant’è che a tale annuncio nel 2016, non è ancora stato dato seguito. Attualmente Netflix è presente in 190 paesi; oltre alla Cina, gli altri paesi esclusi sono la Crimea, la Corea del Sud e la Siria, a causa delle limitazioni poste dagli Stati Uniti.

Figura 2.1

L’importanza che i mercati internazionali ricoprono nella strategia Netflix è confermata dal numero delle lingue supportate: di recente

(42)

sono stati aggiunti l’arabo, il coreano e il cinese, per un totale di 20 lingue disponibili.

Negli ultimi tre anni Netflix ha intensificato la produzione di contenuti originali, divenuti sempre più ambiziosi - visto la partecipazione di attori e registi di fama mondiale - e apprezzati, tanto che l’ultima edizione degli Oscar ha visto trionfare per la prima volta un film Netflix: Roma, premiato come miglior film straniero.

Nel 2017 il numero di abbonati Netflix ha superato quello degli abbonati via cavo negli Stati Uniti, ciò significa che attualmente l’azienda di Los Gatos è la più grande fornitrice di intrattenimento al mondo.

Nonostante il primo trimestre del 2019 si sia aperto con il record di abbonati (9,6 milioni, 16% in più rispetto allo stesso periodo del 2018), Netflix ha registrato una flessione sia dei nuovi utenti statunitensi, 1,7 milioni contro i 2,6 milioni del 2018, sia di quelli complessivi, 5 milioni di nuovi iscritti con un calo dell’8% rispetto l’anno precedente.

Un trend confermato nel secondo trimestre, che ha visto crescere le sottoscrizioni per 2,7 milioni contro i 5 milioni stimati e dove è continuato ad aumentare il debito finanziario su base annua: in questo caso le stime parlano di 2,5 miliardi presi a prestito nel 2018, destinati a diventare 3 miliardi nel 2019, per un debito totale che potrebbe raggiungere a fine anno 15 miliardi di dollari.

Tali livelli trovano spiegazione nella necessità di Netflix di rafforzare la propria posizione competitiva, tramite l’ampliamento del suo catalogo con contenuti originali e infatti nel 2018 sono stati spesi circa 8 miliardi di dollari per la produzione di 700 nuove serie originali. Posizione messa in pericolo, oltre che dai tradizionali competitors Amazon e HBO, anche da due nuovi player prossimi all’entrata nel mondo dello streaming online: Disney e Apple.

Un peso specifico è da attribuire anche alla decisione di aumentare i prezzi dell’abbonamento nel mercato statunitense, sud-americano ed europeo.

(43)

La crescita di Netflix è il frutto di un circolo virtuoso in cui il crescente indebitamento serve per finanziare nuove produzioni, quest’ultime fondamentali per ottenere un incremento costante degli abbonati. I dati di luglio 2019 indicano l’approssimarsi della fine anche per un ciclo di questo genere; di conseguenza, l’esigenza per Netflix di affinare ulteriormente la propria strategia andando ad affiancare allo studio dei dati e alle raccomandazioni derivanti delle iniziative di marketing sempre più ingenti e massicce: l’uscita della terza stagione di Stranger Things è stata preceduta da una campagna pubblicitaria dalla durata complessiva di quattro giorni e comprendente anche redditizi accordi di marketing con Coca Cola, Burger King, Nike, H&M e Lego per la creazione e la vendita di gadget personalizzati. Un’altra strada percorribile è quella che porta a una diversificazione della propria attività ampliandola con nuovi servizi: in questo caso uno dei segmenti attualmente più attraenti e dall’alto potenziale remunerativo è quello del gaming online.

2.2 Netflix in Italia

Figura 2.2

È con questo tweet che il 5 giugno 2015 Netflix annunciava la propria entrata in Italia.