Big Data, mercato e amministrazione pubblica

(1)

Dipartimento di Giurisprudenza

Corso di Laurea Magistrale in Giurisprudenza

BIG DATA, MERCATO

E AMMINISTRAZIONE PUBBLICA

Relatore

Ch.ma Prof.ssa Michela Passalacqua

Candidato

Niccolò Duse

(2)

INDICE

Introduzione………..IV

Capitolo I

Il fenomeno "Big Data"

1. Un tentativo definitorio...………...1

2. L’innovazione "data-guidata" e la catena del valore nei Big Data....11

3. Il mercato rilevante dei Big Data e l'approccio antitrust………….24

4. Profili reputazionali in un'epoca di "dati in fuga"………..39

Capitolo II

I Big Data nella Pubblica Amministrazione

1. Il ruolo della Pubblica Amministrazione nella produzione e nella

collezione di dati.………..49

2. La rilevanza dei Big Data nel procedimento amministrativo……...68

3. L'Agenda Digitale Europea nella "Strategia Europa 2020"………77

4. La Strategia Italiana per la Crescita Digitale e l'AgiD……….86

5. La digitalizzazione della Pubblica Amministrazione: dai server al

cloud computing………92

Capitolo III

Big data, uso pubblico e concorrenza

(3)

2. (Segue): Open data, accessibilità e tutela della privacy………..120

3. (Segue): Ottemperanza agli obblighi di disclosure per il tramite del

veicolo della digitalizzazione……….…...133

4. Trasparenza e flussi informativi………...136

5. (Segue): Scambio di informazioni e abusi di posizione dominante.142

Capitolo IV

Profili di intervento regolatorio alla luce dei Big Data

1. L'apporto delle scienze cognitive alle tradizionali strategie

regolatorie………..….151

2. Ripensare l’intervento regolatorio alla luce dei Big Data….……..161

3. Il "nudging": da Thaler e Sunstein a Karen Yeung……….165

4. L'Hypernudge: i Big Data come modello di regolazione by design….171

Conclusioni………...………181

Bibliografia………..…………..192

Documentazione amministrativa………207

(4)

INTRODUZIONE

La diffusione delle tecnologie legate ai big data, cioè alla raccolta massiva di dati ed informazioni provenienti dalle più disparate fonti, induce a guardare alle realtà che ci circondano e ai mercati secondo modalità, per così dire rivoluzionarie, poiché pretendono di semplificare le procedure di analisi e di valutazione di qualsiasi evenienza fenomenica, in contrapposizione con le vecchie metodologie scientifiche improntate al principio di causalità.

Questa tendenza fornisce una chiave di lettura che si basa su un semplice principio di aggregazione di dati per la definizione di trend economici, in grado di pilotare le strategie imprenditoriali delle aziende che si servano degli strumenti di ICT (Information and Communications Technology), ma non solo. L’intento di questo lavoro è quello di comprendere come i meccanismi legati allo sfruttamento dei big data possano essere impiegati dalle amministrazioni pubbliche per incrementare i livelli di efficienza nell’erogazione dei propri servizi e, sempre in quest’ottica, per perfezionare le strategie regolatorie.

Gli stessi big data, intesi quale prodotto ineluttabile del ricorso alle nuove tecnologie informatiche e all’eversione digitale dell’Internet of Things, pongono non poche problematiche su due piani estremamente delicati e

(5)

che in più occasioni si cercherà di analizzare simultaneamente, quali fossero le facce della stessa medaglia. Così, si parte spesso dallo strumentario posto a tutela della privacy degli individui per fornire degli spunti utili all’implementazione del vocabolario antitrust, il quale, inevitabilmente, deve essere preso in considerazione per comprendere l’evolversi delle classiche derive economiche di scala, calate, tuttavia, nella modernità dei sistemi multilaterali digitali.

Sebbene di per sé l’utilizzo dei big data, per definizione, non sembri arrecare particolari insidie per la concorrenza, dal momento in cui i dati, accumulati in grandi volumi eterogenei, possano considerarsi dei beni fungibili pressoché illimitati, e, quindi, in grado di superare qualsiasi prova di sostituibilità, non pochi problemi possono scaturire in relazione al processo di estrazione di valore aggiunto da parte di chi detenga le strumentazioni tecniche, atte ad interrogare gli stessi. La comprensione dell’uso e, soprattutto, del riuso di mastodontiche quantità di dati per la creazione di conoscenza, utile a sfruttare un potere informativo in grado di affermare posizioni egemoniche nel mercato, diventa la chiave di volta per analizzare e combattere eventuali abusi da parte di operatori economici particolarmente aggressivi o che attuino attività di profilazione dei dati personali degli individui.

(6)

La realizzazione di un “sistema di scatole nere”, che tracci le attività ed i comportamenti dei consumatori o degli utenti che si servano di prodotti e servizi erogati sia da parte del settore privato sia di quello pubblico, si appresta a modellare criteri per la predizione delle scelte future che questi intendano compiere. La creazione, pertanto, di profili altamente dettagliati degli individui fa sì che l’offerta si modelli sulle preferenze espresse dagli stessi. Se da un lato ciò assicura l’ottimizzazione dal punto di vista dell’efficienza della produzione, andando incontro ai bisogni avvertiti e presagiti degli utenti, dall’altro testimonia anche degli inevitabili profili concernenti, talvolta, indebite interferenze nella tutela della riservatezza dei cittadini o, ancora, delle pratiche poche igieniche per il mantenimento della salubrità nel panorama competitivo del mercato. Molto spesso i due profili corrono di pari passo. Significa, cioè, che la creazione di pacchetti di dati inerenti gli aspetti più intimi della vita quotidiana di ciascuno – rischiando perennemente di scadere in una violazione della privacy, tanto da richiedere una continua evoluzione del contesto normativo comunitario e nazionale di riferimento – possano provocare lo scaturire di una serie di insidie latenti per la concorrenza: dallo svilimento dell’effetto del multi-homing delle piattaforme multiservizio, al perseguimento di pratiche di lock-in dei consumatori, da cui dipenda anche la perdita di potere contrattuale degli stessi, alla personalizzazione dei prezzi applicati.

(7)

Queste riflessioni si basano principalmente sul discernimento degli effetti collaterali di un impiego piuttosto spregiudicato delle tecnologie in grado di analizzare ed interrogare, in maniera del tutto innovativa rispetto al passato, enormi dataset in continua espansione. Un ragionamento più ampio potrebbe investire l’individuazione di un mercato rilevante dei big data, nel momento in cui questi vengano considerati quali input (o, quanto meno, parti di input) di mercato. Ne consegue che, a voler adottare questa visione – non unanimemente condivisa, a dire il vero – al pari di quanto venga fatto per qualsiasi altro fattore in un sistema economico di scambio, si possano operare le classiche considerazioni sull’acquisizione di vantaggi provenienti dall’implementazione di economie di scala, scopo e velocità, tenuto conto delle specifiche caratteristiche dei big data.

Ma anche a voler escludere una siffatta ricostruzione, parte della dottrina, come verrà evidenziato nel corso della trattazione, non è andata esente dal tracciare un ciclo dinamico di impiego e di estrazione di valore aggiunto dai big data. In questo si distinguono una serie di momenti e di intermediari economici in grado di suggere valore monetario dall’accesso e dall’analisi di banche dati interconnesse. Riconoscendo, dunque, l’attribuzione di un profitto legato al possesso di questo particolare vantaggio informativo, si crea, di conseguenza, una curva di domanda dei big data, che rinviene negli stessi, secondo determinate ricostruzioni

(8)

(malviste dalla giurisprudenza europea e d’oltreoceano), particolari forme di barriere all’accesso al mercato.

Reale punto cardine nella filiera dello sfruttamento dei big data e dei risultati di analisi inferenziale, ad essi riferiti, risiede nell’erogazione di apposite licenze che ne consentano l’impiego per usi secondari e pressoché infiniti che si aggiungono a quello iniziale per il quale gli stessi erano stati raccolti. Ciò consente che i metadati e le informazioni possano – in spregio, talvolta, alle garanzie assicurate dalle formule di consenso informato – divenire oggetto di mercificazione.

Se, dunque, la “datificazione” del conosciuto e del conoscibile risulti essere la tendenza verso la quale si sta indirizzando il progresso sia tecnologico sia economico, non si può andare esenti dall’interrogarsi su quale debba considerarsi, invece, lo sviluppo dell’azione amministrativa in questo quadro evolutivo.

Il ricorso all’IT rappresenta il nucleo fondamentale delle strategie, europea e nazionale, di digitalizzazione delle amministrazioni pubbliche. La creazione di un sistema di e-government rappresenta il primo passo verso una società improntata ai principi di inclusione digitale dei cittadini e di accesso elettronico ai servizi pubblici. Veicolo, questo, utile al perseguimento di tali obiettivi e che consiste nell’implementazione dell’interconnessione tra i sistemi informatici dei database pubblici attraverso il cloud computing.

(9)

Tale processo contribuisce ad accrescere il volume dei dati in possesso del settore pubblico, da considerarsi già di per sé, anche al netto dell’impiego delle nuove tecnologie, il principale produttore di dati nel panorama nazionale.

L’immenso patrimonio informativo pubblico, destinato costantemente ad espandersi in virtù della traduzione nella pratica delle strategie di crescita digitale, è sottoposto, tuttavia, a specifiche previsioni di trasparenza, che, nel loro complesso, compongono il più vasto quadro della disclosure regulation.

L’intento che si intende perseguire nelle pagine seguenti è anche quello di comprendere come l’ottemperanza agli obblighi informativi da parte delle amministrazioni pubbliche partecipi alla trasformazione o, meglio, all’integrazione dell’e-government in un regime di Open Government. Ciò significa che i dati di provenienza pubblica debbano considerarsi “open” e, quindi, liberamente accessibili da parte di chiunque senza alcuna discriminazione. L’ubiquità della disclosure regulation trascende, inevitabilmente, gli scopi per i quali essa era stata realizzata e investe, con i flussi informativi che ne scaturiscono, il mercato. Da una rilevanza meramente interna di controllo sull’operato della pubblica amministrazione si passa a dover analizzare – in una prospettiva, invece, “esterna” -l’impatto che gli scambi di informazioni abbiano nelle dinamiche concorrenziali tra gli operatori economici.

(10)

Comprendere come la regolazione in materia di trasparenza travalichi i confini propri dell’azione amministrativa fornisce lo spunto, anche, per riflettere sugli aspetti che ne determinano la fallacia.

Fintanto che i dati e le informazioni di provenienza pubblica, resi ostensibili e riutilizzabili per fini commerciali nel mercato, risultino essere semplicemente oggetto di regolazione, non si possono apprezzare i vantaggi che potrebbero scaturire dalla manipolazione degli stessi. I risultati dell’analisi inferenziale, ottenibili grazie al ricorso ai dispositivi di big data analytics, possono fungere da propulsore per il rinnovamento, almeno in termini di principio, dell’intervento regolatorio, permettendo, così, un’azione più rapida, efficiente e mirata.

(11)

CAPITOLO I

IL FENOMENO "BIG DATA"

SOMMARIO: 1. Un tentativo definitorio. – 2. L’innovazione

"data-guidata" e la catena del valore nei Big Data. – 3. Il mercato rilevante dei

Big Data e l'approccio antitrust. – 4. Profili reputazionali in un'epoca di

“dati in fuga”.

1. Tentativo definitorio

Qualsiasi studio sui Big Data proietta inevitabilmente autore e lettore in una dimensione spaziale e temporale emblematica della contemporaneità e suggerisce la percezione di una realtà apparentemente “sulla lingua di tutti”, ma non ancora del tutto compresa o, quanto meno, svelata. Questi sono il manifesto dello sviluppo tecnologico del ventunesimo secolo, fonte ed effetto, al tempo stesso, di un processo innovativo vertiginoso e potenzialmente irrefrenabile1_.

Altri concetti e nebulose definizioni di processi, evolutisi di pari passo con l'epoca digitale, si affiancano, interfacciano ed interagiscono con quello di big data: trattasi di Internet of Things (o internet delle cose), data-driven

1 OECD, Data-driven innovation. Big data for growth and well-being , Parigi, OECD Publishing, 2015, su dx.doi.org/10.1787/9789264229358-en, p. 19.

(12)

innovation2_{, cui sono da aggiungere terminologie derivate quali big data}

analytics, datizzazione e così via. E l'insieme di tali concetti, se affrontati da un punto di vista legale, deve essere letto alla luce di difficoltà interpretative ed euristiche per il giurista di oggi, il quale si trova ad essere fornito di categorie giuridiche e modelli legislativi datati e ormai non sempre più passibili di applicazione analogica.

Da subito è facile riconoscere come la prima problematica – non solo di carattere giuridico – ad emergere sia quella propria dell'invasione della privacy, della compromissione dei dati sensibili e dei dati personali3_{, a fronte}

di un mondo "iper-connesso", ove la maggior parte degli oggetti con i quali espletiamo le funzioni lavorative, domestiche, sociali e familiari sono ad oggi in grado di comunicare tra loro e la rete, che diventa veicolo e mezzo per la collezione di un numero sempre crescente di dati. È questa la sfera dell' "internet delle cose", che fa sì che anche il baluardo principale della nostra intimità, la casa, si trasformi in un'infrastruttura in grado di interagire magari con la nostra macchina e il nostro smartphone, estendendo ciò che era riservato ad una comunicazione faccia a faccia con i membri della famiglia,

2 V. Zeno-Zencovich, G.G. Codiglione, Ten legal perspectives on the "big data revolution", in F. Di Porto (a cura di), Big data e concorrenza, in Concorrenza e mercato, I, 2016, p. 29 – 57. 3 Direttiva 95/46/CE, art.2, lett. a): «dati personali»: qualsiasi informazione concernente una

persona fisica identificata o identificabile («persona interessata»); si considera identificabile la persona che può essere identificata, direttamente o indirettamente, in particolare mediante riferimento ad un numero di identificazione o ad uno o più elementi specifici caratteristici della sua identità fisica, fisiologica, psichica, economica, culturale o sociale.

(13)

in una comunicazione aperta ed estesa ad una realtà estranea4_{alle mura}

domestiche. Questa interoperabilità tra "cose", fra oggetti, fa sì che la produzione di dati ed informazioni, attinenti alla vita di tutti i giorni, si moltiplichi e proliferi in maniera esponenziale rispetto al passato. La direzione assunta dai traffici commerciali degli ultimi anni implica che sempre più organismi, sia privati che pubblici, collezionino masse enormi di dati derivanti da miriadi di transazioni e processi comunicativi. Ad oggi, tali volumi di dati percepiti, prodotti, assunti e collezionati nella sfera virtuale o nell'infosfera5_{, non sono altro che la traccia digitale di ogni attività un tempo}

svolta nell'immanenza del mondo analogico.

Immaginare quale sia l'ammontare dei dati prodotti ogni giorno sul globo non può che essere rimesso a tentativi di approssimazione speculativa. Secondo i risultati della ricerca avviata nel 2012 "Digital universe" dalla società IDC, il volume di dati prodotto nell'universo digitale è destinato a raddoppiare ogni due anni. Ciò significa che in un periodo di riferimento compreso tra il 2005 e il 2020 si passa da un volume dell'universo digitale iniziale di 130 exabytes (ove un exabyte corrisponde a un miliardo di gigabytes) a circa 40,000 exabytes stimati per il 2020. Ergo, ogni persona, adulto o bambino, potrà, volente o nolente, produrre, o, 4 G. Pellegrino, Nuove domesticità: la casa connessa e le tecnologie pervasive per la mobilità, in M.

Brancato (a cura di), Mappe domestiche: la casa e le sue memorie, in M@gm@, III, 2011. 5 U. Mattei in Costituzione, Comunità, Diritti, conferenza organizzata da Aleph presso la

Cavallerizza Reale, Torino, 19 novembre 2017, su www.youtube.com/watch?

(14)

meglio, sarà la fonte di produzione di circa 5,200 gigabytes di dati pro capite. Nel complesso di tale cifra vanno ricompresi sia i dati originati dagli stessi individui, sia quelli prodotti "riguardo" ad essi, sebbene questi ultimi superino per misura di gran lunga i primi. Al di là di tali numeri bisogna oltretutto sottolineare come gran parte delle informazioni e dei dati del mondo digitale abbiano carattere transeunte e non vengano sempre registrati, raccolti, analizzati e immagazzinati per un uso successivo. Quindi, quando trattiamo di big data e di numeri ad essi riferibili, parliamo di percentuali, tutto sommato, ristrette rispetto all’ammontare di dati potenzialmente osservabili e producibili6_.

Figura 1.1. Crescita stimata della produzione di big data a livello globale.

6 IDC's Digital Universe Study, The Digital Universe in 2020: Big Data, Bigger Digital

Shadows, and Biggest Growth in the Far East, 2012, consultabile al link: www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf

(15)

Ancora, la maggior parte dell'informazione dell'universo digitale è prodotta o consumata, si conceda il bisticcio di parole, da "consumatori". Ecco, dunque, che ricorrono e si sollevano questioni legate alle categorie civilistiche di protezione dei dati personali di coloro che, per accedere a un servizio online o ad un social network, siano disposti a cedere determinate informazioni personali (la maggior parte delle volte gratuitamente, e ne consegue che le informazioni personali diventino la moneta di scambio per usufruire di una piattaforma digitale, quale un motore di ricerca o un sito di e-commerce, senza il reale esborso di un corrispettivo in denaro), ma anche privacy, proprietà intellettuale, copyright e così via. Trattasi del cosiddetto principio dell'information cost, volto a compensare i providers dei servizi digitali dei costi sostenuti grazie ad attività di profilazione, ottenuta per il tramite dell'inferenza dei dati concessi volontariamente dagli utenti stessi, con i metadati analizzati in forma automatizzata tramite appositi algoritmi7_{. Ciò}

apre, oltretutto, a ipotesi di mercificazione del patrimonio della sfera della personalità, o quanto meno dei dati personali degli individui, da cui discende il corollario del riconoscimento di un valore economico della stessa o degli stessi. Tuttavia, tale valore economico risulta essere tanto più basso fintanto che i dati personali restino nella sfera di "controllo" di ciascun individuo, dal momento che le sue abilità di estrazione di 7 G. Colangelo, Big data, piattaforme digitali e antitrust, in Mercato concorrenza regole, III, 2016,

(16)

profittabilità appaiono essere limitate. È, dunque, la capacità di mettere in rapporto inferenziale (tramite tecniche di data mining e big data analytics) tra loro tanti dati diversi derivanti da fonti diverse, che consente un incremento del valore patrimoniale degli stessi. Ma di questo ci occuperemo a breve8_.

Ciò che preme sottolineare in questo momento è come vi siano spazi totalmente estranei alla consapevolezza degli individui circa la produzione e l'immagazzinamento di dati e informazioni, meritevoli di tutela e protezione e che pertanto debbano essere sottoposti all'attenzione dei regolatori nazionali.

Ma cosa sono in concreto i big data? Nonostante paia a prima vista trattarsi di una sorta di slogan informatico, elevatosi ai primi posti dei trend topics di Google nell'ultimo decennio, è inevitabile osservare, anche alla luce di quanto riportato finora, come con la locuzione big data si apprezzino quantità di dati in grado di superare i limiti degli strumenti di database tradizionali9_{. Ancora, lo stesso termine viene utilizzato spesso per indicare}

anche le tecnologie necessarie per far fronte all'analisi di grandi moli di dati grezzi o destrutturati. Il superamento di forme tradizionali di raccolta ed analisi, tipico di banche dati vetuste, si accompagna anche ad un abbattimento dei costi necessari, non solo per l'archiviazione (operata 8 V. Zeno-Zencovich , G.G. Codiglione, Ten legal perspectives on the "big data revolution", cit.,

p. 29 – 57.

9 A. Rezzani, Big Data. Architettura, tecnologie e metodi per l'utilizzo di grandi basi di dati, 2013, Maggioli Editore, pag.19.

(17)

tramite sistemi di cloud computing in sostituzione di hardware commodity e giganteschi server), ma anche per la processazione dei dati – ad oggi si impiegano funzioni automatizzate di c.d. data-mining e algoritmi preimpostati che mettono in correlazione i dati grezzi, acquisiti attraverso i più disparati strumenti. Accompagnandosi ad un incremento negli investimenti in tale direzione impiegati da enti pubblici e privati, si arriva a delineare una sorta di paradosso, per il quale l'abbattimento dei costi di stoccaggio e analisi inferenziale dei dati sarebbe proporzionale all'aumentare degli investimenti in tale campo10_.

Le considerazioni svolte sinora in relazione alle sole mastodontiche dimensioni dei pacchetti di dati prodotti (o in corso di produzione), e all'obsolescenza delle tradizionali banche dati non possono esaurire lo sforzo definitorio insito negli studi sui big data, sebbene tanti autori spesso preferiscano astenersi dall'abbozzare ulteriori implicazioni categoriali11_{. Tale}

tendenza comporterebbe un intenzionale ritratto “liquido” dei big data, costantemente in movimento, soggetto all'evolversi dei contributi tecnologici alla strumentazione digitale, legato ad un principio strettamente volumetrico eppure al tempo stesso generico di “gigantismo”. Pertanto, un 10 IDC's Digital Universe Study, The Digital Universe in 2020: Big Data, Bigger Digital

Shadows, and Biggest Growth in the Far East, 2012, cit.

11 McKinsey Global Institute, Big data: The next frontier for innovation, competition and

productivity, 2011, su www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation. "Big data refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze".

(18)

insieme di dati non potrebbe essere definito "big data" fintanto che non superi un predeterminato numero di pentabytes, terabytes o exabytes; bensì le dimensioni dello stesso dovrebbero a loro volta aumentare in proporzione al progredire dell'avanzamento tecnologico12_.

Nonostante tale ricostruzione possa risultare particolarmente convincente, è innegabile come, anche sulla base dei pochi tratti delineati fino a questo momento, sia possibile evincere ulteriori caratteristiche distintive ed essenziali dei big data, caratteristiche che la letteratura in materia tende unanimemente a ricollegare alla sintetica triade o quadriade delle "V" (Volume, Varietà, Velocità e, talvolta, Veracità)13_{. Abbiamo osservato come i}

numeri esponenziali di crescita della produzione dei dati, riportati nel grafico di cui alla Figura 1.1, rispondente al concetto di Volume, trovino la propria origine nelle più disparate fonti (Web 2.0, macchine, sensori, transazioni bancarie, movimenti su mercati finanziari), richiamando quindi la V di Varietà. Volume e Varietà spesso concorrono ad escludere, a fronte di una superficiale osservazione, la rilevanza in merito al contenuto dei dataset, sembrando quasi preferire una definizione indistinta ed olistica dei 12 Sarebbe inoltre d'uopo osservare come i limiti dimensionali possano variare da settore a settore di interesse; pertanto i mercati influiscono su una plurità di definizioni di big

data, facendo sì che il range di operatività degli stessi in un ramo d'industria possa

variare da una dozzina di terabytes ad una plurità di terabytes.

13 Si veda tra gli altri M. Lycett, 'Datafication': making sense of (big) data in a complex world, in

European Journal of Information Systems, 22, 2013, p. 381 – 386. Lycett in uno sforzo

esegetico tende ad introdurre anche la V di Value, ossia di Valore, quale una sorta di capacità di veicolazione di risorse economiche, da estrapolarsi per il tramite di un processo di "dataficazione" delle infrastrutture.

(19)

dati da cui parrebbe derivare un mercato unico degli stessi, laddove, invece, diversi settori di interesse necessitano di dati differenti, seppur potenzialmente estraibili dalle medesime fonti di origine14_.

Conseguentemente potremmo dunque riconoscere come mercati differenti richiedano input, e quindi masse di dati, differenti o che riguardino differenti ambiti di applicabilità o implicazione di disparate problematiche giuridiche (privacy, copyright o proprietà intellettuale e così via)15_.

Lo stesso concetto di Volume, accompagnato a quello di Velocità, fa sì che lo sviluppo tecnologico, relativo a capacità analitica e strumenti di stoccaggio, possa rendere obsolescenti determinati dati, soprattutto quando inseriti in mercati particolarmente dinamici.

Infine, la Veracità indica la veridicità, l'accuratezza dei dati. Accuratezza del singolo dato a livello microscopico che potrà avere anche effetti dirompenti a livello macroscopico quando inserito in dataset di grandi dimensioni, o sia destinato alla circolazione tra banche dati interconnesse, oppure oggetto di transazione economica o compravendita. A riguardo, si inseriscono anche le ulteriori problematiche di controllo sull'adeguatezza della filiera produttiva e sulla rintracciabilità dei dati grezzi al fine di operare necessarie correzioni, in modo da non inficiare eventuali utilizzi dei 14 G. Pitruzzella, Big Data, competition and privacy: a look from the antitrust perspective, in F. Di

Porto (a cura di), Big Data e concorrenza, in Concorrenza e mercato, I, 2016, p. 15 – 27. 15 D.L. Rubinfeld, M.S. Gal, Access Barriers to Big Data, in 59 Arizona Law Review, 2017, p.

(20)

pacchetti confezionati di dati inerenti la sfera privata dei consumatori e degli individui16_.

Queste tre o quattro caratteristiche, così sommariamente delineate, non hanno la pretesa di soddisfare qualsiasi interrogativo definitorio circa i big data, ma rappresentano le basi per la comprensione della reale forza di questo fenomeno. Le quattro V, quindi, sono la trasposizione etimologica della reale potenzialità dei big data; la loro forza risiede nella capacità di sintesi ed analisi in modalità fino ad oggi inesplorate, da cui scaturisce un innovativo potenziale produttivo e generativo di meta-dati ed informazioni. E, seppur di scienza dei dati volessimo parlare con cautela, non possiamo negare come la progressione tecnologica in materia di data-mining, clustering, analisi per associazione, classificazione, individuazione di anomalie, architettura predittiva – generalmente sussumibili sotto il cappello concettuale di datafication – possa condurre a riconoscere una sempre più approfondita e rapida conoscenza delle dinamiche di correlazione tra variabili che dai big data scaturiscono.

Tutto ciò, come è facile intuire, ha un enorme e dirompente impatto economico e sociale, destinato a influenzare il nostro presente e il nostro futuro, ad incidere in ogni nostra relazione con il prossimo e le istituzioni, il commercio, la legislazione e l'accesso a beni e servizi.

(21)

Una volta avvertito il fenomeno e superato lo sgomento di ciò che ci pare così incommensurabile e portentoso, un Leviatano terribile e indomabile, non possiamo che rimanere affascinati da ciò che, giustamente, è stata definita una rivoluzione. E, al pari di ogni altra realtà fenomenica che nel corso della storia abbia spinto l'uomo all'indagine e allo studio, così, analogamente, anche i big data non possono che indurre l'esploratore, fanciullescamente nascosto nel cuore di ogni individuo, ad incamminarsi sul sentiero della scoperta di ciò che, più di ogni cosa, rappresenta lo spirito del nostro tempo17_.

2. L’innovazione "data-guidata" e la catena del valore nei Big

Data.

Esclusa, quindi, la critica per la quale i big data sarebbero una moda transeunte e assodato trattasi di un processo rivoluzionario dirompente, ma non di per sé distruttivo quanto, al contrario, costruttivo, dobbiamo interrogarci relativamente alle destinazioni, alle modalità di impiego, ai vantaggi e alle problematiche che questi sollevano quotidianamente. Ed è proprio lo sfruttamento dei big data in ogni frangia dell'economia e della produzione di beni e servizi a portarci a formulare un concetto di

"data-17 F. Di Porto, La Rivoluzione Big Data. Un'Introduzione, in F. Di Porto (a cura di), Big Data

(22)

driven innovation"18_.

Nei suoi studi Friedrich von Hayek poneva la conoscenza, per il tramite della libera circolazione delle informazioni, al centro delle proprie riflessioni sull'efficienza del mercato. A fronte, fondamentalmente, dell'incapacità delle entità statali di ottemperare alla migliore allocazione della conoscenza disponibile – a causa dell'impossibilità materiale di immagazzinamento e di processazione di grandi moli di dati – il mercato sarebbe dovuto divenire il terreno di selezione naturale per la suzione della conoscenza medesima da parte degli operatori economici. Le crisi economiche e l'arresto dell'innovazione derivano da difetti di conoscenza; al contrario, l'equilibrio sarebbe perseguibile solo in virtù di una corrispondenza tra dati soggettivi (ossia le medesime conoscenze) e dati oggettivi19_{. L'assunto di base delle teorie di Hayek, alquanto oscuro in}

quanto non meglio esplicitato20_{, supponeva la libera accessibilità da parte di}

tutti gli individui, ognuno in virtù delle proprie capacità, ai dati, alle informazioni e alle conoscenze21_{riscontrabili sul mercato.}

Tutto ciò potrebbe suggerirci di prendere in considerazione la necessarietà dell’implementazione dei precetti di openness e disclosure dei data 18 OECD, Supporting Investment in Knowledge Capital, Growth and Innovation, Parigi, OECD

Publishing, 2013, su dx.doi.org/10.1787/9789264193307-en, p. 321.

19 F. V. Hayek, Economia e conoscenza (1937), in F. Donzelli (a cura di), Conoscenza, mercato,

pianificazione, il Mulino, Bologna, 1988, p. 227 – 252.

20 R. Faucci, Gli economisti, il mercato, le istituzioni, Giappichelli, Torino, 2008, p. 136. 21 Per Hayek l'informazione è meramente recepita su scala quantitativa dagli individui; la

(23)

da parte dei legislatori nazionali – così consentendo un'equa ripartizione delle informazioni tra tutti coloro, portatori o no di un legittimo interesse, che ne facciano richiesta – ma rischieremmo di tralasciare una più lapalissiana e semplice osservazione: l’avanzare delle capacità tecnologiche di stoccaggio e rielaborazione dei dati di cui dispongono, oggi, realtà pubbliche e private – e di cui abbiamo parlato nelle pagine precedenti – è motore e propulsore di un vertiginoso processo di innovazione, tanto più veloce quanto più rapido è il progredire del settore digitale.

Certamente il riconoscimento dell'importanza dell'utilizzo dei dati sul piano socio-economico non è una novità: basti pensare all'attività di censimento, cui fecero ricorsi i governi di regni e imperi in ogni epoca, ai faraoni, all’impero romano, al Domesday Book (ordinato da Guglielmo I in Gran Bretagna nel 1086). I censimenti, impiegati fino al XIX secolo, erano dispendiosi in termini di energie, di tempo e di denaro e le informazioni raccolte rischiavano di diventare obsolete prima della conclusione delle operazioni di analisi. L’alternativa al ricorso alla raccolta e all’utilizzazione di tutti i dati possibili consisteva nel battere la strada del campionamento. In rappresentanza dell’intera massa di dati da misurare (difficilmente collezionabili data la scarsità di mezzi tecnici) si preferiva ricorrere a selezionare dei campioni, restringendo così l’ambito di studio dall’insieme ad un circolo ristretto. Il campionamento, nonostante gli elevati livelli di

(24)

precisione raggiunti, era, tuttavia, il frutto dei limiti alla processazione delle informazioni della sua epoca22_{. Ciò che vale a distinguere la moderna}

datificazione dal passato risiede nell'esplorazione di sentieri finora imbattuti di analisi dei dati e, soprattutto, nel riconoscimento degli stessi quali un fattore di crescita per l'economia di una nazione o per la promozione di un'industria, al pari di qualsiasi altro fattore economico.

Prima di procedere con lo studio dei punti di forza dell'attuale processo di crescita di una qualsiasi economia data-guidata, pare necessario fare una breve, quanto importante, osservazione. Per semplicità d'esposizione, molto spesso con la locuzione big data non si fa riferimento semplicemente ai cumuli di dati grezzi di partenza, bensì ci si riferisce al prodotto rielaborato dei meta-dati, i quali rappresentano il frutto di un'attività di sintesi. Ergo, la forza dei big data risiede non tanto nella attività di accumulazione di volumi di dati di dimensioni sempre maggiori (nonostante ciò corrisponda, forse, alla "V" di maggior rilievo), quanto nella capacità delle moderne economie di estrapolare conoscenza per il tramite di processi automatizzati di connessione inferenziale tra pacchetti di dati. Qui si riscontra il primo limite23_{. L'analisi dei big data propone correlazioni del}

tutto avulse dal principio di causalità24_{. Tutto ciò può portare a mettere in}

22 V. Mayer-Schönberger, K. Cukier, Big Data. Una rivoluzione che trasformerà il nostro modo

di vivere e già minaccia la nostra libertà, Milano, Garzanti, 2013, p. 42.

23 D.L. Rubinfeld, M.S. Gal, Access Barriers to Big Data, cit., p. 348.

24 Federal Trade Commission, Big Data: A tool for inclusion or exclusion? Understanding the

(25)

www.ftc.gov/system/files/documents/reports/big-data-tool-inclusion-or-exclusion-relazione dati per la creazione di informazioni che altro non sono che false scoperte, oppure a riscontrare correlazioni del tutto prive di significato.

Limite che viene solitamente rinfacciato25_{a quanti avessero rilasciato}

entusiastiche affermazioni all'alba dell'ultimo decennio circa la decretazione della fine del metodo scientifico a favore della sola filosofia dei big data analytics, assurta a monoteistica disciplina della ricerca della verità26_{. Le}

correlazioni tra big data mettono in luce un determinato fenomeno, ma non ci spiegano il perché questo avvenga. Essi portano alla nostra attenzione solo cosa avviene, sulla base di processi matematici ben individuabili, ma non per questo esaustivi27_{. Tutto ciò, pertanto, non solo ha rilevanza da un punto di}

vista teorico – dal momento in cui potrebbe dare vita ad una sorta di effetto pigmalione – ma può incidere concretamente sull'erronea previsione di determinati trend economici piuttosto che incidere sui profili reputazionali di un cittadino. Questi potrebbe essere destinatario di pratiche scorrette in merito alla profilazione necessaria per accedere a determinati servizi (un prestito da parte di un istituto bancario, oppure una polizza assicurativa)

understanding-issues/160106big-data-rpt.pdf. Si osserva: "while big data may be highly

effective in showing correlations, it is axiomatic that correlation is not causation". 25 M. Piattelli Palmarini, Attenti, i Big Data non sono la scienza, in La Lettura, Corriere della

Sera, 10 giugno 2016, p. 10.

26 C. Anderson, The end of theory: the data deluge makes the scientific method obsolete, in Wired, 23 giugno 2008. Disponibile su www.wired.com/2008/06/pb-theory/.

27 Se da un’analisi del mercato delle auto usate emerge che le vetture di colore arancione presentino meno difetti rispetto alle altre, senza comprenderne il motivo (maggiore cura da parte dei precedenti proprietari o maggiore attenzione in sede di allestimento in fabbrica?), potremmo essere portati ad assumere la balzana decisione di riverniciare di arancione il nostro mezzo prima di rivenderlo.

(26)

sulla base di correlazioni di dati che portano a risultati assurdi e stravaganti. Tutto questo per ricordare come, a fronte dell'aspirazione dell'uomo di prevedere il futuro ed eliminare le incertezze che le miriadi di variabili riservano nel domani, nonostante risultati paradossali, come quelli di prevenzione dei crimini auspicati nel film di Spielberg, Minority report28_{, non}

siano ormai più pressoché fantascienza29_{, siamo chiamati a considerare con}

alcune riserve ed estrema cautela le controverse scoperte che l'attività di big data analytics porterebbe con sé, proprio in virtù della notevole incidenza che queste hanno sulla nostra velleità di interpretare la realtà. Escludendo per il momento alcune considerazioni di carattere etico, quanto ora osservato non deve indurre a suggerire l'aborto dell'utilizzo dei big data da parte di compagnie ed autorità pubbliche. La propulsione del mercato di oggi, infatti, si identifica nel combustibile che i big data rappresentano per la creazione di prodotti innovativi e di sistemi su cui aziende e consumatori sempre più rapidamente intendono fare affidamento. La ricerca della causa può essere evitata ed aggirata, quando i risultati di una correlazione statistica consentano di prevedere determinati fenomeni e siano di per sé sufficienti a 28 Tratto dall'omonimo racconto di P.K. Dick in Rapporto di minoranza e altri racconti, Fanucci, 2004. Nel corso della produzione del film di Spielberg alcuni consulenti del MIT (Massachusetts Institute of Technology) hanno elaborato un algoritmo basato sui big

data in grado di addivenire ad alcuni dei risultati narrati nella trama del

lungometraggio.

29 V. Mayer-Schönberger intervistato da Antonio Rossano per L'Espresso, 24 ottobre 2014, su

(27)

soddisfare la sete di domande poste da utenti e operatori economici e giuridici. Esiste, dunque, un sostrato teorico alla base dei big data. Non si tratterà di teorie sulle dinamiche causali di un fenomeno, quale ad esempio la gravità, ma questi impiegano pur sempre teorie statistiche e matematiche ad elevato grado di predittività30_{. La vera e propria sfida, piuttosto, si colloca}

sul piano del come enti pubblici e privati possano servirsi dei big data secondo modalità atte ad assicurare la massimizzazione del beneficio proprio e della società, minimizzando al tempo stesso i rischi di carattere etico e legale. Nel rispetto, in primis, del principio di legalità – anche se per ora non proficuamente contestualizzato in materia di big data – coloro che si servono dei big data analytics dovrebbero essere consci dell'importanza dello sviluppo di tecniche di identificazione di errori preconcetti ed inesattezze.

Dalla convergenza di tre tendenze socio-economiche e tecnologiche scaturisce ciò che fa dell'innovazione data-guidata il principale fattore di sviluppo. Esse sono: l'esponenziale crescita nella generazione e nella collezione di dati; la forza pervasiva dei big data analytics; l'emergere di un nuovo modello paradigmatico di procedimento decisionale e di creazione di conoscenza.

Tali tre tendenze possono essere efficacemente visualizzate nella Figura 1.2, a sua volta parte integrante di una più amplia catena di 30 V. Mayer-Schönberger, K. Cukier, op. cit., p. 101.

(28)

produzione di valore aggiunto dei big data.

Figura 1.2 sintesi delle tendenze chiave dell'innovazione data-guidata31_.

Comprendere questi tre punti chiave diviene momento cruciale per le economie dei governi che intendano sfruttare al meglio tale nuova fonte di crescita. È facilmente prevedibile come le economie che si servano di siffatte tendenze abbiano molte più chance di trovarsi nella posizione migliore per beneficiare dell'innovazione data-guidata. Ciò non vuol dire, tuttavia, che tutti i fattori di cui alla Figura 1.2 debbano essere parimenti sviluppati allo scopo di realizzare ed ottenere benefici. I modelli di business sottesi all’impiego dei big data possono essere facilmente modulabili in diverse combinazioni a seconda di quali siano i segmenti di mercato interessati e tenendo in considerazione le prerogative degli operatori economici che vi partecipano. L’ecosistema di un’economia data-guidata, tuttavia, deve tenere conto della necessarietà di alcune figure, tramite le 31 OECD, Data-driven innovation. Big data for growth and well-being , Parigi, OECD

(29)

quali sia possibile lo sfruttamento dei fattori di cui alla Figura 1.2 e la veicolazione di ricchezza che da questi scaturisca. Trattasi di fornitori di servizi internet; fornitori di infrastrutture di Information Technology (componentistica hardware e software, servers e, soprattutto, strumentazioni di cloud computing); fornitori di dati (data brokers, pubbliche amministrazioni, privati); fornitori di servizi di data analytics; imprenditori che sottopongano la propria attività d’impresa al rispetto di modelli di decisione data-guidata. Sebbene una panoramica di questo genere – pur sempre semplicistica e ridotta per fini espositivi –, suggerisca la contestualizzazione delle idee di business nel solo settore ICT (Information and Communications Technology),

l'innovazione data-guidata non risulta essere solo una sfida di carattere tecnologico. Essa investe e trascina con sé, infatti, tutta un'altra serie di sfide che riguardano i processi lavorativi, le modalità di impiego, le attitudini e i cambiamenti nel contesto delle politiche di direzione manageriale e di risorse umane. Ed, ancora, l'interoperabilità e la modulazione dei servizi

B2B (business to business), finalizzati allo sfruttamento delle risorse di cui alla

Figura 1.2, consentono la possibilità di intraprendere sentieri di abbattimento delle barriere di ingresso in numerosi settori di mercato per

starp-up e aziende di dimensioni medio-piccole. Il ricorso a servizi cloud offre

alternative sempre più valide ed economiche (sia per i fornitori che per gli utenti) all’impiego di costose infrastrutture tecnologiche e quindi consente

(30)

un risparmio iniziale sugli investimenti. Ne consegue, almeno sulla carta, un incremento della competitività dei mercati ed una spinta alla rincorsa dei processi innovativi in materia. Sempre più providers di servizi di cloud

computing implementano, poi, la propria offerta con soluzioni di data analytics

ottenendo, a loro volta, un tornaconto economico per il tramite dell’estrapolazione di valore aggiunto (od opzionale) dai dati immessi sulla stessa “nuvola”32_.

Oltre alla massimizzazione del profitto per imprenditori e operatori economici, bisogna inoltre sottolineare come l’innovazione data-guidata possa essere apprezzata anche dal punto di vista del perseguimento di un beneficio per l’intera collettività e la società.

Al diffondersi dell’epidemia di H1N1 (combinazione del virus dell’aviaria con l’influenza suina) a partire dal 2009 negli USA, a dispetto dell’operato dei Centers for Disease Control and Prevention, incaricati della monitorazione della propagazione influenzale sul territorio nazionale, un apposito programma di Google è stato in grado di prevedere con maggiore efficienza e velocità il raggio d’azione del focolaio epidemico, sulla base delle ricerche effettuate dai cittadini sul motore di ricerca al manifestarsi dei sintomi influenzali33_{. I risultati del sistema Google Flu Trends, tarato sulla}

32 Si veda su questo tema il § 3.

33 A.F. Dugas et al., Google Flu Trends: Correlation with Emergency Department Influenza Rates

and Crowding Metrics; CID Advanced Access (8 gennaio 2012); DOI

(31)

ricombinazione di milioni di ricerche con i dati ufficiali posseduti dalle autorità sanitarie circa la diffusione di precedenti episodi epidemici, hanno permesso agli ingegneri del colosso informatico di estrapolare 45 parole-chiave ricorrenti che, rielaborate in un apposito algoritmo, apparivano essere il campanello d’allarme del manifestarsi della malattia negli individui. L’idea di fondo – tanto semplice a dirsi, quanto complicata a realizzarsi – era quella di ricercare delle correlazioni tra la frequenza di determinate

queries e la diffusione spazio-temporale dell’epidemia. Gli esiti della

monitorazione di Google, fondati sull’interazione di enormi volumi di dati in tempo reale, si sono rivelati di gran lunga più efficaci ai fini della prevenzione dell’influenza di quanto non potessero fare i rilievi raccolti nei presidi sanitari.

Questo riporta nuovamente all’attenzione la vicenda della sola manifestazione fenomenica messa in evidenza dai big data sulla base della correlazione inferenziale tra dati; il perché viene nuovamente oscurato dal

cosa in termini, questa volta, di efficienza e di massimizzazione del beneficio

per la società. Ma il cosa, nella cornice di questa vicenda, emerge grazie all’impiego e allo sfruttamento di un potenziale tecnico, concettuale ed innovativo che le autorità pubbliche non erano in grado di sviluppare, non tanto per la scarsità di materia prima, quanto piuttosto per la penuria di investimenti in tal senso. Investimenti che andrebbero necessariamente

(32)

potenziati, tenendo conto dell’incremento di valore economico insito nello sfruttamento dei dati in pressoché ogni campo.

La letteratura34_{in materia tende ad evidenziare cinque settori ad alto} potenziale per l’utilizzo dei dati quali una risorsa per l’innovazione e la crescita della produttività. Trattasi di: pubblicità online; pubblica amministrazione; sanità; utenze; logistica e trasporti. Tutti e cinque questi settori si ritiene possano generare, laddove non ancora sfruttati al massimo della loro potenzialità, effluvi di informazioni impiegabili per la produzione di benefici addizionali. La promessa insita nel processo di innovazione di questi campi fa leva sullo sfruttamento dei medesimi dati ivi generati e raccolti secondo tre principali tendenze: uso dei dati per la creazione di nuovi beni e servizi (laddove i dati stessi andrebbero a rappresentare una componente di rilievo di tali prodotti); uso dei dati per ottimizzare l’efficienza della distribuzione delle risorse energetiche o per razionalizzare logistica e trasporti; uso dei dati per rilanciare la ricerca e il progresso.

Nonostante ogni mercato, segmento o campo presenti specifiche peculiarità in ordine al riconoscimento della specifica rilevanza dei big data a fini innovativi – oppure alla compresenza di più operatori ed a specifiche finalità di utilizzo delle informazioni scaturenti da processi di sintesi ed analisi – è possibile individuare un procedimento di sfruttamento dei dati,

(33)

che possa fungere da comune denominatore per le attività destinate all’estrapolazione di valore dai big data in ogni campo. Ad esso ci si riferisce solitamente con l’espressione di “catena del valore nei big data”.

Figura 1.3 La catena di valore nei big data o il ciclo vitale dei dati35_.

Dato per assodato che il valore insito nei big data in sé non risieda tanto nel possesso fine a sé stesso, quanto piuttosto nel riconoscimento degli stessi quali un fattore economico al pari di qualsiasi altro, le maglie della catena di cui alla Figura 1.3 rappresentano tappe salienti di un processo comune a tutti i settori di mercato e risultano utili anche per la comprensione delle dinamiche competitive ivi sottese. Analizzare la collocazione nello sviluppo della catena di uno degli operatori economici di cui abbiamo parlato nelle pagine precedenti, aiuterà a svelare eventuali arroccamenti di potenziali incumbents oppure possibili barriere di accesso per

new entrants. Nello specifico, il primo momento della generazione dei dati

non prevede che questi nascano già come big data, bensì spetterà alle attività poste in essere nelle fasi successive (collection, storage e processing) addivenire all’implementazione di sempre maggiori quantità di informazioni,

(34)

provenienti dalle più disparate fonti, ai fini del soddisfacimento del requisito di cui alla prima V – Volume. Gli ultimi due momenti della catena (distribution e analytics) implicano la possibilità di negoziazione commerciale dei big data collezionati e di sottoposizione degli stessi a procedimenti analitici ai fini della scoperta di correlazioni tra gli stessi36_{. I risultati di tali} attività permettono, poi, la possibilità di generazione di ulteriori dati, i quali a loro volta seguiranno un proprio ciclo vitale o comporteranno ulteriori diramazioni di quello originale. Alcuni autori37_{ampliano la catena così} delineata nella Figura 1.3, individuando nell’utilizzo (usage in inglese) il momento finale e forse di maggior impatto della stessa. L’impiego della conoscenza scaturente dalle attività di data mining e data analytics non può che influenzare allora inevitabilmente le politiche ed i processi decisionali delle autorità pubbliche, degli operatori economici e degli individui agenti nei diversi settori di interesse.

3. Il mercato rilevante dei Big Data e l'approccio antitrust

In determinati settori economici in cui la conoscenza data-guidata rivesta un ruolo particolarmente rilevante, le derive economiche dei big data tendono a favorire la concentrazione e la dominanza nel mercato stesso.

36 Federal Trade Commission, Big Data: A tool for inclusion or exclusion? Understanding the

issues, cit.

(35)

Compagnie commerciali più grandi hanno accesso a dataset di maggiori dimensioni e ciò consente di offrire ai propri consumatori servizi e prodotti creati su misura; tutto ciò si riflette poi, nuovamente, a favore delle medesime compagnie, le quali di conseguenza sono in grado di raccogliere ancora più informazioni e dati. Si tratta, dunque, in apparenza, di un meccanismo in grado di rafforzarsi autonomamente: la disponibilità di dati assicura la concentrazione e fa sì che chi si trovi in posizione dominante difficilmente possa essere scalzato da nuovi entranti. Parrebbe trattarsi, pertanto, di una barriera all'accesso38_{, supportata da una sorta di network}

effect. Una ricostruzione siffatta, se portata all’estremo, potrebbe condurre al risultato tipico del “winner takes it all”39_{; ma ciò non sempre è vero, o,}

perlomeno, non è sempre vero per tutti i mercati data-guidati. Molto può dipendere dalla presenza di uno o più intermediari per la prestazione di diversi servizi, oppure dal fatto che ogni servizio sia garantito da un solo fornitore; certo, il network effect, soprattutto se combinato con altre barriere all’ingresso, può incidere notevolmente su molti aspetti competitivi40_.

È d’uopo, però, fare qualche passo indietro prima di proseguire con l’analisi appena abbozzata. Bisogna, innanzitutto, premettere come il soggetto che produce il dato ed il soggetto che detiene lo stesso e lo controlla quasi sempre non coincidano. Un dato, perché possa essere reso 38 G. Pitruzzella, cit., pag. 19.

39 OECD, Data-driven innovation. Big data for growth and well-being, p. 329 40 D.L. Rubinfeld, M.S. Gal, Access Barriers to Big Data, cit., p. 377.

(36)

fruibile, deve collocarsi in uno spazio empireo, ossia un cloud accessibile. Il dato, dunque, nel momento in cui viene prodotto ed immesso nello spazio dei gestori di sistemi cloud (v. Facebook ad esempio) sfugge dalle mani del legittimo proprietario. Come è stato osservato, allora, "la titolarità del trattamento del dato coinciderebbe, dunque, con la disponibilità del dato stesso e con l'esercizio di un potere di controllo sui dati, dal quale è possibile trarre utilità economica"41_{. Talvolta, coloro che si servono dei dati non sono neanche}

coloro che si sono adoperati per raccoglierli. Ciò significa che la provenienza degli stessi vada ricercata nell'attività di collezione e di distribuzione di licenze sui dati da parte di appositi enti. La semplice raccolta, senza utilizzo diretto, e la distribuzione di pacchetti di dati escludono un passaggio fondamentale della catena di produzione di valore aggiunto di cui alla Figura 1.3: l'analisi e la rielaborazione in metadati delle informazioni ottenute. Questa attività potrebbe, infatti, essere affidata ad apposite agenzie (data brokers), la cui attività commerciale consiste in una procedura di profilazione per il tramite dell'integrazione inferenziale tra i dati. Molto spesso i destinatari dei risultati di tale attività sono gli stessi intermediari che operano negli stadi preliminari del ciclo di produzione del valore aggiunto. Ammesso, e non concesso, che l'attività di eventuali data brokers, che vendono il proprio servizio a chiunque ne faccia richiesta, possa 41 M. Orefice, I "big data", regole e concorrenza, in Politica del diritto, IV, 2016, p. 697-743.

(37)

mantenere salda la salubrità del panorama competitivo nella gestione dei big data – e, al contempo, escludendo qualsiasi riflessione in questa sede relativa alla privacy degli individui – non possiamo non osservare come imprese di grandi dimensioni, internet firms colossali alla stregua di Google, occupino tutti le posizioni degli operatori nella catena di valore dei big data. Un'impresa quale Google raccoglie i dati, li integra nei propri servizi, elabora sistemi operativi, sistemi cloud, mette a disposizione di altri operatori applicazioni in grado di consentire il riutilizzo di dati al fine di estrarne valore aggiunto: sono, questi, operatori verticalmente ed orizzontalmente integrati42_.

La panoramica completa sul pacchetto completo di servizi interconnessi di Google (comprensivo di Gmail, YouTube, Google Maps, Android ecc., apparentemente gratuiti, ma pagati, anche involontariamente, con la cessione all'utilizzo dei propri dati personali) evidenzia come questo raccolga volumi considerevoli di dati, destinati tanto alla vendita di pubblicità agli utenti, quanto alla compilazione di profili accurati cui gli inserzionisti pubblicitari hanno interesse. Trattasi, questa, di un'attività di search advertising, che, in una sorta di circolo vizioso, remunera le ulteriori attività di raccolta di informazioni da parte delle grandi internet firms, le quali confluiranno ulteriormente ad alimentare il medesimo mercato dominato 42 J. Farrell, P.J. Weiser, Modularity, vertical integration and open access policies: towards a

convergence of antitrust and regulation in the Internet age, in Harvard Journal of Law & Technology, 17(Is 1), 2003, p. 86 ss.

(38)

dal search advertising43_{. Così asimmetrie, atte a distorcere la concorrenza, si}

vengono a creare inevitabilmente nel Web. La posizione ricoperta a tappeto da parte delle internet firms nella catena di produzione di valore aggiunto dei big data dà vita ad un meccanismo in grado di reggersi e rafforzarsi autonomamente, rendendo il dominio acquisito pressoché inattaccabile.

Ma non solo questo meccanismo si replica e si alimenta in relazione alla sfera informatica della targhetizzazione delle inserzioni pubblicitarie, attraverso piattaforme eroganti servizi c.d. over the top44_{, bensì può investire}

qualsiasi altro settore commerciale o riguardare la produzione di beni e servizi di interesse pubblico.

Ecco, allora, che ambiti di particolare rilevanza per la vita dei cittadini, quali la sanità o la finanza, assurgono a settori di mercato influenzabili da parte di coloro che partecipano alla catena del valore aggiunto dei big data; sia che le varie posizioni siano ricoperte da operatori diversi, sia che vi siano soggetti in posizione dominante in grado di occupare saldamente più postazioni.

Il seguente schema separa le fonti di raccolta delle informazioni, suddividendole in specifichi settori. Nelle caselle sono evidenziate le attività

43 M. Orefice, opera cit., v. supra nota 25.

44 AGCOM, Indagine conoscitiva concernente lo sviluppo delle piattaforme digitali e dei servizi di

comunicazione elettronica, Allegato A alla delibera n. 165/16/CONS; BEREC, Report on OTT services, gennaio 2016, pag. 6, i servizi Over The Top sono definiti come “content, services or applications that are provided to the end user over the public Internet” (ovverosia sono

(39)

primarie svolte da ipotetici distinti operatori. Gli esempi riportati sono utili sia per mettere in luce le operazioni di profilazione e monitorazione degli utenti (con tutte le implicazioni relative alla tutela dei dati sensibili degli stessi), sia per comprendere la circolarità del meccanismo del ciclo del valore aggiunto dei big data, i cui ingranaggi sono i medesimi di cui alla Figura 1.2.

Health Finance Retail

First Party (self-tracking) Weight loss or exercise app on phone Home finance software Self-monitoring of purchases Second Party (direct interaction) Amazon logs purchase of diet books Purchase of Turbotax® online Target on Amazon logs purchases in company databases Third Party (intermediary logging data)

ISP or search engine logs queries about diabets, cancer, other diseases

Credit card company analyzes transactions between first party (you) and sellers (second party) Cookies from ad networks or social networks may be logging records of items reviewed Fourth Party

(broker buying data from any of the above)

Data brokers increasingly try to integrate all of the aforementioned sources into profiles. They help create a competitive landscape where leanding second – and third – party firms also feel the need to integrate data.

Figura 1.4 Uno sguardo sul panorama del tracciamento dei dati45

45 F. Pasquale, The Black Box Society. The Secret Alghorithms That Control Money and

(40)

Alla luce di queste considerazioni, pare scontato riconoscere come il valore economico insito nei big data non consista nei dati in sé considerati, quanto nella disponibilità di strumenti atti ad immagazzinarne e processarne grandi quantità e, più di tutti, di algoritmi e software per i data analytics, in grado, per l'appunto, di estrapolare valore dai dati. Tutto ciò ci porta – e ci ha portato finora – a studiare la questione non tanto sul piano delle categorie classiche della proprietà e della proprietà intellettuale, quanto su un piano principalmente contrattuale. Stiamo trasferendo, così, la prospettiva legale dal piano della proprietà in senso civilistico a quello della fornitura di servizi, sia che questi siano garantiti da chi detenga i dati, sia che siano erogati da terzi data-brokers in virtù di apposita licenza46_.

Questa insolita prospettiva – insolita, se rapportata alle categorie di studio solitamente privilegiate in ambito accademico – ci porta a considerare il problema dell'accessibilità ai dati in una prospettiva decisamente più ampia rispetto a quanto potremmo fare se ricorressimo agli strumenti civilistici più classici. Questi, ossia, vengono recepiti in un numerus clausus di categorie aventi ad oggetto il trasferimento di diritti su un'universalità di entità non materiali, quali appunti sono i big data (trattasi di copyright, trademarks e brevetti, protetti sulla base di apposite definizioni 46 V. Zeno-Zencovich, G. Codiglione, cit., p. 30.

(41)

normative47_).

A discapito della posizione privilegiata assunta da Google – piuttosto che da enti simili, pubblici e privati, nei diversi settori di mercato – è possibile riconoscere la libera accessibilità ai big data?

Per rispondere a tale interrogativo, due sono essenzialmente le problematiche da affrontare, le quali, a loro volta, pongono ulteriori quesiti: esiste un mercato rilevante dei big data? E che natura (giuridica e non) questi hanno?

Partiamo nuovamente dalla catena di produzione di valore aggiunto dei big data – collezione, stoccaggio, sintesi e analisi, utilizzo. Come evincibile da quanto esposto nelle righe precedenti, è logico far leva sugli ultimi stadi della medesima catena per studiare l'eventuale presenza di barriere all'accesso. Ma, ancora, la presenza di eventuali barriere può essere riconosciuta in relazione agli studi sulle tre – o quattro – caratteristiche tecniche dei big data rispondenti alle altrettante "V".

Le caratteristiche di Volume, Varietà e Velocità, brevemente tratteggiate nelle pagine precedenti, a loro volta possono essere sintomatiche dell’opportunità dell’implementazione di eventuali economie di scala, di scopo o di velocità e, quindi, incidere notevolmente in termini di 47 Direttiva 96/9/CE, 11 marzo 1996, sulla tutela giuridica delle banche dati; l'art.3 recita: "A norma della presente direttiva, le banche di dati che per la scelta o la disposizione del

materiale costituiscono una creazione dell'ingegno propria del loro autore sono tutelate in quanto tali dal diritto d'autore".

(42)

competitività sul mercato. Numerosi possono essere i fattori, quali univoci punti di accesso alle informazioni, costi fissi per infrastrutture di estrapolazione di dati o creazione di sinergie tra imprese a fini di data analytics48_{; mentre la Velocità può incidere in ordine al vantaggio temporale}

ottenuto da chi si sia inserito per primo in un settore di mercato49_{. Ciascuna}

delle tre V può quindi autonomamente, o ricombinata con le altre, comportare un vantaggio per coloro che detengano bacini di utenza estremamente ampli da cui discenda inevitabilmente il rafforzamento di effetti di rete, diretti ed indiretti. Un incremento del numero degli utenti di un servizio data-guidato può consentire l’acquisizione di ulteriori nuove informazioni (e pertanto condurre ad una forte asimmetria informativa); mentre l’accumulazione di dati su un versante può essere funzionale al miglioramento della prestazione su ulteriori versanti di modelli di business c.d. multi-sided50_{. Spesso queste pratiche si accompagnano anche a strategie di}

48 Eppure il Dipartimento di Giustizia statunitense non riconosce una riduzione della competitività nel caso dell'accordo tra Microsoft e Yahoo! a fini di incremento di disponibilità di data users da parte dell’azienda informatica, anzi, ritiene trattarsi della creazione di una sinergia in grado di offrire una valida alternativa a Google. V. U.S. Dep’t of Justice, Statement of the Department of Justice Antitrust Division on Its Decision to

Close Its Investigation of the Internet Search and Paid Search Advertising Agreement Between Microsoft Corporation and Yahoo! Inc., 18 febbraio 2010, su www.justice.gov/opa/pr/statement-department-justice-antitrust-division-its-decision-close-its-investigation-internet.

49 D.L. Rubinfeld, M.S. Gal, Access Barriers to Big Data, cit., p. 353.

50 D. S. Evans, Multisided Platforms, Dynamic Competition, and the Assessment of Market Power

for Internet-Based Firms, University of Chicago Coase-Sandor Institute for Law &

Economics, research paper n. 753, 2016. Una piattaforma multi-versante è un luogo virtuale di incontro atto a facilitare l'intermediazione tra gli scambi commerciali di due o più gruppi di agenti economici.

(43)

lock-in51_{degli utenti, i quali, a fronte magari di un prodotto o di un servizio}

(apparentemente) gratuito, non sarebbero indotti a prendere in considerazione l’idea di abbandonare un determinato provider per appoggiarsi al concorrente (il quale magari fornisce un prodotto di qualità maggiore, ma a pagamento), alimentando, così, il pericolo dell’annullamento degli effetti positivi del multi-homing52_.

Nonostante i pericoli cui or ora si è fatto accenno, la letteratura in materia tende a ribadire, quasi unanimemente, come i big data non siano una risorsa infungibile, anzi, essi apparirebbero essere non esclusivi né rivali (i.e. il consumo non ne decresce la disponibilità per gli altri). I costi per la loro raccolta sono ad oggi estremamente bassi e sono acquisibili attraverso più canali: come abbiamo visto, possono essere acquistati sul mercato, oppure essere raccolti da svariate fonti53_{. Inoltre, utenti c.d. multi-homing possono}

decidere di usufruire di un medesimo servizio, attingendo da diversi fornitori dello stesso (così cedendo più di una volta a operatori diversi i propri dati personali). Ciò ha portato la Commissione Europea, in più di un'occasione, a riconoscere la permanenza di ampi bacini di dati relativi ai comportamenti degli utenti, acquisibili da parte di coloro che se ne servano per attività di search advertising, nonostante ingenti operazioni di

51 G. Colangelo, Big data, piattaforme digitali e antitrust, cit., p. 432. 52 Su cui si tornerà infra.

(44)

concentrazione quali quelle Facebook/WhatsApp54_{o Google/DoubleClick}55_.

L'idea alla base del riconoscimento della non rivalità dei big data trae il proprio input dalla strategia di business, dagli espedienti tecnologici, dall'uso che di tali dati si faccia. Ne consegue che i sostenitori di tale chiave di lettura facciano leva sull'ultimo ingrediente della catena di valore dei big data, ovverosia quello dell'utilizzo. La prospettiva si sposta dalla collezione e dall'analisi, a quello dell'uso. I big data non possiederebbero, quindi, un valore intrinseco di per sé, bensì un valore occulto, ovverosia "opzionale"56_,

che spetterà agli operatori economici estrarre. Tale concetto corre di pari passo con quello di riutilizzo innovativo dei dati; spetta a chi sia chiamato a maneggiarli scegliere tra le varie opzioni – potenzialmente infinite – di impiego. In passato si riteneva che, una volta realizzato lo scopo principale per il quale i dati erano raccolti, questi avessero esaurito la propria funzione, 54 Commissione Europea, 3 ottobre 2014, caso COMP/M.7217. La Commissione mette in luce come vi siano diversi altri concorrenti nel mercato a spartirsi la torta dei dati degli utenti affianco a Facebook (Apple, Amazon, eBay, Microsoft, Yahoo!, Twitter ecc.). Al paragrafo 189, indipentemente dal rilievo della circostanza per la quale gli user data di WhatsApp possano essere impiegati per migliorare il targeted advertising su Facebook, recita: "there will continue to be a large amount of Internet user data that are

valuable for advertising purposes and that are not within Facebook’s exclusive control". A onor di

cronaca bisogna, però, ricordare come, a seguito delle indagini avviate sulla modifica delle condizioni contrattuali applicate da WhatsApp a partire dall'agosto 2016 (le quali associavano numero di telefono e account Facebook), la Commissione sia addivenuta alla decisione di sanzionare il colosso informatico per 110 milioni di euro a causa delle fuorvianti dichiarazioni rilasciate all'epoca dell'acquisto (febbraio 2014) circa l'utilizzo dei dati degli utenti. A soluzione simile (per una multa di 3 milioni di euro) era giunta nello stesso periodo anche l'AGCM.

55 Commissione Europea, 11 marzo 2008, caso COMP/M.4731. A medesima conclusione giunge anche la Federal Trade Commission (FTC), 20 dicembre 2007, caso 071-0170.

56 V. Mayer-Schönberger, K. Cukier, Big Data. Una rivoluzione che trasformerà il nostro modo