• Non ci sono risultati.

Il ruolo cruciale dei big data e l’insita opacità

Nel documento Profilazione e Decisioni Automatizzate (pagine 57-65)

Capitolo II La Profilazione tramite l’uso de

III.1. Il ruolo cruciale dei big data e l’insita opacità

Come accennato in precedenza, la disponibilità dei dati non è l'unico progresso tecnologico che facilita il targeting individuale poiché anche le grandi quantità di informazioni acquisite devono essere organizzate e analizzate in modo efficiente.

Le sfide poste da enormi serie di dati vengono comunemente denominate Big Data (letteralmente Grandi Dati), un termine che può essere definito come quelle attività di informazioni ad alto volume, ad alta velocità e varietà che richiedono forme innovative ed economiche di elaborazione delle informazioni che consentono approfondimenti, processi decisionali e automazione dei processi135.

In aggiunta, queste serie di dati troppo grandi e complessi da manipolare o interrogare con metodi o strumenti standard136. Dalla prima definizione, il termine volume descrive la vasta scala dei database (Banche Dati), velocità si riferisce ai dati in tempo reale e varietà si riferisce al fatto che i dati possono derivare da fonti molto diverse tra loro137.

135 SAS Italy (2019). Big Data - What it is and why it matters. https://www.sas.com/it_it/insights/big-data/what-is- big-data.html [10/11/2019]

136 Ibid.

137 ICO (2017). Big data, Artificial Intelligence, Machine Learning and Data Protection. https://ico.org.uk/media/for-organisations/documents/2013559/big-data-ai-ml-and-data-protection.pdf

La forma attualmente più avanzata di elaborazione dei sistemi di Big Data è il cosiddetto Machine Learning (Apprendimento Automatico), un processo in cui gli algoritmi imparano a identificare i modelli nei dati accumulati e a modificarne l'output138.

Questo processo di Machine Learning può avvenire sia supervisionato in un processo in cui l'algoritmo impara ad associare correlazioni corrette in una serie di dati di addestramento, sia non supervisionato, che si riferisce a una situazione in cui l'algoritmo cerca autonomamente modelli nei dati senza indicare cosa cercare139.

Questa capacità di risoluzione dei problemi che viene acquisita dagli algoritmi è una forma di Artifical Intelligence (AI) (Intelligenza Artificiale), la quale, sebbene spesso usata in modo intercambiabile, si riferisce più in generale alla capacità di un computer di modellare un aspetto del mondo e applicare quel modello a scenari futuri140.

La combinazione dei concetti di AI, Machine Learning e Big Data è ciò che viene comunemente chiamata Big Data Analytics (Analisi dei Grandi Dati)141.

Il processo di utilizzo dei Big Data può essere suddiviso in tre fasi principali: acquisizione, analisi e applicazione142. La fase di acquisizione è contrassegnata da una raccolta di dati che possono essere ottenuti direttamente dai consumatori nel corso della registrazione o del monitoraggio, acquistato da terzi o raccolto da fonti disponibili al pubblico143.

Infine, la Big Data Analytics si traduce anche nella creazione di nuovi dati riconoscendo i modelli che possono quindi essere nuovamente parte dell'accumulo di dati nella fase di acquisizione. Nella fase di analisi, questi dati vengono quindi, spesso in forma

138 KAMARINOU, D., MILLARD, C. AND SINGH, J. (2016). Machine Learning with Personal Data (November 7, 2016). Queen Mary School of Law Legal Studies Research Paper No. 247/2016.

139 Ibid. 140 Ibid. 141 Ibid.

142 D’ACQUISTO G. E NALDI M. (2017). Big Data e Privacy by Design. Anonimizzazione, Pseudonimizzazione, Sicurezza, Torino: Giappichelli

anonima, archiviati o elaborati allo scopo di creare inferenze e ipotesi trovando correlazioni e modelli144.

Nella fase di applicazione, i modelli creati vengono quindi applicati agli individui, sia direttamente mirati o influenzandoli come membri di un gruppo che dipende dal risultato calcolato145.

In questa Big Data Analytics, si possono identificare cinque caratteristiche che la distinguono da altre forme di analisi146:

➢ L'uso di algoritmi;

➢ L’opacità dell'elaborazione;

➢ La tendenza a raccogliere "tutti i dati" ➢ Il riutilizzo dei dati;

➢ L'uso di nuovi tipi di dati.

Mentre gli algoritmi in quanto tali non sono un fenomeno nuovo, la possibilità di utilizzarli come reti neurali complesse ha notevolmente accelerato a causa dei progressi nel potere computazionale. Nelle reti neurali, le singole unità algoritmiche in uno strato inferiore combinano i valori di input per produrre un valore di output che viene successivamente trasferito a singole unità o più unità nello strato successivo, risultando in un tipo di elaborazioni sinaptiche che a volte possono comportare parecchie decine di strati, con risultati estremamente complessi e precisi. Pertanto, tali reti sono essenzialmente modellate sul funzionamento del cervello umano147.

Sebbene siano ancora lontani dal raggiungere lo stato di intelligenza artificiale generale che potrebbe raggiungere capacità di adattamento e intelligenza simili a quelle umane attraverso lo uso di un'ampia varietà di compiti, le applicazioni di cosiddetta intelligenza artificiale ristretta possono facilmente superare lo schema umano e il riconoscimento

144 Ibid. 145 Ibid.

146 ICO 2017, Op. cit. 147 Ibid.

della correlazione in compiti altamente specifici ed eseguire estremamente bene tutti quei tipi di lavori di ordinaria amministrazione148.

L'enorme capacità di riconoscimento del modello dell'apprendimento automatico consente in teoria una segmentazione estremamente dettagliata dei clienti basata su una vasta gamma di tratti.

Se una capitalizzazione basata su strategie di raggruppamento sempre più granulari sia etica è comunque una domanda problematica, soprattutto se alcune caratteristiche che influenzano delle decisioni corrispondenti strettamente all'etnia, all'orientamento sessuale o al genere149.

Ciò è problematico perché l'immensa complessità dei risultati della Big Data Analytics hanno anche un alto grado di opacità che essenzialmente rende il processo decisionale molto complicato in cui è necessario uno sforzo considerevole per comprendere un risultato particolare, che a volte è quasi impossibile anche per gli esperti di intelligenza artificiale150.

In termini di decisioni estremamente personalizzate ciò pone problemi essenziali riguardo alla minaccia di discriminazione poiché le analisi estremamente granulari delle sezioni dei clienti incorporeranno e utilizzeranno con alta probabilità le caratteristiche dei clienti che rispondono a loro caratteristiche personali151.

Lungi dalla speranza che i sistemi automatizzati possano sradicare i pregiudizi della percezione umana, algoritmi basati sui dati che possono riprodurre questi pregiudizi perché sono incorporati nella loro codifica programmata dall'uomo o perché i dati con cui vengono alimentati sono imprecisi o distorti152.

148 DICKSON, B. (2017).'What is Narrow, General and Super Artificial Intelligence?. https://bdtechtalks.com/2017/05/12/what-is-narrow-general-and-super-artificial-intelligence/ [10/11/2019] 149 SCHRAGE, M. (2014). Big Data’s Dangerous New Era of Discrimination, Harvard Business Review, 29 January 2014. https://hbr.org/2014/01/big-datas-dangerous-new-era-of-discrimination [10/11/2019]

150 D’ACQUISTO E NALDI 2017, Op. cit. 151 SCHRAGE, 2014, Op. cit.

Inoltre, poiché i Big Data possono trarre inferenze potenzialmente invasive sulla privacy dai punti di dati combinati che presi individualmente sono originariamente non sensibili alla privacy, la Big Data Analytics ha il potenziale per aggirare i tre elementi tradizionali della legislazione sulla privacy, ovvero la raccolta, l'elaborazione e la divulgazione153.

Per quanto riguarda gli elementi personalizzati, ciò suggerisce che potrebbe essere impossibile per le persone prevenire la discriminazione di questi elementi contro perché, anche se rinunciano alla condivisione dei dati che considerano fondamentali per tali pratiche, altre voci di dati liberamente disponibili ad essi correlate potrebbero rivelare le stesse intuizioni.

Sebbene ciò sia già potenzialmente problematico per i consumatori in generale, il problema si aggrava quando si tratta di gruppi con una vulnerabilità speciale. Anche se sia i dati immessi che l'algoritmo che calcola il risultato sono oggettivi e nessuna categoria discriminante come razza o genere viene utilizzata per la stima del risultato finale, la decisione automatizzata può comunque discriminare un determinato gruppo perché l'interconnessione di diversi punti di dati può comportare una profilazione di tratti che funge da proxy (procura) per i dati di categorie speciali154.

Un esempio di tale discriminazione indiretta o discriminazione per procura potrebbe essere che una decisione automatizzata basata sul codice postale di una determinata area geografica possa essere discriminatoria poiché quest'area è abitata principalmente da una determinata etnia, che già in passato ha rappresentato un problema molto rilevante nella politica di alcune aziende come Amazon di non fornire il proprio servizio di consegna in giornata in quartieri prevalentemente “neri”155.

153 DEL NINNO A. (2006). La tutela dei dati personali: guida pratica al Codice della privacy (d.lgs. 30/06/2003, n.196), Padova: CEDAM

154 DATTA, A., FREDERIKSON, M., GIHYUK, K., MARDZIEL, P. AND SHAYAK, S. (2017). Proxy Discrimination in Data- Driven Systems, Theory and Experiments with Machine Learnt Programs. https://arxiv.org/pdf/1705.07807.pdf [10/11/2019]

155 INGOLD, D. AND SOPER, S. (2018). Amazon Doesn’t Consider the Race of Its Customers. Should It?', Bloomberg, 21st April 2016. https://www.bloomberg.com/graphics/2016-amazon-same-day[10/11/2019].

Nella fase puramente analitica dell’intero processo di Big Data Analytics, in cui una vasta gamma di diversi tipi di dati potrebbe essere utilizzata per generare una decisione, il domandarsi se la discriminazione nei confronti di un determinato gruppo abbia avuto luogo diventa ovviamente molto più difficile da valutare.

Infine, la Big Data Analytics può non solo essere utilizzata per anticipare la volontà del consumatore di pagare, ma anche per modellarla in base alle esigenze del fornitore.

Questa capacità è descritta dalla Teoria dei Nudge, secondo cui sostegni positivi e suggerimenti o aiuti indiretti possono influenzare i motivi e gli incentivi che fanno parte del processo di decisione di gruppi e individui, porta a progettare architetture scelte in un modo che fa sì che gli umani preferiscano una scelta rispetto ad un'altra applicando intuizioni dalla psicologia comportamentale156.

Mentre questi Nudge sono stati probabilmente usati da molto tempo, come ad esempio nei supermercati che posizionano gli articoli più costosi all'altezza degli occhi di un cliente e mentre quelli meno redditizi vengono inseriti in segmenti che sono più difficili da raggiungere, la Big Data Analytics conferisce a questa domanda una nuova qualità poiché l'analisi dei flussi di dati in tempo reale consente157:

➢ Un perfezionamento degli ambienti scelti dal cliente in base al loro comportamento monitorato;

➢ La creazione continua di nuovi dati che possono essere archiviati e riutilizzati per altre applicazioni di Big Data;

➢ L'applicazione delle conoscenze acquisite sulle tendenze generali a livello di popolazione all'architettura di scelta dei singoli clienti, la modellatura sottile degli ambienti di scelta online viene personalizzata in una misura che è stata definita di iper Nudge.

156 YEUNG, K. (2017). 'Hypernudge’: Big Data as a mode of regulation by design, Information, Communication & Society, 20(1): 120.

La disponibilità di quantità eccessive di dati su un cliente combinato con la capacità di influenzare il suo processo decisionale va oltre il prendere decisioni basate sulla conoscenza della sua disponibilità relativa a certi elementi decisionali, è lo sfruttamento dei tratti individuali per creare una certa disponibilità ad utilizzare questi elementi. Le aziende potrebbero quindi ricorrere sempre più a creare persone che possano facilmente essere ingannate piuttosto che aspettare che esse nascano"158.

Mentre la Big Data Analytics può, nei modi sopra descritti, svelare certamente un enorme potenziale di personalizzazione degli ambienti online, compresi l'architettura degli elementi e delle scelte e potrebbe quindi contribuire ad un aumento dell'estrazione del surplus del consumatore, esistono anche approcci che potrebbero servire da mitigazione della discriminazione di questi elementi.

Per quanto riguarda la discriminazione della procura, potrebbe essere possibile filtrare non solo i dati delle categorie speciali in quanto tali dal processo decisionale dell'algoritmo, ma anche le loro procure. A tal fine, il modello deve essere addestrato calcolando quanto i punti dati siano strettamente correlati a un attributo come il genere e quanto siano importanti questi punti dati nel processo decisionale.

Se tali punti superano quindi una determinata soglia, vengono anch'essi ostruiti dal modello159. Questo può rappresentare un modo efficace per mitigare potenziali danni discriminatori, ma mentre questo approccio è certamente un passo avanti e impedirebbe casi come il codice postale di Amazon di cui discusso sopra, potrebbe ancora non escludere completamente la discriminazione per procura nei casi in cui non sono singoli valori che indicano il tratto protetto dell'individuo e potrebbero successivamente prendere la soglia stabilita, ma la combinazione di quei valori che porta alla discriminazione.

158 CALO, R. (2014). Digital Market Manipulation, George Washington Law Review, 82(4): 1018. 159 DATTA et al. 2017, Op. cit.

Un altro modo in cui la Big Data Analytics potrebbe potenzialmente mitigare la discriminazione sarebbe la diffusione di algoritmi come agenti di contrattazione per i consumatori.

La diffusione di algoritmi di negoziazione autonomi potrebbe potenzialmente essere applicata per contrattare sull'utilizzo di dati sensibili e potrebbe quindi aiutare a raggiungere un compromesso soddisfacente tra le preoccupazioni sulla privacy di un cliente da un lato e la sua volontà di accettare un prezzo più elevato o convenienza ridotta d'altra parte160.

Tuttavia, al momento non sono disponibili tali tecnologie e saranno necessarie molte ricerche aggiuntive, non da ultimo per affrontare le questioni etiche relative alla questione, ad esempio se l'algoritmo dovrebbe essere autorizzato a fornire per conto del cliente, per ottenere un risultato più vantaggioso161.

Da ciò che è stato descritto in precedenza, risulta evidente che i dati personali dei clienti possono essere recuperati e analizzati in modi sempre più sofisticati. Molte delle pratiche di tracciamento che è possibile perseguire per ottenere informazioni su un individuo sono altamente opache e rendono una scelta informata o la negoziazione dei propri dati un'impresa molto difficile che può richiedere una conoscenza sofisticata inerente alla Privacy Enhancing Technologies (PET) (Tecnologie per il miglioramento della privacy).

Al contrario, l'analisi dei dati acquisiti non è solo potenzialmente illusoria per il cliente discriminato, ma anche per il fornitore che discrimina. Ciò solleva la legittima preoccupazione per la discriminazione indiretta dei gruppi di clienti sensibili, poiché né la proporzionalità etica di una differenziazione basata su tali segmenti in generale né la

160 BAARSLAG, T., KAISERS, M., JONKER, C.M., GERDING, E.H. AND GRATCH, J. (2017). When Will Negotiation Agents Be Able to Represent Us? The Challenges and Opportunities for Autonomous Negotiators, Twenty-Sixth International Joint Conference on Artificial Intelligence, Melbourne, 2017: 4684.

linea tra la massimizzazione del profitto legittimo e la discriminazione dannosa sono sufficientemente chiare.

Si può quindi affermare che i criteri per un quadro normativo per avere un impatto sui problemi sopra identificati sono:

➢ La larghezza delle categorie di dati acquisite dal regolamento;

➢ La misura in cui richiede una decisione algoritmica per essere trasparente; ➢ Le misure di opposizione e rettifica che offre alle persone.

Nel documento Profilazione e Decisioni Automatizzate (pagine 57-65)