• Non ci sono risultati.

Machine learning e il fenomeno del filter bubble

Nel documento Profilazione e Decisioni Automatizzate (pagine 74-86)

Capitolo II La Profilazione tramite l’uso de

III.3. Machine learning e il fenomeno del filter bubble

L'intelligenza è la pietra angolare della civiltà umana ed è il singolo attributo più importante che distingue gli uomini dalle altre creature che abitano il pianeta permettendo loro di diffondersi in tutto il mondo, dominando la natura, costruendo città e trascendendo i loro limiti biologici con la tecnologia168.

Non è quindi difficile comprendere il fascino affascinante che possiede l'intelligenza artificiale la quale rappresenta un'espansione non solo delle capacità tecnologiche dell’uomo, ma della sua comprensione della vita e dell'umanità stessa.

Il significato dell'AI è, a prima vista, abbastanza semplice: artificiale indica che è sintetica o fatto dagli uomini. La seconda parola è intelligenza, qualcosa di cui la maggior parte delle persone ha una comprensione intuitiva, ma che non è pienamente compresa né da scienziati e né da filosofi. Tegmark definisce l’AI come la capacità di raggiungere obiettivi complessi, ben consapevole che è ampia ma, sostiene che deve essere necessariamente così169.

L'intelligenza è un concetto multidimensionale, che comprende molti tratti e capacità diversi, come l'apprendimento, l'autocoscienza, la risoluzione dei problemi e così via. Alcune macchine, come ad esempio i semplici calcolatori, superano di gran lunga le capacità umane, mentre altre, ad esempio quelle progettate per il riconoscimento di immagini o linguaggio, sono inferiori anche a quelle dei bambini piccoli.

Pertanto, la capacità di raggiungere obiettivi complessi potrebbe essere limitata a determinati fini, ciò che viene chiamato intelligenza debole o un vasto numero di obiettivi che viene chiamato intelligenza generale.

168 HARARI, Y. N. (2014). Sapiens: A Brief History of Humankind, New York: Harper.

Il superamento del livello umano è talvolta chiamato super-intelligenza e il momento in cui ciò accade si chiama singolarità o l'inizio di un'esplosione di intelligenza170.

L'intelligenza artificiale non è quindi un concetto con un significato singolare, ma varia in relazione al modo in cui viene utilizzata. L'intelligenza artificiale debole è già una parte importante in molti degli strumenti quotidiani, come Google e Facebook, mentre l'intelligenza artificiale forte rimane un concetto ancora molto teorico.

La grande differenza tra AI e Machine Learning è che quest'ultima è una sottocategoria o un metodo specifico per raggiungere la prima. Ci sono un paio di approcci diversi che sono stati concepiti da scienziati e filosofi per raggiungere l'AI: il Machine Learning è solo un possibile percorso in questo senso, insieme alla simulazione computerizzata del cervello umano e all'ingegneria neuromorfa171.

Tuttavia, il Machine Learning sembra essere il metodo più diffuso e promettente nel settore attualmente utilizzato dalle grandi aziende come Google, Facebook e Microsoft172.

Il Machine Learning, come accennato in precedenza, dipende dagli algoritmi. Un algoritmo è un insieme di regole o sequenze di istruzioni che guidano un'operazione, come ad esempio un calcolo. Il Machine Learning consente agli algoritmi di rimodellarsi in base all'output che producono e alle istruzioni dell'algoritmo di apprendimento che dirige questo processo: in questo modo, il programma si scrive da solo173.

La quantità di dati nella vita quotidiana sembra in costante aumento e con l’archiviazione di massa e online, è facile posticipare le decisioni su cosa fare con tutti i dati. Witten et al.174 affermano che c'è un divario tra la generazione di dati e il vantaggio

170 KURZWEIL, R. (2005). The Singularity is Near, London: Duckworth Overlook. 171 BOSTROM 2014, Op. cit.

172 DOMINGOS, P. (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, New York: Basic Books.

173 Ibid.

174 WITTEN, I. H., FRANK, E., HALL, M. A. AND PAL, C. J. (2017). Data mining: Practical machine learning tools and techniques, Cambridge: Elsevier.

che l’utente ne può trarre. Pertanto, la necessità di trovare modelli per dare un senso alle enormi quantità di dati è importante per le aziende moderne175.

Il processo generale di scoperta della conoscenza nei database consiste nel processo di estrazione dei dati176. Il data mining può essere definito come il processo di scoperta di modelli nei dati ed è un campo interdisciplinare che coinvolge l'area dell'apprendimento automatico insieme ad altri campi connessi come le tecnologie di database, l'intelligenza artificiale, il riconoscimento dei modelli e altro177.

I campi collegati del data mining e del Machine Learning hanno portato a numerosi studi che discutono l'area dell'apprendimento automatico da una prospettiva di data mining178.

Sotiropoulos e Tsihintrizis affermano che precedenti ricerche sull'apprendimento automatico sono state sviluppate attorno alle tre seguenti linee di ricerca179:

➢ Studi orientati alle attività: sviluppo e analisi di sistemi di apprendimento per migliorare le prestazioni in una serie predeterminata di attività;

➢ Simulazione cognitiva: l'indagine e la simulazione al computer del processo di apprendimento umano;

➢ Analisi teorica: l'esplorazione teorica dello spazio di possibili metodi di apprendimento e algoritmi indipendenti dal dominio dell'applicazione.

Nell'area dell'apprendimento automatico applicato alla valutazione del rischio finanziario, inclusi i modelli di punteggio, ricerche passate hanno principalmente utilizzato un approccio orientato alle attività incentrato sullo sviluppo e il collaudo degli algoritmi di apprendimento automatico180.

175 Ibid.

176 FAYYAD, U., PIATETSKY-SHAPIRO, G. AND SMYTH, P. (1996). From Data Mining to knowledge discovery in databases, AI Magazine, 1(1): 37-54.

177 TURBAN et al. 2005, Op. cit. 178 WITTEN et al. 2017, Op. cit.

179 SOTIROPOULOS, D.N. AND TSIHRINTZIS, G.A. (2018). Artificial immune system-based music recommendation, Intelligent Decision Technologies, 12(2): 213-220.

180 BRYNJOLFSSON, E. AND MCAFEE, A. (2011). Race Against the Machine, Lexington, Massachusetts: Digital Frontier Press.

In generale, l'obiettivo dell'apprendimento dei modelli predittivi è di usarli come guide per le azioni181. Soprattutto nell'ambito delle decisioni sanitarie e diagnostiche, i sistemi di apprendimento con una funzione predittiva si sono dimostrati efficaci come supporto per migliorare l'accuratezza della diagnostica182.

La funzione predittiva si basa sulla scoperta di modelli e relazioni nei dati. Pertanto, il Machine Learning è particolarmente adatto per attività di apprendimento predittivo e riconoscimento di schemi troppo complessi da programmare183. Esempi di tali compiti sono la comprensione della lingua parlata, la guida e il riconoscimento di immagini. Inoltre, ci sono molti compiti considerati oltre le capacità umane per le quali è possibile utilizzare il Machine Learning. In genere, questi compiti sono correlati all'analisi di serie di dati molto grandi e complessi184. Con la crescente disponibilità di dati registrati digitalmente, le informazioni significative vengono inserite in database troppo complessi per essere comprensibili agli umani185.

Un altro vantaggio dell'utilizzo dell'apprendimento automatico è la sua capacità di adattamento. Con strumenti programmati arriva la limitazione della loro rigidità: una volta che il programma è stato scritto e implementato, rimane invariato. Al contrario, il Machine Learning offre una soluzione ai cambiamenti nel tempo poiché, per sua natura, si adatta al suo ambiente e alle mutevoli condizioni186. Quindi, per problemi in cui l'adattabilità è fondamentale, il Machine Learning è adatto.

181 DOMINGOS, P. (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, New York: Basic Books.

182 BONTEMPI, G., BIRATTARI, M. AND BERSINI, H. (1999). Lazy learning for modeling and control design, International Journal of Control, 72(7/8): 643–658.

183 SHALEV-SHWARTZ, S. AND SHAI, B.-D. (2014). Understanding machine learning: From theory to algorithms, Cambridge: Cambridge University Press.

184 Ibid. 185 Ibid. 186 Ibid.

Le diverse attività sopra menzionate dimostrano quali tipi di problemi normalmente affrontano l'apprendimento automatico. La sezione successiva descrive come affrontare questi problemi attraverso una spiegazione del funzionamento del Machine Learning.

Il Machine Learning si occupa della programmazione di computer per adattarsi e apprendere automaticamente dai dati o dall'esperienza187. Tradizionalmente, i problemi da risolvere con il Machine Learning possono essere suddivisi in due paradigmi fondamentalmente diversi chiamati apprendimento supervisionato e non supervisionato. Kulkarni, con il suo approccio tradizionale, afferma che la decisione su come risolvere il problema dipende dal fatto che il valore previsto sia o meno nei dati di addestramento188.

I dati di addestramento implicano dati precedentemente elaborati dal sistema. Se il valore previsto viene trovato nei dati di addestramento, il problema appartiene al paradigma dell'apprendimento supervisionato189. Quando il valore previsto non è nei dati di addestramento, il problema appartiene al paradigma dell'apprendimento non supervisionato190.

In altre parole, nell'apprendimento supervisionato, i dati di allenamento consistono in dati di input e un valore target corrispondente, mentre nell'apprendimento non supervisionato i dati di training consistono solo in dati di input. Tuttavia, alcune ricerche precedenti presentano anche altri paradigmi di risoluzione dei problemi di apprendimento automatico.

Ad esempio, l'apprendimento semi supervisionato e l'apprendimento per rinforzo, che si trovano tra apprendimento supervisionato e non supervisionato191. Nell'apprendimento

187 MITCHELL, T. M. (1997). Machine Learning, Portland: McGraw-Hill .

188 KULKARNI, P. (2012). Knowledge Augmentation: A machine learning perspective, In P. Kulkarni (edn.) Reinforcement and Systemic Machine Learning for Decision Making, London: John Wiley & Sons, Inc (209-236). 189 Ibid.

190 Ibid.

semi supervisionato, i dati di addestramento consistono in dati di input e, in alcuni ma non in tutti, un valore target corrispondente.

Allo stesso modo, l'apprendimento per rinforzo consiste in dati di input senza accesso diretto all'output corretto. Ciò significa che non esiste una serie di azioni corrette. Invece, le azioni devono essere determinate usando i premi generati dall'ambiente192.

In base all'approccio dell'apprendimento non supervisionato o supervisionato, sono disponibili diverse opzioni di categorizzazione.

I concetti di classificazione (supervisionato), regressione (supervisionato) e raggruppamento (non supervisionato) sono le categorizzazioni più ricorrenti nella letteratura193:

➢ Classificazione: un problema di classificazione sorge quando un oggetto deve essere assegnato a una classe o un gruppo predefiniti in base alle sue caratteristiche194. Questo metodo è adatto per classificare i dati in due o più classi195;

➢ Regressione: la regressione è simile alla classificazione, tranne per il fatto che i valori dell'attributo target sono numerici, piuttosto che categorici. La regressione viene in genere utilizzata per prevedere valori come la produzione e le vendite; ➢ Clustering: i dati non sono etichettati ma possono essere divisi in gruppi in base

alla somiglianza e ad altre misure della struttura naturale nei dati. Questo viene usato quando non ci sono raggruppamenti naturali evidenti, nel qual caso i dati potrebbero essere difficili da esplorare. Problemi di segmentazione come quali sono i segmenti di clientela sono adatti per il clustering, che può rivelare gruppi e categorie precedentemente sconosciuti.

192 BRYNJOLFSSON AND MCAFEE 2011, Op. cit. 193 Ibid.

194 LUCCI, S. AND KOPEC, D. (2016). Artificial Intelligence in the 21st Century: A Living Introduction, 2nd edn., Dulles, Virginia.: Mercury Learning and Information,

Infine, in base alla classificazione del problema, esistono diverse opzioni per le tecniche di Machine Learning. Ci sono molti algoritmi disponibili tra cui scegliere a seconda della categorizzazione dell'attività196.

La prospettiva teorica del Machine Learning e delle sue caratteristiche tecniche è comunemente affrontata in letteratura. Tuttavia, ci sono stati alcuni tentativi di fornire una prospettiva più pratica attraverso lo sviluppo di modelli di processo di Machine Learning.

Questi modelli mirano a indirizzare l'applicazione effettiva dell'apprendimento automatico e come le diverse spiegazioni teoriche su come funziona l'apprendimento automatico nella pratica197 198 199. Tuttavia, applicare l'apprendimento automatico a un problema aziendale non è privo di sfide.

Il Machine Learning raccoglie ed elabora grandi quantità di dati200. In precedenti studi sull'apprendimento automatico relativi al punteggio di credito, i dati utilizzati includono principalmente quelli personali201.

Sebbene le informazioni personali siano state mostrate utili in molte aree, ha aumentato di molto la preoccupazione pubblica per la privacy delle persone202.

Brankovic ed Estivill-Castro affermano che la comparsa della tecnologia per la scoperta della conoscenza e il data mining, come l'uso dell'apprendimento automatico, ha ravvivato le preoccupazioni riguardo a quanto segue problemi di privacy203204:

196 KULKARNI 2012, Op. cit.

197 BRYNJOLFSSON AND MCAFEE 2011, Op. cit. 198 TURBAN et al. 2005, Op. cit.

199 KAMARINOU et al. 2016, Op. cit. 200 Ibid.

201 KULKARNI 2012, Op. cit. 202 WITTEN et al. 2017, Op. cit. 203 Ibid.

➢ Uso secondario delle informazioni personali: relative all'uso di dati personali per scopi diversi da quello per cui sono stati raccolti dati;

➢ Gestione della disinformazione: preoccupato del diritto delle persone di poter contestare la correttezza dei dati su di loro;

➢ Accesso granulato alle informazioni personali: preoccupato dell'idea che l'accesso ai dati personali dovrebbe essere basato sulla necessità di conoscere e limitato alle sole informazioni pertinenti.

I problemi di riservatezza dei dati portano a sfide etiche che le organizzazioni devono affrontare205. Mentre gli individui e i legislatori, a sostegno del diritto alla privacy, favoriscono l'opinione che i dati di una persona siano di proprietà della persona, gli addetti alla raccolta dei dati supportano il fatto che essi possiedono i dati206.

Questi dilemmi etici spingono gli individui a fare pressioni sulla società per creare leggi e regolamenti per la disponibilità dei dati207. Il nuovo regolamento UE chiamato GDPR, di cui si è discusso in dettaglio nelle sezioni precedenti, ha profondamente influenzato il modo in cui le aziende gestiscono i dati208.

Un'altra sfida è legata alla quantità di dati disponibili. Nella riscossione dei debiti oppure in altri ambiti finanziari, diversi paesi hanno una regolamentazione dei dati diversa per quanto riguarda l'accesso a determinati dati, che naturalmente possono influire sul potenziale delle soluzioni di apprendimento automatico in termini di quantità e quali dati possono essere utilizzati come input per l'algoritmo209.

205 WITTEN et al. 2017, Op. cit.

207 WANG, J. (2003). Data Mining: Opportunities and Challenges. Hershey: IRM Press.

208 ERNST & YOUNG LLP. (2016). EU General Data Protection Regulaton: Are you ready? London: Earnst & Young LLP.

Inoltre, Baesens afferma che sebbene gli algoritmi di Machine Learning siano molto potenti, generalmente si basano sulla modellizzazione di schemi ripetuti o correlazioni che si verificano nei dati210.

Le osservazioni che sono evidenti da classificare dall'esperto del dominio potrebbero non apparire abbastanza frequentemente nei dati per essere adeguatamente modellate da un algoritmo di Machine Learning. La disponibilità dei dati e gli aspetti etici e legali sono, quindi, sfide centrali e possono creare difficoltà per le applicazioni di Machine Learning.

Il Machine Learning appartiene anche all'area dell'informatica automatica211. Tuttavia, questa è spesso molto problematica perché le persone non riescono a fare affidamento su di essa in modo appropriato212.

Lee and See affermano che ciò è dovuto al fatto che le persone tendono a rispondere socialmente alla tecnologia, e quindi la fiducia influenza la dipendenza dall'automazione213.

Spesso ci sono due forme di problemi di fiducia che sorgono con i sistemi automatizzati214:

➢ Overtrust: le persone ripongono una fiducia ingiustificata nei sistemi informatici o ricevono i suoi consigli perché provengono da un sistema esperto;

➢ Affidamento insufficiente: le persone che non ripongono sufficiente fiducia nei sistemi informatici o non fanno affidamento su utili capacità tecnologiche.

210 LUCCI AND KOPEC 2016, Op. cit.

211 CHAN, H., SEGAL, A., ARNOLD, B. AND WHALLEY, I. (2005). How can we trust and automatic system to make the best decision, Proceedings of the Second International Conference on Autonomic Computing, Seattle, Washington: ICAC (351-352).

212 LEE, J. D. AND SEE, K. A. (2004). Trust in Automation: Designing for Appropriate Reliance, London: SAGE 213 Ibid.

La fiducia nell'automazione significa che la fiducia è un atteggiamento nei confronti dell'automazione che influisce sulla dipendenza. Questo atteggiamento è spesso il risultato di esperienze passate215. Questa esperienza e attitudine influiscono anche sul modo in cui le persone interagiscono con i sistemi.

Gli esperti, in generale, hanno un'esperienza sufficiente con la loro tecnologia per calibrare la loro fiducia e notare la differenza tra fiducia ingiustificata e fiducia giustificata, nonché diffidenza giustificata e sfiducia ingiustificata216.

Lo sviluppo delle tecnologie Internet ha aggiunto un ricco e diversificato ambiente informativo alle società e ai mondi moderni in cui viviamo. Le persone in tutto il mondo sono in grado di connettersi tra loro tramite siti di social network, sono in grado di comunicare e condividere idee, opinioni.

Mentre le persone si rivolgono sempre più ai social media per il loro consumo di notizie, ci sono due fenomeni mediatici correlati che influenzano sempre di più il nostro

consumo di media217.

Il Filter Bubble è creato dalla tecnologia e tende a stabilire le priorità mostrandoci cose che già sa che ci piacciono. Il termine Filter Bubble è stato introdotto da Periser e si riferisce alla portata limitata delle informazioni determinate dagli interessi dell'utente che la isola da qualsiasi informazione che non rientri nella sua portata218.

Con l'avvento dei social media come un'importante fonte di notizie e opinioni, alcuni attivisti e studiosi hanno iniziato a preoccuparsi che l'Internet potesse portare alla segregazione online e aumentare il radicalismo e l'estremismo nella società, oltre a

215 Ibid. 216 Ibid.

217 BOZDAG, V. (2015). Bursting the filter bubble: Democracy, design, and ethics,

218 BIANCA, M. (2019). La filter bubble e il problema dell’identità digitale, Media Laws, Rivista di diritto dei media 2/2019: 1-15.

ricevere notizie e opinioni distorte e unilaterali. I critici hanno sottolineato i formatori di gruppi che si formano tra persone affini su Internet219.

Recentemente, le piattaforme online come Facebook e Google sono state criticate, perché con i loro algoritmi opachi di personalizzazione mostrano agli utenti punti di vista con cui sono già d'accordo, portando quindi a silos di informazioni o alle cosiddette bolle di filtro.

Il motivo per cui le bolle di filtro sono state criticate differisce. Alcuni sostengono che gli algoritmi opachi utilizzati dalle piattaforme online hanno preso decisioni su mezzo utente, coercizione e creazione di software hardware per le opzioni disponibili. Altri sostengono che i pregiudizi causati dagli algoritmi e dagli stessi esseri umani potrebbero diminuire la diversità del punto di vista, diminuire il rispetto reciproco o consentire ai pressori operazionali di prevalere a causa della mancanza di informazioni ai cittadini, il che impedirà loro di reagire alla verità sulla verità220.

La diversità del punto di vista è stata vista come una componente essenziale di società democratiche forti221222

Altri ancora, tra cui Google e Facebook, hanno ipotizzato che gli effetti della personalizzazione siano stati oggetto di un'attenta valutazione.

Dal momento che il termine Filter Bubble è stato pronunciato nel 2011 da Pariser, ha ricevuto un significato più ampio. Mentre i pregiudizi di personalizzazione sono un fenomeno recente, il pregiudizio algoritmico non lo è. Problemi di inclusione dei motori di ricerca, mancanza di trasparenza e altri fattori che causano distorsioni223.

219 FASAN ,M. Intelligenza artificiale e pluralismo: uso delle tecniche di profilazione nello spazio pubblico democratico in BioLaw Journal.

220 Ibid.

221 DEWEY, J. (1927). The Public and its Problems, New York: Holt

222 HABERMAS, J. (1998). Between Facts and Norms: Contributions to a Discourse Theory of Law and Democracy, Cambridge, MA: MIT Press,

Inoltre, Sunstein ha sostenuto che, a causa della disponibilità di filtri manuali su Internet e dell'opzione per comunicare solo con altri affini, sorgerà la polarizzazione di gruppo e le persone finiranno in posizioni più estreme. Sunstein usò il termine echo chamber per concettualizzare questa polarizzazione di gruppo. Il filtro a bolle viene ora utilizzato anche per descrivere anche questo comportamento224.

Il termine ora comprende non solo la cyberbalcanizzazione automatica opaca imposta agli utenti dagli algoritmi delle piattaforme online, come sottolineato da Pariser, ma include anche altre esposizioni selettive volontarie non automatiche e la ricerca di informazioni distorte e la polarizzazione dei gruppi.

I pregiudizi nella progettazione e nel funzionamento degli intermediari online e i pregiudizi causati da un'esposizione selettiva (grazie ai filtri manuali) portano a piattaforme online distorte che ora viene definito come Filter Bubble225.

Le Filter Bubble sono principalmente criticate a causa delle loro due importanti conseguenze. Innanzitutto, i filtri opachi che vengono imposti all'utente riducono la loro autonomia226

Poiché non è chiaro che i filtri siano presenti in primo luogo, l'utente potrebbe non sapere che il flusso di informazioni viene filtrato dopo tutto. Inoltre, anche se l'esistenza dei filtri fosse nota, poiché ogni utente potrebbe ottenere un output diverso del sistema, sarà diverso per l'utente confrontare ciò che manca. Una versione non filtrata spesso non è disponibile.

224 SUNSTEIN, C.R. (2007). Republic.com 2.0, Princeton: Princeton University Press. 225 BIANCA 2019, Op. cit.

Nel documento Profilazione e Decisioni Automatizzate (pagine 74-86)