• Non ci sono risultati.

La post-verità

Nel documento La Scienza dei Dati (pagine 145-161)

3.Il modello Entità Relazione

Capitolo 5 – La qualità dei dati e la grande sfera opaca Carlo Batini

10. La post-verità

In [Lorusso 2017], cui ci ispiriamo in questa introduzione, viene richiamata la definizione di post-verità dell’Oxford Dictionary, in cui la post-verità viene vista come fare riferimento a circostanze in cui l’oggettività dei fatti è meno influente nel formare la pubblica opinione rispetto all’emotività e le credenze personali. Indica perciò una strategia retorico-persuasiva in cui è prevalente la componente soggettiva e passionale su quella referenziale.

Il problema della verità è investigato da oltre duemila anni in filosofia, e più recentemente nelle scienze cognitive, nelle scienze sociali, in psicologia e nella linguistica. Per Wikiedia, con il termine verità (in latino veritas, in greco ἀλήθεια) si indica il senso di accordo o di coerenza con un dato o una realtà oggettiva, o la proprietà di ciò che esiste in senso assoluto e non può essere falso. In un testo come questo, parlare di verità da parte mia fa un po' tremare le vene e i polsi.

Il mutato contesto in cui i dati sono rappresentati, comunicati e percepiti nel Web e la rilevanza della comunicazione attraverso le reti sociali, più “calda” di quella fornita, ad esempio, da una intervista su un giornale e quindi da un testo scritto, rende il tema della verità, della post-verità e delle fake news, termine per il quale non faccio neanche un tentativo di definizione tanto è abusato, estremamente arduo da trattare in questo libro. Per cui adotto un approccio “difensivo”, indagando, nell’affrontare il problema della verità e della post-verità, quattro diversi punti di vista: l’approccio della informatica, l’approccio ontologico, l’approccio delle scienze cognitive, e l’approccio della filosofia del linguaggio. Esaminiamoli qui di seguito.

9.1 Approccio informatico

Devo ammettere che da quando faccio ricerca nel campo della qualità dei dati, sono stato tentato di dire che un dato è vero quando è aderente al frammento di realtà che rappresenta. Questo cortocircuito in tema di verità presenta due grandi debolezze concettuali di partenza, nel concetto di “aderente a” e nell’affermare che vi sia una diretta corrispondenza tra gli artefatti che noi chiamiamo dati e la realtà attorno a noi. Ma si sa, gli informatici, e io sono tra questi, non si pongono tanti problemi filosofici.

L’ approccio informatico cerca di governare grandi problemi con operazioni di riduzione. Invece che ragionare sulla qualità dei dati in termini generali, circoscriviamo il problema, ad esempio, alle reti sociali; invece che ragionare sulla qualità in generale, circoscriviamo il problema a una dimensione di qualità, la credibility. Invece che ragionare su tutti i possibili tipi di dati, concentriamoci su particolari tipologie di dati, i testi scritti, e su particolari tipologie di testi scritti come le recensioni (reviews), l’informazione medico-scientifica, le voci o pettegolezzi (i rumors), i microblogging, pubblicazioni su Internet di piccoli contenuti (brevi messaggi di testo, immagini, video, Mp3, ecc.),

146

Le tipologie di testi scritti vengono ulteriormente classificate in sottoclassi, come le reviews, suddivise in untruthful, quando forniscono deliberatamente review positive o negative allo scopo di ingannare il fruitore del dato, review sul brand, più che sul prodotto o servizio, e unreview, che non contengono opinioni e perciò disorientano, ovvero messaggi diffusi attraverso il microblogging, suddivisi in conversation items, che riguardano l’utente e la sua cerchia di amici, e news items, che si riferiscono a informazione più generale, l’informazione medico-scientifica, rumors e altro.

Negli approcci più promettenti (vedi [Viviani 2017] per un survey esaustivo), la credibility è vista come una qualità percepita dal ricevente la informazione, non viene definita in modo preciso, ed è vista come composta di molteplici dimensioni, riguardando diverse caratteristiche riferite alla fonte/fonti, le relazioni tra gli utenti nella rete sociale, il messaggio, e il mezzo di trasmissione. La credibility come detto in precedenza, è collegata con l’expertise (la conoscenza, lo skill e l’esperienza percepita della fonte della informazione), e la trustworthiness, la percezione di quanto una informazione emessa dalla fonte è valida.

I modelli di base utilizzati per la valutazione della credibility sono data-driven, che utilizzano tecniche di machine learning per identificare frammenti del messaggio o fonti come credibile o non credibile, la informazione falsa, i modelli model-driven, che si basano su decisioni multicriterio e definiscono schemi di aggregazione per arrivare a calcolare una stima aggregata della credibility, e i modelli graph-based, che sfruttano la struttura delle entità connesse nel grafo della rete sociale.

Sia i modelli data driven che quelli model-driven si focalizzano su un certo numero di caratteristiche (features), che possono essere estratte sia dal messaggio che dalla fonte; le features possono essere sia linguistiche che facenti riferimento a meta-dati, cioè ulteriori dati associati al messaggio, ovvero, possono fare riferimento al comportamento del soggetto-fonte, alla struttura delle sue relazioni, alla natura del prodotto/servizio associato al messaggio. Tra le features linguistiche distinguiamo le features lessicali, quelle stilistiche e le inconsistenze semantiche. Tra le features comportamentali si distinguono i dati pubblici sulla fonte disponibili sui siti Web, i dati privati come ad esempio gli indirizzi IP, il tempo intercorso per postare un testo, la locazione fisica del fornitore dei contenuti, ecc. Una categorizzazione esaustiva degli approcci alla valutazione della credibility compare in [Viviani 2017].

Gli approcci, sia data-driven che model-driven, sono poi classificabili in content-based, quando sono basati esclusivamente su features lingustiche, e multiple features based, che rimuovono i limiti derivanti dal fatto che considerando solo caratteristiche linguistiche della informazione spesso non è possibile distinguere tra informazione veritiera e informazione falsa.

Gli approcci graph-based, infine, sfruttano la natura delle relazioni tra le entità valutate, estendendosi, tra le entità, alla struttura di connettività degli utenti, dei prodotti/servizi, dei messaggi.

9.2 Approccio ontologico

L’approccio ontologico qui descritto a partire da [Ferraris 2017] fornisce più che metodi e tecniche modelli classificatori e interpretativi. In [Ferraris 2017] l’ipoverità è ciò che è creduto tale da una comunità e che viene corroborato da un insieme di procedure. L’iperverità caratterizza, ad esempio, il contesto per cui la proposizione «la neve è bianca» sarebbe vera anche se non ci fosse mai stato un

147

essere umano sulla terra in grado di formularla. La verità è il risultato tecnologico del rapporto tra ontologia (ciò che esiste) e epistemologia (ciò che conosciamo). Le tre categorie possono essere esemplificate nei seguenti tre ambiti (si veda la Figura 22):

 Ontologico: in questo barattolo ci sono 12 fagioli. L’approccio ontologico fa riferimento a ciò che è, la realtà.

 Epistemologico, enuncio la frase «in questo barattolo ci sono 12 fagioli»; l’epistemologia fa riferimento a ciò che sappiamo, e che esprimiamo attraverso i concetti, il suo scopo è raggiungere la verità.

 Tecnologico: io conto 12 fagioli. L’approccio tecnologico si riferisce a ciò che possiamo fare, misurare, e riguarda perciò la interpretazione della realtà attraverso i fatti (è un fatto che ho contato 12 fagioli). Il metodo di misura che mi ha portato a contare 12 fagioli può risultare erroneo in qualche sua fase, attraverso la ricerca sperimentale posso concepirne un altro e dimostrarne la superiorità e maggiore precisione rispetto al precedete.

E ancora:

 Las frase “il barattolo ha un certo peso” fa riferimento alla ontologia,

 la frase “il barattolo pesa 100 grammi”, così come la frase “il barattolo pesa tre once e mezza” fa riferimento alla epistemologia.

 La frase “metto su una bilancia il barattolo per misurarne il peso” fa riferimento alla tecnologia;

Disciplina Riguarda la Osserva …

Ontologia Realtà Oggetti

Epistemologia Verità Concetti Tecnologia Interpretazione Fatti

Figura 22 - Ontologia, epistemologia, tecnologia

In sintesi, la verità “è relativa rispetto agli strumenti tecnici di verifica, ma assoluta rispetto alla sfera ontologica a cui fa riferimento e all’esigenza epistemologica a cui risponde”.

9.3 Approccio cognitivo

Questo approccio parte dalla osservazione ([Metzger 2013]) che l’attività di interpretazione del dato richiede uno sforzo cognitivo, e tale sforzo cognitivo trova i suoi limiti nella idea della razionalità limitata [Simon 1955]. Sebbene il Web abbia ridotto alcuni costi connessi alla ricerca dei dati accrescendo la accessibilità ai dati, rimangono e sono relativamente incomprimibili costi significativi di interazione in virtù della vastissima area di dati disponibili, e in virtù della sua eterogeneità e opacità. Dalla psicologia cognitiva non arrivano dunque buone notizie. Riconoscere la cattiva informazione richiede processi cognitivi complessi. Un semplice mito è più attrattivo cognitivamente di una complicata correzione. Per coloro che sono fortemente convinti delle proprie idee, gli argomenti fortemente contrari possono rafforzare le loro convinzioni. Di conseguenza, non è tanto rilevante ciò che la gente pensa, ma come pensa.

148

La relazione tra psicologia cognitiva, post-verità e fake news è così rilevante che ho ritenuto di chiedere a un esperto del settore, Paolo Cherubini, un contributo monografico, contenuto nella seconda parte del Capitolo 17; ad esso rimando il lettore per un approfondimento su questa problematica.

9.4 Approccio della filosofia del linguaggio

Per [Lorusso 2017] “i media non rappresentano un reale già fatto, che sta da qualche parte nel mondo, i media costruiscono il reale, lo modellano. Gli spazi mediatici sono luoghi di costruzione del reale perché sono i luoghi in cui elaboriamo i modelli con cui poi classifichiamo il mondo e ci muoviamo in esso; da qui l’affermazione: è vero, o è reale solo ciò che passa dalla televisione, affermazione ormai datata, aggiornandola a partire dai nuovi media e reti sociali”.

Un tempo c’erano (solo) i giornali; i Social media sono la generalizzazione (qualcuno dice la democratiz-zazione) delle agenzie di verità. Oggi chiunque sembra autorizzato a produrre non la sua versione del mondo, ma una versione del mondo che pretende di essere vera, che legittima solo la logica esclusiva del vero/falso. Non esiste piu’ la coesistenza tollerante delle sfumature

Lorusso analizza criticamente quella che chiama la illusione del fact checking, cioè delle indagini che possono essere effettuate con il supporto di tecniche di ricerca e che hanno lo scopo di verificare la validità di affermazioni o previsioni diffuse via Web. In un mondo di verità moltiplicate la possibilità statistica dell’errore cresce a dismisura; se gli agenti della informazione si moltiplicano a dismisura, e possono essere ovunque, allora il controllo diventa infinitamente più difficile. Più che di verità assolu-tizzata, ha senso parlare di livelli di verità. In Politifact.com, ad esempio, esistono diversi livelli:  true, notizie accurate e complete,

 mostly true, notizie che richiedono alcune integrazioni e chiarimenti,

 half true, notizie che trascurano dettagli importanti e decontestualizzano la informazione,  mostly false, notizie che ignorano punti di vista corrisponde un’altra lettura dei fatti,  false, notizie non accurate,

 pants on fire: notizie che sostengono cose ridicole.

L’intuizione più rilevante dell’approccio espresso da Lorusso riguarda la caratterizzazione della verità, che non è immagine della realtà, ma costruzione, è dunque un processo. Un itinerario verso una consapevolezza della verità insita nei fatti individua tre proprietà dei fatti:

• la completezza: nei fatti ci devono essere tutti gli elementi fondamentali

• la contestualizzazione, i fatti devono essere messi in relazione con gli elementi cui sono connessi • la tenuta, i fatti devono aver tenuto in conto i punti di vista critici che potrebbero dare un’altra

lettura

Si può affermare che problematizzare la verità, vederne la molteplicità, relativizzarne la natura, non significa che tutto va bene, che tutto è verità, ma significa recuperare il concetto di prova: non tutte le verità hanno la stessa tenuta. I discorsi hanno formazioni, forza, autorevolezza, raggi di applicazione. Guardare a questi elementi significa «provare» la tenuta dei discorsi.

149

La verità non può essere raggiunta ma avvicinata, mettendo alla prova le diverse verità espresse in ragione di interessi diversi, e via via facendo la realtà. Tenendo conto della intersoggettività, e in questo senso, dell’etica della interpretazione e della comunicazione.

Per Umberto Eco [Eco 1997]) non c’è dunque una verifica che basti da sola ad assicurare la veridicità di qualcosa; al massimo ci possono essere verifiche incrociate che possono escludere interpretazioni false o errate. Questa posizione è simile alla congettura di Dijkstra relativa alla prova della correttezza dei programmi informatici, per cui eseguendo un programma, non si può mai provare che è corretto, si possono solo trovare nuovi dati in ingresso al programma che dimostrano l’esistenza di errori.

Ricordiamo ancora di Umberto Eco l’affermazione che “I social media danno diritto di parola a legioni di imbecilli che prima parlavano solo al bar dopo un bicchiere di vino, senza danneggiare la collettività. Venivano subito messi a tacere, mentre ora hanno lo stesso diritto di parola di un Premio Nobel”. Nel mondo contemporaneo sta accadendo qualcosa di più rilevante di quanto trattato fino ad ora: sempre di più la costruzione del senso si dà per via narrativa. La notizia è sempre meno pensata come documento e sempre più come racconto. A prevalere non è quindi un criterio di attendibilità, ma di efficacia narrativa, chiamata in [Lorusso 2017] credibilità. C’è una profonda relazione tra fatti, favole, fole, bugie; la forza dei nuovi soggetti di informazione si misura più sulla capacità di riuso di ambiti narrativi consolidati che sulla attendibilità della informazione. Sembrerà esagerato, ma la dinamica è la stessa; quando leggo una favola, io ho delle esigenze che mi fanno apprezzare quella favola, e fanno sì che ci creda e mi appassioni.

L’impressione è che le verità si siano più che altro parcellizzate, e nel parcellizzarsi si siano moltiplicate, in un gioco di specchi e rimbalzi. Attraverso la condivisione sempre più estesa hanno acquisito credibilità. La logica di Facebook rafforza l’idea che le condivisioni siano indice di identificazione e adesione, dunque di credibilità.

In conclusione, oggi i soggetti della informazione siamo noi, persone comuni, dalle competenze comuni, il più delle volte con una nostra esperienza da condividere, con un nodo di emozioni da esprimere. In un mondo di verità moltiplicate, assolutizzate l’una rispetto all’altra, e isolate entro comunità chiuse, la cosa più seria che si perde non è il vero ma il legame sociale. Saper discriminare la verità significa condividere saperi; e condividere saperi significa essere parte della stessa comunità.

10. Conclusioni

La conclusione tentativa che possiamo tratte dalla precedente discussione è che il Web è una immensa prateria, in cui è difficile individuare elementi di riferimento per trovare la verità, che può essere semmai avvicinata, ma non raggiunta. Possiamo dire che sia un dovere etico cercare di avvicinare la verità, ma per farlo c’è bisogno di sforzo cognitivo e, soprattutto mente libera da convinzioni stratificate nel tempo e da ideologie; nel gennaio 2019 la neo deputata democratica Ocasio Cortez, in risposta a una osservazione di un giornalista del Washington Post che le contestava di aver fatto una affermazione imprecisa su un indicatore economico, per forzarlo verso la propria tesi, ha risposto: “I think that there’s

150

a lot of people more concerned about being precisely, factually, and semantically correct than about being morally right”. E’ una osservazione libera da ideologie, questa?

Per avvicinare la verità, sono necessarie pazienza e perseveranza nella indagine; esattamente il contrario di quanto ci sollecita spesso la Rete, e il principale indizio di verità è la sua tenuta nel tempo [Eco 1990]. Possiamo dunque tornare alla immagine comparativa delle inaugurazioni a Washington della Presidenza di Obama e di Trump, per suffragare la policy che possiamo sintetizzare con l’espressione “i dati sono cocciuti”. Nella visione che abbiamo sviluppato in precedenza, non potremo mai arrivare alla assoluta certezza che i partecipanti alla cerimonia di Obama fossero più dei partecipanti alla cerimonia di Trump, ma possiamo certamente contestare l’affermazione della collaboratrice di Trump su quelli che definì gli “alternative facts”, acquisendo (vedi Figura 23) conoscenza comparativa ulteriore sulle due immagini, come ad esempio l’ora di ripresa delle foto, l’intervallo temporale tra l’ora di ripresa e l’inizio della cerimonia, il numero di biglietti validati sulla metropolitana di Washington in quei due giorni, il numero di auto parcheggiate nei parcheggi limitrofi all’area della cerimonia, avvicinando sempre più la verità fino, per così dire, a toccarla.

Figura 23 – I fatti sono cocciuti (da www.wtop.com) Ora della foto: 11.30

Ora della cerimonia: 12

Ora della foto: 11.30 Ora della cerimonia: 12 Numero biglietti metropolitana nell’ora

precedente: 80.000

Numero biglietti metropolitana nell’ora precedente: 20.000

151

Riferimenti

C. Batini e M. Scannapieco – Data quality: Concepts, Methodologies and Techniques - Springer, 2006. C. Batini, A. Rula, M. Scannapieco, G. Viscusi - From Data Quality to Big Data Quality. J. Database Manag. 26(1): 60-82, 2015

C. Batini, C. Cappiello, C. Francalanci, A. Maurino - Methodologies for data quality assessment and improvement. ACM Computing Surveys 41(3), 2009

C. Batini e M. Scannapieco – Data and information quality: Dimensions, Principles and Techniques – Springer, 2016.

C. Dai, D. Lin, D., E. Bertino, E., M. Kantarcioglu - An Approach to Evaluate Data Trustworthiness Based on Data Provenance. Secure Data Management, 2008.

U. Eco – I limiti della interpretazione, Bompiani, Milano, 1997. M. Ferraris – Post verità e altri enigmi, Il Mulino 2017.

L. Floridi – La quarta rivoluzione: come l’infosfera sta cambinado il mondo, Raffaello Cortina Editore, 2017.

A. Halevy, P. Norvig, e F. Pereira - The Unreasonable Effectiveness of Data, IEEE Intelligent System, 2009.

A.M. Lorusso – La post verità, Il Mulino, 2017.

T. Lukoianova, V. Rubin - Veracity Roadmap: Is Big Data Objective, Truthful and Credible? - Advances In Classification Research Online, 24(1), No. 4, 2013.

M. J. Metzger, A. J. Flanagin - Credibility and trust of information in online environments: The use of cognitive heuristics - Journal of Pragmatics 59, 2013

S. Nakamura, et al. - Trustworthiness Analysis of Web Search Results - ECDL, 2007. W. Quattrociocchi - Misinformation, Franco Angeli, 2016

S. Y. Rieh, Yong-Mi Kim, Ji Yeon Yang, Beth St. Jean- A diary study of credibility assessment in everyday life information activities on the web: Preliminary findings. ASIST 2010.

152

W. Shercan, S. Nepal e C. Pari - A Survey of Trust in Social Networks, ACM Computing Surveys, Vol. 45, No. 4, 2013.

H. Simon - A Behavioural model of rational choice – Quart. J. Econ. 69, 1955

M. Viviani e G. Pasi - Credibility in Social Media: Opinions, News, and Health Information - A Survey. WIREs Data Mining and Knowledge Discovery, 2017

A. Zubiaga, A. Aker, K. Bonthceva, M. Liakata and R. Procter - Detection and Resolution of Rumours in Social Media: A Survey - ACM Computing Surveys, Vol. 51, No. 2, 2018.

153

Capitolo 6 – Integrazione

C. Batini

1. Introduzione

Dal 1993 al 2003 ho lavorato lontano dalla Università, in un ente chiamato Autorità per la informatica nella Pubblica Amministrazione, o AIPA. Aver lavorato per l’AIPA, per una Autorità, per un Ente la cui autorevolezza e terzietà derivava soprattutto dalla professionalità delle persone che ci lavoravano, professionalità che peraltro doveva essere percepita dagli enti da noi coordinati, Ministeri e Enti Pubblici, è stato per me un’onore e una meravigliosa occasione per confrontarmi con grandi progetti. L’AIPA aveva un compito di indirizzo e controllo sulle Pubbliche Amministrazioni Centrali e sugli Enti Pubblici non Economici, come l’Inps e l’Inail, controllo che esercitava con diversi strumenti quali una analisi sullo stato della Informatica nella Pubblica Amministrazione, un piano annuale sulla evoluzione della Informatica nella PA, e infine i pareri di congruità tecnico economica, in cui valutavamo i singoli progetti che le amministrazioni presentavano, da un punto di vista di coerenza tecnica con la evoluzione delle tecnologie ICT, ed economica, per valutare se i costi esposti fossero ragionevoli o eccessivi. L’ AIPA, creata nel 1993 dal Governo Amato, fu poi chiusa nel 2002 e trasformata in un Centro Tecnico dal Governo Berlusconi del tempo. Guido Rey fu per otto anni Presidente, seguito per un anno da Alberto Zuliani. Nell’ultimo anno di esistenza, in quanto componente più anziano in ruolo dell’organo collegiale, fui Presidente facente funzioni.

Figura 1 – L’impresa “pony express” deve fornire gli stessi dati di variazione di indirizzo a Inps, Inail e Camere di Commercio

L’AIPA ha assunto negli anni in cui ha operato un ruolo di impulso, proponendo progetti innovativi rispetto allo stato dell’arte nella PA. Uno di questi progetti, il progetto Servizi alle Imprese, lanciato nel 1999 e avente come capo progetto Sandro Osnaghi e me come referente all’organo collegiale, aveva lo scopo di superare le inefficienze di interazione tra imprese e Pubbliche Amministrazioni, che nascono

Cambio di indirizzo Cambio di indirizzo Cambio di indirizzo

154

dalla cosiddetta sindrome della “Impresa pony express”, per cui le imprese si trovavano a fornire alle Pubbliche Amministrazioni, viste unitariamente, dati che esse già possedevano, dando luogo alla tipica interazione che ho esemplificato in Figura 1 per le imprese che interagivano con le Camere di commercio, l’Inps e l’Inail ogni volta che dovevano comunicare un cambio di indirizzo toponomastico. D’ora in poi invece che usare l’imperfetto (interagivano..) userò per non appesantire troppo il discorso

Nel documento La Scienza dei Dati (pagine 145-161)