3.Il modello Entità Relazione
Capitolo 5 – La qualità dei dati e la grande sfera opaca Carlo Batini
7. La qualità dei dati nel Web
7.1 Introduzione
La grande crescita dei dati prodotti nel Web modifica profondamente il concetto e le metodologie per la qualità dei dati rispetto a come li abbiamo considerati nelle sezioni precedenti; questo in virtù della grande varietà dei tipi di dati nel Web, e per la impossibilità, spesso, di confrontare il dato, come abbiamo fatto in precedenza, con una conoscenza di riferimento. Le differenze tra i due ambiti sono molteplici:
1. nel Web il costo di produzione e di trasmissione dei dati è praticamente nullo, a fronte di possibilità di diffusione sempre più ampie. E’ praticamente gratis sia mandare una email a una persona che mandarla a un indirizzario di centinaia o migliaia di indirizzi; scrivere un messaggio su Twitter richiede uno sforzo cognitivo molto basso, e, allo stesso tempo, su Twitter ci possono essere milioni di followers, e i tweet si diffondono molto più velocemente dei dati riprodotti nelle fonti cartacee tradizionali; infine, leggere e comprendere un tweet richiede uno sforzo cognitivo enormemente inferiore rispetto a leggere e comprendere un articolo di giornale.
2. rispetto al carattere controllato dei flussi di dati nei sistemi informativi tradizionali e alla presenza, spesso, di un soggetto certificatore del dato che ne valida la qualità, nel Web si assiste ad una sostanziale disintermediazione tra la fonte e il ricevente. Ad esempio, sappiamo che è molto ampio il dibattito su quali siano i limiti non superabili delle notizie false nelle reti sociali, e chi debba
137
controllare e contrastare la veridicità delle notizie; torneremo su questi aspetti più avanti nel capitolo, ma è chiaro che la assenza di un soggetto certificatore del dato complica enormemente il tema della qualità.
3. nel Web abbiamo una distinzione tra fonte del dato, mezzo con cui è trasmesso e messaggio che viene trasmesso, e il tema della qualità riguarda tutti e tre i livelli, con intrecci rilevanti. Ad esempio, esiste una profonda differenza tra i messaggi inviati via email, via Facebook e via Twitter, derivanti dai vincoli sulla lunghezza del messaggio, il conseguente uso di vocabolari arricchiti con simboli, abbreviazioni e metafore, e il diverso livello di formalità che noi associamo alle tre tipologie di messaggi.
4. non ci sono (e non ci possono essere) standard universali per scambiare l’informazione nel Web; l’informazione può essere alterata o creata anonimamente sotto falsa identità o con la intenzione dell’inganno.
5. nei siti che nascono per crowdsourcing, cioè attraverso il contributo volontario di molti utenti, il dato digitale è il risultato di molteplici contributi e versioni e si perde la conoscenza sulla fonte e sul processo di provenienza.
6. nel Web mancano spesso fonti di conoscenza certe con cui confrontare il dato, anche perché spesso lo stesso significato del dato è conosciuto in modo vago e impreciso. Come conseguenza, spesso la qualità del dato viene di fatto stabilità sulla base della qualità della fonte (me lo ha scritto Giovanni, di lui mi fido…); e la qualità della fonte non è espressa in termini delle dimensioni viste in precedenza, ma, piuttosto, in termini di dimensioni ispirate da discipline che studiano gli esseri umani (Giovanni…), quali le scienze sociali, le scienze cognitive, la psicologia, la filosofia.
7. essendo la qualità del dato ricondotta alla qualità della fonte, acquista rilevanza nella analisi di qualità stabilire la provenienza del dato e il processo con cui si è formato.
8. nel processo di formazione del dato possono essere coinvolte diverse fonti, per cui può risultare molto difficile o impossibile accertare quale ruolo abbiano avuto le diverse fonti, e quindi la loro rilevanza rispetto alla qualità.
9. l’analisi, le classificazioni e le tecniche proposte per valutare la qualità dei dati, che nella letteratura scientifica sono presenti da pochi anni, si differenziano significativamente a seconda del tipo di dato, e si concentrano maggiormente nell’ambito della informazione linguistica, i messaggi, i testi in formato libero, gli articoli di giornale, i rumours (vedi [Zubiaga 2018]), le opinioni, le news, il microblogging, la informazione specialistica (es. in medicina), vedi [Viviani 2017].
10. Le dimensioni di qualità investigate per le varie tipologie di dati e le metodologie per la valutazione e il miglioramento della qualità, dovendo riguardare questa grande varietà di fenomeni, sono molto meno consolidate rispetto ai sistemi tradizionali, si veda per esempio [Batini 2015] e la relativa bibliografia sulla qualità nei linked open data.
Per esprimerci con una metafora, i dati si espandono nel Web come una sfera opaca (Figura 18), in cui accanto a dati di qualità, compaiono con sempre maggiore intensità dati imprecisi, sfocati, incompleti, eterogenei al loro interno, volutamente falsi, rendendo più arduo ricostruirne la validità.
L’immagine della sfera è anche utile per farci capire che, a seguito dei nostri limiti cognitivi, un ampliamento della conoscenza dei fenomeni può portarci a percepire tracce sempre più frammentate, eterogenee e imprecise di una realtà sempre più complessa, che vanno ricomposte in una conoscenza
138
comune. Anche se un po' alla lontana, vale il proverbio cinese: più invecchio, più conosco e meno capisco….
Nella grande sfera opaca il concetto “minimalista” di qualità del dato, adottato nei sistemi informativi tradizionali, si amplia a dismisura applicandosi ai vari tipi di informazioni prodotti dall’Internet delle cose, scambiati nel Web e nelle reti sociali, acquisiti e scambiati per mezzo dei telefoni cellulari, memorizzati nel Cloud, invadendo tutta la nostra vita di relazioni, e approdando in ultima analisi al concetto di verità, ampiamente studiato da secoli nella filosofia del linguaggio, nella filosofia morale, nella logica e nell’etica, e alle sue sistematizzazioni ed evoluzioni nei concetti di ipoverità, iperverità e post verità (vedi in seguito). La qualità dei dati digitali, da concetto limitato e intrinseco ai dati, diventa un concetto sempre più soggettivo e sempre più influenzato dal messaggio che esprime il dato, dalla cultura e condizione sociale del ricevente il dato e da aspetti emotivi e non razionali.
Figura 19 - La grande sfera opaca
Per fare un primo esempio, all’epoca della cerimonia di insediamento di Donald Trump come Presidente degli Stati Uniti, si diffusero foto che mostravano comparativamente le folle presenti all’insediamento alla Presidenza degli Stati Uniti di Obama e di Trump, vedi Figura 20. Apparentemente, la folla presente all’insediamento di Obama appariva essere di gran lunga superiore della folla presente all’insediamento di Trump, ma il portavoce di Trump Sean Spicer si espresse in senso totalmente opposto. E quando un giornalista chiese a una persona nello staff di Trump, Kellyanne Conway, come fosse possibile una così evidente alterazione della verità, disse che le affermazioni del portavoce erano da considerarsi “fatti alternativi”.
Ampiezza della realtà osservata
Tempo
139
Figura 20 – I fatti alternativi (da www.wtop.com)
Figura 21 – L’area di azione dell’uragano Dorian nella mappa mostrata da Trump (www.theguardian.com)
Un secondo esempio di come ragionare sulla qualità dei dati diventi molto più complesso nel Web è la mappa che nel 2019 Trump ha mostrato per descrivere la traiettoria dell’uragano Dorian, in cui la linea curva cerchiata in Figura 21 sembra messa per confermare una previsione fatta da Trump sul fatto che Dorian avrebbe avuto un impatto sull’Alabama, previsione dichiarata subito infondata dalla agenzia federale che monitora gli uragani.
140
Focalizziamo ora la attenzione sul tema delle dimensioni di qualità dei dati nel Web, vediamo quali sono le più investigate; adotteremo i termini inglesi, essendo imprudente utilizzare dizioni italiane e avvertendo che spesso nella letteratura sulla qualità nel Web non vengono fornite definizioni, piuttosto la dimensione trattata viene riferita ad altre dimensioni, creando nel complesso una rete di concetti che talvolta si richiamano l’uno all’altro, vedi per articoli generali [Lukoianova 2013], [Zubiaga 2018], [Rieh 2010].
La truthfulness è definita in termini di:
honesty, un carattere morale di un essere umano che si riferisce alla sua abitudine di dire la verità accuracy, la propensione della informazione ad essere corretta
credibility, a cui vengono fatti corrispondere diversi significati.
La credibility è stata studiata in molteplici aree scientifiche, dalla psicologia cognitiva al marketing alle discipline gestionali. In alcuni approcci ricomprende le componenti oggettive e soggettive della believability di una fonte o di un messaggio, accompagnata da componenti secondarie che includono il carisma; In altri approcci è definita come "people's assessment of whether information is trustworthy based on their own expertise and knowledge", e ha quindi due componenti fondanti: la trustworthiness e l’expertise, caratterizzate entrambe da elementi oggettivi e soggettivi. La trustworthiness è basata soprattutto su fattori soggettivi, ma può includere fattori oggettivi come la reliability [Nakamura 2007]. L’expertise può essere similmente percepita in modo soggettivo, ma include anche caratteristiche relativamente oggettive della fonte o del messaggio, come le credenziali o la certificazione.
La objectivity è un concetto più filosofico, ed esprime la proprietà di essere vero, indipendentemente da soggettività individuali causate da percezione, emozioni, immaginazione o fantasie.
La veracity è espressa da:
accuracy, intesa come cioè conformità alla verità truthfullness, cioè la devozione e aderenza alla verità capacità di convogliare o percepire la verità.
La reliability ha due ruoli:
se vista in relazione al metodo scientifico, è la consistenza o ripetibilità delle misure sperimentali; se vista in relazione ai modelli statistici, è la consistenza complessiva del processo di misurazione Altri autori mettono in relazione l’expertise e la reliability, formulando un punto di vista molto lontano dai precedenti: la reliability si riferisce alla volontà di fornire informazioni corrette (intenzione), mentre l’expertise si riferisce alla capacità di fornire informazioni corrette (conoscenza).
Il trust (o fiducia) è stato studiato in molte discipline inclusa la sociologia, la psicologia, l’economia e la informatica. Ciascuna di queste discipline ha definito e considerato il trust da diverse prospettive. Il trust è una misura della fiducia che un'entità, persona, fonte informativa, programma informatico o altro artefatto, si comporterà in una modalità attesa, ovvero rispetterà delle qualità attese.
141
Nei prossimi due paragrafi ci concentriamo sul trust, e successivamente sui meccanismi cognitivi che applichiamo nel valutare la credibility.
7.3. Il Trust
Applicando la definizione appena data di trust ai dati digitali, il trust nei dati forniti da una parte emittente può essere interpretato come la fiducia da parte del ricevente sul fatto che i dati forniti siano corretti. Nel contesto dei social network, il trust è fortemente legato al capitale sociale della rete, che chiamiamo fiducia sociale. Il capitale sociale di un network è la ricchezza delle interazioni tra i suoi membri. La gestione del trust in una rete è vista in letteratura come:
- basata su credenziali o policy, - basata su reputazione,
- basata su proprietà della rete.
L’ idea di base dietro la gestione basata su credenziali e policy consiste nell'utilizzare credenziali per abilitare un accesso ai dati basato su criteri di controllo delle risorse. La gestione della fiducia basata sulla reputazione, al contrario, fornisce una valutazione della fiducia del proprietario della risorsa basata su valori di reputazione accumulati nel tempo. Il metodo basato su social network utilizza le relazioni sociali per valutare il trust dei singoli nodi nella rete sociale.
Nella scienza dei dati il trust può essere classificato secondo due punti di vista, dell’utente e del sistema. La nozione di trust "utente" è derivata da psicologia e sociologia con una definizione standard che può vedersi come specializzazione della precedente, come "soggettiva aspettativa che un'entità abbia sul comportamento futuro di un altro”; ciò implica che il trust sia una caratteristica essenzialmente personale. Nei sistemi online come eBay e Amazon, la fiducia si basa sul feedback sulle interazioni passate tra i membri; in questo caso, la fiducia è relazionale. In entrambi i casi, nel mentre due membri interagiscono l'uno con l'altro nel tempo, la loro relazione si rafforza o si indebolisce e la fiducia evolve in base alla esperienza di interazione. Nei sistemi online, la fiducia è considerata di due tipi: diretta e basata su raccomandazioni; a fiducia diretta si basa sull'esperienza diretta del membro con l'altra parte. La fiducia basata su raccomandazioni si basa su esperienze di altri membri nel social network; la fiducia delle raccomandazioni è basata sulla proprietà propagativa del trust.
Diversi tipi di trust possono essere individuati:
- quantitativo, quando il trust è il risultato di un calcolo, focalizzato a massimizzare l’interesse che il soggetto ha dalla interazione.
- relazionale, quando il trust è basato su una storia di interazioni ripetute tra i due soggetti coinvolti nel trust.
- emozionale, che definisce il livello di confidenza che si percepisce istintivamente nel fidarsi dell’altro.
- cognitivo, quando il trust è basato sul raziocinio e su comportamento razionale.
- Istituzionale, quando il trust è riposto in una istituzione che incoraggia la cooperazione tra i membri e scoraggia comportamenti malevoli.
- basato su una disposizione positiva, quando nel corso della vita si crea una aspettativa positiva e ottimistica verso gli altri.
142
Proprietà del trust sono:
la dipendenza dal contesto, per cui possiamo fidarci di una persona quando ci parla di calcio ma, magari, non quando ci fa un’analisi politica.
Il carattere dinamico, nel senso che il trust può aumentare o ridursi con nuove esperienze, interazioni o osservazioni.
Il carattere propagativo, che non significa necessariamente transitivo; se A ha fiducia verso B e B ha fiducia verso C, A è in qualche modo influenzato nel decidere il suo trust verso C.
Il carattere soggettivo, che porta sempre a una personalizzazione, basata su pesi di importanza soggettivi dei diversi elementi introdotti in precedenza.
Il carattere componibile, per cui un membro di un social network consapevolmente o meno compone la sua valutazione su un nuovo soggetto tenendo conto delle catene di relazioni esistenti, e arrivando ad una sintesi anche in caso di valutazioni contrastanti relativi alle varie catene. l’amplificazione nel tempo della relazione di trust, sia in senso positivo che negativo
la sensibilità agli eventi, per cui un singolo evento negativo può distruggere un lungo periodo di formazione del trust.
Per un approfondimento di tutta la precedente problematica il lettore può fare riferimento a [Sherchan 2013].
Prima di concludere in tema di trust, osserviamo che l’accessibilità pubblica delle reti sociali unita alla capacità di condividere opinioni, pensieri, informazioni e esperienza offre importanti prospettive alle imprese e alle pubbliche amministrazioni; oltre alle persone che utilizzano le reti per connettersi ai loro amici e famiglie, le imprese e le amministrazioni hanno iniziato a sfruttare queste piattaforme per fornire i loro servizi a cittadini e clienti. Tuttavia, il successo di tali tentativi si basa sul livello di fiducia che i membri hanno tra loro e con il fornitore di servizi; pertanto, la fiducia diventa un elemento essenziale e importante di un social network di successo.
Per bilanciare la natura aperta dei social network e salvaguardare le preoccupazioni sulla privacy degli utenti, è importante costruire comunità di fiducia, comunità cioè che creano un ambiente in cui i membri possono condividere i loro pensieri, opinioni ed esperienze in modo aperto e onesto, senza preoccupazioni sulla privacy e la paura di essere giudicati o che le informazioni fornite possano essere sfruttate per scopi malevoli.
7.4 Euristiche per la valutazione della Credibility
La ricerca si è soffermata recentemente [Metzger 2013] sulle euristiche utilizzate nella valutazione della credibility, cioè sui processi cognitivi che mettiamo in atto per valutare soggettivamente la credibility di una fonte. Le euristiche investigate sono:
l’euristica basata sulla reputazione, che consiste nel privilegiare alternative riconoscibili rispetto a quelle meno familiari; tendiamo insomma a fidarci di più del noto che dell’ignoto.
l’euristica basata sull’endorsement (sostegno, appoggio), basata sulle valutazioni espresse da altri, cui affidiamo la nostra; tendiamo a fidarci sulla base di quanto si fidano persone di cui ci fidiamo, ovvero che sosteniamo, o a cui ci affidiamo.
143
l’euristica basata sulla consistenza, basata sul confronto tra fonti per evidenziarne le differenze; è la euristica che si forma se noi indaghiamo accedendo ad altre fonti per cercare conferme o contraddizioni, e troviamo solo, o prevalentemente informazioni, appunto, consistenti. Nel caso di inconsistenze, sono proposte varie tecniche per la scelta tra le alternative.
l’euristica di auto-conferma, che misura la credibilità sulla base della conferma delle precedenti credenze; rientrano in questa tematica le analisi sulle camere dell’eco, documentate, ad esempio, in [Quattrociocchi 2016]. Viene presentata una analisi effettuata su circa mille agenzie di stampa e 400 milioni di utenti, in cui è stata esplorata l’anatomia del consumo di notizie su Facebook su scala globale. La conclusione che si può trarre è che gli utenti quando accedono al Web per fini informativi, tendono a focalizzare la loro attenzione su un numero limitato di pagine, andando a selezionare un gruppo ristretto di media da cui attingere informazioni e rafforzando così le proprie opinioni, senza mai metterle in discussione. Di fatto, si chiudono nella loro bolla.
la euristica basata sulla violazione delle aspettative, assume una fonte non credibile se essa ha violato le aspettative in precedenti circostanze; è l’euristica basata sulla delusione, se una volta ci siamo sentiti ingannati, sarà molto difficile per la fonte recuperare in futuro.
l’euristica basata sull’intento persuasivo tende a non considerare credibile il dato che si percepisce soffrire di una intenzionale distorsione; subentra quando ci sentiamo manipolati, e corrisponde ad un meccanismo di difesa; questa euristica è tipica della informazione commerciale.
Il lettore curioso potrebbe concepire un questionario da distribuire ai suoi amici o parenti, per capire quali sono tra le precedenti le euristiche più utilizzate nella vita di ogni giorno; io, confesso, nel corso della mia vita volta a volta le ho applicate un po' tutte….
Se la individuazione delle precedenti euristiche è un rilevante passo avanti nella comprensione della qualità dei dati sul web, la ricerca è ancora aperta nella individuazione della correlazione con il profilo utente e la influenza delle euristiche in contesti di comunicazione mediata dalla automazione.