3.Il modello Entità Relazione
Capitolo 5 – La qualità dei dati e la grande sfera opaca Carlo Batini
5. La qualità delle visualizzazioni
Spostandoci dalle mappe alle visualizzazioni, la discussione sulla qualità dei dati digitali trova nuovi spunti. Se guardiamo la Figura 15, che riprende la Figura 14 del Capitolo 1, notiamo che la forma della strada e della sua larghezza deforma sensibilmente i dati numerici sul consumo di benzina riportati nella seconda colonna della tabella a sinistra.
Anno Miglia per gallone 1978 18 1979 19 1980 20 1981 22 1982 24 1983 26 1984 27 1985 27,5
134
Figura 15 – La qualità come grandezza della bugia
(da E. Tufte – The visual display of quantitative information, 2001)
Nel bellissimo libro di Tufte [Tufte 1984] viene introdotto il concetto di fattore di bugia, che può essere visto come una metrica per misurare la accuratezza relativa tra i valori del consumo di benzina, espressi numericamente e tramite le larghezze della strada, e che possiamo esprimere come una frazione, vedi il box seguente (il livello di bugia mi ricorda tanto l’inizio di Anna Karenina, parafrasato in “tutte le verità sono uguali, ogni bugia è diversa una dall’altra”).
Livello di «bugia» = rapporto tra lunghezze nella visualizzazione / rapporto tra valori numerici nel mondo reale = 15 L’esempio che mostro in Figura 16 mi ricorda quanto è avvenuto in Cina in due viaggi che ho fatto a trenta anni di distanza. Alla fine degli anni 80 fui invitato in Cina a Pechino da due professori della Beda University, una delle più antiche della Cina, con un finanziamento della World Bank. Allora mi interessavo tra gli altri argomenti di ricerca di disegno automatico dei diagrammi, e quindi decisi di includere questo tema tra quelli dei miei seminari; riparleremo di disegno automatico di diagrammi nel Capitolo 12. I seminari dovevano essere cinque, al primo seminario assistettero circa 16 tra professori, ricercatori e studenti. Nel primo seminario parlai del disegno di diagrammi e mostrai i due diagrammi Entità Relazione di Figura 16, diagrammi che utilizzano gli stessi simboli, sia pure con disposizioni diverse dei simboli sul piano. Anticipo subito cosa accadde nei seminari successivi; quell’epoca in Cina non comprendevano bene l’inglese, e, insomma, i partecipanti ai diversi seminari scesero a otto nel secondo, quattro nel terzo, due nel quarto, e uno nel quinto, nel sesto e nel settimo, una sorta di vittima sacrificale cui forse fu imposto di partecipare per educazione.
Figura 16 - Due diagrammi Entità Relazione che rappresentano lo stello schema concettuale In occasione del primo seminario chiesi all’uditorio (ancora numeroso): which one of the two diagrams do you like more? E tutti alzarono la mano a favore del primo. Io rimasi stupefatto, e chiesi: why? E uno tra i partecipanti disse: perché è più mosso del secondo, dà più del secondo il senso del movimento, che a noi cinesi piace molto…
Trenta anni dopo feci un nuovo seminario, questa volta a Harbin, sulla qualità dei dati, e rifeci lo stesso esempio, con la stessa domanda. E tutti risposero: il secondo. Per dire, la qualità e la sua percezione sembrano proprio avere anche radici culturali.
Purchase Of Order Worker Engineer City Born Warehouse Warranty Type In Employee Sales person Acquires Works Head Floor Located Department Produces Item Manages Order Of Purchase Worker Engineer City Born Warranty Type Employee Sales person Acquires Works Head Floor Located Department Produces Item Warehouse In Manages
135
Torniamo a noi. Se preciso meglio la domanda, e vi chiedo di decidere quale dei due diagrammi è più leggibile, intendendo con leggibile, ricordo, il fatto che lo si possa comprendere con basso sforzo cognitivo, cosa dite? Direi che possiamo concludere che è senza ombra di dubbio più leggibile il diagramma a destra. Ma perché? La ragione è che rispetta diversi criteri estetici che sono mostrati nella parte superiore di Figura 17, in forma di suggerimenti per migliorarne la leggibilità.
Figura 17 – Criteri estetici per migliorare la qualità
Nella parte bassa di Figura 17 vediamo il nuovo diagramma in cui sono state applicate tutte le regole di miglioramento. Questo esempio conferma quanto abbiamo discusso fino ad ora, aggiungendo altre due questioni importanti: il concetto di qualità è ampio, e si intreccia con la estetica e con la nostra cultura.
6. I tradeoff tra dimensioni di qualità
Finora abbiamo descritto e misurato la qualità dei dati digitali tramite un insieme di dimensioni e metriche che, volendo migliorare la qualità del dato, possono essere migliorate tutte insieme, senza conflitti. Confrontiamo ora le due immagini di Figura 18 che si riferiscono all’ingresso di un parcheggio. La prima è stata ottenuta in una giornata nebbiosa, e rappresenta fedelmente la scena in cui si è imbattuto l’automobilista che ha fatto la foto, mentre la seconda è stata ottenuta con un ritocco, in cui è stato aumentato il chiaroscuro. Dal punto di vista della leggibilità, è migliore la immagine a destra, ma dal punto di vista della fedeltà all’originale è migliore la immagine a sinistra. Vediamo dunque che tra diverse dimensioni di qualità vi possono essere tradeoff, nel senso che quando una migliora l’altra peggiora. Purchase Of Order Worker Engineer City Born Warehouse Warranty Type In Employee Vendor Acquires Works Head Floor Located Department Produces Item Manages Minimizza i piegamenti Metti vicini i concetti simili
Usa solo linee orizzontali o verticali Order Of Purchase Worker Engineer City Born Warranty Type Employee Vendor Acquires Works Head Floor Located Department Produces Item Warehouse In Manages Disponi il disegno in una griglia Minimize
136
Spesso ci accade di incontrare situazioni come la precedente; ad esempio, se c’è stato un terremoto, i giornali on line cercano di essere i primi a pubblicare stime dei danni, ma se vogliono essere i più rapidi, e rinunciano a verificare la attendiblità della fonte, rischiano di pubblicare notizie che poi si rivelano inesatte. Analoga situazione accade quando si chiudono le urne in una votazione politica nazionale; gli exit poll danno informazioni quasi in tempo reale, che sempre più spesso si sono rivelate inesatte, per la tendenza di alcuni intervistati, nonostante l’anonimato, a nascondere il partito che hanno votato nell’urna; anche in questo caso, il dato più recente e più aggiornato non è il più accurato.
Figura 18 – Fedeltà vs Leggibilità