• Non ci sono risultati.

Le dimensioni della qualità nelle basi di dati

Nel documento La Scienza dei Dati (pagine 125-128)

3.Il modello Entità Relazione

Capitolo 5 – La qualità dei dati e la grande sfera opaca Carlo Batini

2. Le dimensioni della qualità nelle basi di dati

Osserviamo la tabella in Figura 5. Ogni riga della tabella, eccetto la prima, rappresenta un film del secolo scorso, nelle colonne compaiono nomi che forniscono il significato dei valori. Il valore NULL indica assenza di valore, o meglio, «non conosco il valore». Quando l’ho mostrata ai mei studenti, non avevano visto nessuno dei film citati, neanche nei cinema d’essai, o su You Tube. Questo rende l’esercizio che ora vi propongo un pò più interessante da risolvere. L’esercizio consiste in questo: provate a scoprire, magari consultando Wikipedia, gli errori di qualità presenti nella tabella, e provate a classificarli in termini di dimensioni, come abbiamo visto nell’esempio di Figura 4.

Figura 5 – Una tabella con dati di scarsa qualità

Risposta - Nella tabella vi sono errori relativi a diverse dimensioni di qualità; le dimensioni coinvolte sono le seguenti:

• Accuratezza – Vacnze Romane è errato, “vacnze” non corrisponde a nessuna parla del vocabolario italiano. Grazie al meccanismo di autocorrezione utilizzato da Google e da altri motori di ricerca nel mostraci le pagine esito di una ricerca per parole chiave, scopriamo che il titolo di film più vicino è Vacanze Romane. Inoltre, Wylder è errato perché non esistono registi con quel nome, e il regista di Vacanze Romane è Billy Wilder. Questo errore è più difficile da rilevare e correggere, perchè una ricerca su Google non fornisce in questo caso nelle prime pagine il nome di un regista, e, piuttosto, dobbiamo cercare il nome del regista nel testo di Wikipedia associato a Vacanze Romane. Ciò è semplice per noi, ma non per una tecnica automatica.

• Completezza – I tre valori NULL non ci danno nessuna informazione, e quindi possono vedersi come errori di incompletezza.

• Consistenza – Riguardo al film Casablanca, non è possibile che l’anno del primo film con questo titolo sia 1942, e l’anno dell’ultimo remake sia 1940, c’è qualcosa che non va; così pure non è

Id Titolo Regista Anno Numero di

Remake

Anno Ultimo Remake

1 Casablanca Weir 1942 3 1940

2 Dead Poets Society Curtiz 1989 0 NULL

3 Vacnze Romane Wylder 1953 0 NULL

126

possibile che il film Sabrina abbia 0 Remake, e l’ultimo Remake sia del 1985; possiamo chiamare questi errori di inconsistenza.

Diamo a questo punto alcune definizioni. La qualità di un dato (o di un insieme di dati) è la caratteristica del dato che si basa sulla sua capacità di soddisfare necessità ed aspettative esplicite o implicite dei fruitori del dato; l’aspettativa più rilevante è che il dato sia una rappresentazione aderente alla realtà. Una dimensione di qualità è una specifica proprietà associabile alla qualità, usualmente non misurabile. Le più importanti tra le dimensioni di qualità nelle basi di dati sono:

• l’accuratezza, intesa come aderenza del dato al fenomeno osservato,

• la completezza, cioè l’estensione con cui il dato rappresenta la realtà osservata,

• la tempestività di aggiornamento, intesa come rapidità con cui cambiamenti nel fenomeno osservato corrispondono ad aggiornamenti del dato digitale,

• la consistenza, cioè il rispetto di un insieme di regole logiche definite per rappresentare le proprietà del dato.

Nella tabella di Figura 6 mostriamo le dimensioni di qualità riscontrate nelle metodologie per la qualità dei dati proposte nella letteratura (vedi [Batini 2009]; mostro queste dimensioni senza nessuna intenzione di commentarle una per una, semplicemente per mostrare visivamente quanto sia esteso il tema della qualità dei dati nelle basi di dati e quante dimensioni diverse siano state proposte.

Figura 6 – Quante solo le dimensioni di qualità dei dati?

Acronym Data Quality Dimension

TDQM Accessibility, Appropriateness, Believability, Completeness, Concise/Consistent representation, Ease of manipulation, Value a dded, Free of error, Interpretability, Objectivity, Relevance, Reputation, Security, Timeliness, Understandability

DWQ Correctness, Completeness, Minimality, Traceability, Interpretability, Metadata Evolution, Accessibility (System, Transactional, Security), Usefulness (Interpretability, Timeliness (Currency, Volatility), Responsiveness, Completeness, Credibility, Accuracy, Consistency, Interpretability

TQDM Inherent dimensions: Definition conformance (consistency), Completeness, Business rules conformance, Accuracy (to surrogate source), Accuracy (to reality), Precision, Nonduplication, Equivalence of redundant data, Concurrency of redundant data, Pragmatic dimensions: accessibility, timeliness, contextual clarity, Derivation integrity, Usability, Rightness (fact completeness), cost.

AIMQ Accessibility, Appropriateness, Believability, Completeness, Concise/Consistent representation, Ease of operation, Freedom from errors, Interpretability, Objectivity, Relevancy, Reputation, Security, Timeliness, Understandability

CIHI Dimensions: Accuracy, Timeliness Comparability, Usability, Relevance

Characteristics: Over-coverage, Under-coverage, Simple/correlated response variance, Reliability, Collection and capture, Unit/Item non response, Edit and imputation, Processing, Estimation, Timeliness, Comprehensiveness, Integration, Standardization, Equivalence, Linkage ability, Product/Historical comparability, Accessibility, Documentation, Interpretability, Adaptability, Value.

DQA Accessibility, Appropriate amount of data, Believability, Completeness, Freedom from errors, Consistency, Concise Representation, Relevance, Ease of manipulation, Interpretability, Objectivity, Reputation, Security, Timelines, Understandability, Value added.

IQM Accessibility, Consistency, Timeliness, Conciseness, Maintainability, Currency, Applicability, Convenience, Speed, Comprehensiveness Clarity, Accuracy, Traceability, Security, Correctness, Interactivity.

ISTAT Accuracy, Completeness, Consistency

AMEQ Consistent representation, Interpretability, Case of understanding, Concise representation, Timeliness, Completeness Value added, Relevance, Appropriateness, Meaningfulness, Lack of confusion, Arrangement, Readable, Reasonability, Precision, Reliability, freedom from bias, Data Deficiency, Design Deficiency, Operation, Deficiencies, Accuracy, Cost, Objectivity, Believability, Reputation, Accessibility, Correctness, Unambiguity, Consistency

COLDQ (Loshin) Schema: Clarity of definition, Comprehensiveness, Flexibility, Robustness, Essentialness, Attribute granularity, Precision of domains, Homogeneity, Identifiability, Obtainability, Relevance, Simplicity/Complexity, Semantic consistency, Syntactic consistency.

Data: Accuracy, Null Values, Completeness, Consistency,Currency, Timeliness, Agreement of Usage, Stewardship, Ubiquity, Presentation: Appropriateness, Correct Intepretation, Flexibility, Format precision, Portability, Consistency, Use of storage, Information policy: Accessiiblity, Metadata, Privacy, Security, Redundancy, Cost.

DaQuinCis Accuracy, Completeness, Consistency, Currency

QAFD Syntactic/Semantic accuracy, Internal/External consistency, Completeness, Currency, Uniqueness. CDQ Accuracy, Completeness, Consistency, Currency, Timeliness, Completability, Reputation, Accessibility, Cost.

127

Una metrica di qualità è una misurazione di una dimensione di qualità che, partendo dalla dimensione da misurare, associa ad essa un valore numerico o ordinale (es. alta) in un dominio di valori. Ad esempio, nella seconda riga della tabella di Figura 5 abbiamo cinque valori sul sei specificati, mentre il sesto ha valore nullo; possiamo associare alla completezza della riga il valore 5/6.

Più complesso è associare metriche ad altre dimensioni, come, ad esempio, la leggibilità di un testo, intesa come la capacità del testo di esprimere il significato, senza spiegazioni aggiuntive. Nel caso della leggibilità, sono state definite varie metriche, tra cui ad esempio, indici che misurano la percentuale di parole sul totale che non fanno parte di un elenco di parole considerate comprensibili a una persona che abbia raggiunto un determinato titolo di studio (ad esempio la scuola dell’obbligo). Se ricordate, abbiamo commentato questa dimensione all’inizio del prologo; torneremo sulla leggivilità tra poco, nella Sezione 3.

Supponiamo ora di voler rappresentare le informazioni contenute nella nuvoletta a sinistra della Figura 7, e che il risultato di questo processo di rappresentazione sia la tabella con una sola n-pla mostrata in basso. Assumiamo di ignorare i valori veri contenuti nella nuvoletta; ciò è usuale nelle basi di dati, i valori vengono inseriti una volta, e poi vengono interrogati da persone che non hanno partecipato all’ inserimento iniziale del dato.

Figura 7 – Come troviamo il nome vero?

Osservando la tabella, ci rendiamo conto che il valore “Maro” è errato, perché non corrisponde a nessun valore noto dei nomi dati alle persone. Cosa possiamo fare per trovare il valore vero? Certamente il processo più affidabile consisterebbe nel cercare la persona e chiedergli come si chiama, sperando che la persona ci risponda in modo corretto, ma è chiaro che ciò è impossibile o molto costoso.

Un procedimento approssimato, e quindi soggetto ad errori, consiste prima di tutto nell’assumere che il nome sia un nome italiano, trovare un sito nel Web che elenchi tutti inomi italiani, e poi confrontare

Nome Cognome Sesso Data Nascita

Maro Rossi uomo 1989

Mara Rossi e’ nata nel 1949

Dist (Maro, Mario) = 1 Dist (Maro, Maria) = 2 Dist (Maro, Mara) = 1 …

128

“Maro” con questo elenco. In Figura 7 è mostrata una pagina con alcuni dei nomi di uomo e di donna che cominciano per M. Effettuare un confronto a questo punto porta a fare un’altra assunzione, che la prima lettera del nome sia corretta. In questo caso nel confrontare “Maro” con i nomi negli elenchi possiamo misurare la distanza tra “Maro” e i diversi nomi di uomo e di donna. In Figura sono evidenziati i tre nomi più vicini, ed è calcolata la distanza, misurata come numero dei caratteri che dobbiamo inserire, sostituire o cancellare per trasformare Maro nel nome (questa distanza è chiamata Edit distance, e non è l’unica che possiamo misurare). Ci sono due nomi a distanza 1, Mario e Mara, e uno a distanza 2, Maria. Come decidiamo tra Mario e Mara? Se facciamo l’assunzione che Sesso abbia valore corretto, allora possiamo dedurre che il nome corretto è Mario.

Il processo visto, pur nella sua semplicità, ha messo in evidenza un fatto importante. Per misurare la qualità dei dati, nel nostro caso la accuratezza dei nomi nella tabella, e per correggerli, dobbiamo cercare una conoscenza esterna alla tabella, che ci guidi nel processo. Nel nostro caso, la conoscenza è costituita dall’elenco dei nomi, e dal fatto che la persona in questione è affermata essere di sesso maschile. Inoltre abbiamo fatto diverse assunzioni, abbiamo assunto che:

 il primo carattere del nome sia corretto;

 il valore vero compaia nella lista trovata sul Web;  il valore del sesso sia corretto;

 sia stato commesso un solo errore di digitazione nell’inserire nella tabella il nome.

Le azioni di miglioramento della qualità dei dati nelle basi di dati si basano sul confronto tra i dati e una conoscenza di riferimento che può essere costituita da insiemi di dati certificati, vincoli logici tra dati, ovvero, ancora, può essere acquisita mediante ricerche o indagini.

Una trattazione esaustiva del tema della qualità dei dati nelle basi di dati, nelle immagini, nelle mappe geografiche e nei testi non strutturati, nonché la discussione di metodologie e tecniche per la valutazione e il miglioramento della qualità dei dati compaiono in [Batini, Scannapieco 2016].

Nel documento La Scienza dei Dati (pagine 125-128)