Data quality: Che cos’è e come si misura la qualità dei dati

La qualità del dato (Data quality) è da sempre una componente importante per le organizzazioni e oggi, in un mercato sempre più competitivo, assume un ruolo di fondamentale rilevanza per l’azienda e per il suo successo nei business in cui opera.

Una possibile definizione di Data Quality è quella riportata nello standard ISO 8402: “The totality of characteristics of an entity that bear on its ability to satisfy stated or implied needs“.

Una definizione di questo tipo ci dice che la qualità del dato non dipende solo dalle caratteristiche del dato stesso ma anche dal contesto di business in cui è utilizzato. La qualità del dato è un componente critico dell’organizzazione, non implementare una strategia di valutazione e controllo della qualità dei dati che si possiedono può avere effetti disastrosi.

La presenza di una scarsa qualità dei dati non è un problema teorico ma un reale problema di business che incide negativamente sull’efficacia delle decisioni critiche prese dall’azienda. Oggi una delle principali aree di investimento per un’azienda dovrebbe essere una strategia di supporto, verifica e miglioramento della qualità del dato.

Data quality: Che cos'è e come si misura la qualità dei dati

Misurare la qualità dei dati

Determinare il livello di qualità dei dati posseduti da un’azienda è un’operazione complessa. Per determinare la bontà dei dati è necessario definire delle metriche attraverso le quali misurare la qualità dei dati. Tuttavia, è molto difficile definire delle metriche universalmente valide in quanto la correttezza dei dati è profondamente legata ai singoli contesti operativi. La qualità del dato è un concetto multidimensionale la cui valutazione implica la definizione di metriche soggettive, adattabili ad un particolare contesto di business. È comunque possibile tentare di definire delle metriche universali indipendenti dal contesto di utilizzo dei dati. Pertanto si possono individuare due tipologie di valutazione:

Indipendenti dal contesto o oggettive: metriche che riflettono lo stato dei dati senza considerare come e dove vengono utilizzati;
Dipendenti dal contesto o soggettive: misurazioni che tengono in considerazione il contesto di utilizzo, regole, caratteristiche e vincoli del business di riferimento.

Infine, secondo Redman il livello di correttezza a livello di record è un buon indicatore di qualità della base di dati in quanto permette di identificare la percentuale di record che contengono degli errori. Tuttavia, senza tenere conto del contesto di utilizzo dei dati tali misurazioni potrebbero risultare falsate.

Metriche per misurare la qualità dei dati

La definizione di metriche in grado di considerare il contesto passa dalla definizione delle dimensioni attraverso cui valutare la qualità dei dati. Per determinare quali sono i criteri più rilevanti rispetto a cui misurare la qualità dei dati in un determinato contesto molte organizzazioni fanno compilare dei questionari agli utenti operanti nel contesto in oggetto. Le principali dimensioni da tenere in considerazione sono le seguenti:

Accessibilità: indica la facilità con cui un utente può identificare, ottenere ed utilizzare i dati;
Comprensibilità: determina quanto i dati sono facili da comprendere;
Accuratezza: si riferisce alla differenza tra una stima di come dovrebbe essere valorizzato un attributo e il valore effettivo riportato dai dati;
Attendibilità: indica il grado di credibilità e affidabilità dei dati, dipende dall’attendibilità della fonte di origine;
Completezza: è una misura di corrispondenza tra il mondo reale e il dataset specifico. Indica quanti e quali dati mancano nel dataset per offrire una rappresentazione completa al 100% del contesto reale;
Consistenza: il grado di consistenza dei dati, per ottenere una rappresentazione consistente i dati all’interno di un dataset devono essere strutturati nello stesso modo;
Correttezza: il grado di esattezza e affidabilità dei dati;
Interpretabilità: si riferisce alla disponibilità di una documentazione della base dati chiara e precisa che indichi agli utenti che tipologie di dati sono contenute nel database, come utilizzare e analizzare i dati;
Manipolabilità: indica il grado di facilità con cui i dati possono essere elaborati per scopi differenti;
Oggettività: indica l’imparzialità, l’obiettività dei dati;
Puntualità: sta ad indicare quanto i dati sono aggiornati rispetto al contesto reale. È una misura di allineamento temporale della base dati rispetto al mondo reale e costituisce un indicatore di fondamentale importanza. Lavorare su dati obsoleti può portare a prendere decisioni critiche errate;
Quantità: indica quanto è appropriato il volume di dati posseduti in riferimento ad una determinata attività. Lavorare con più o meno dati del necessario può rivelarsi controproducente e difficile da gestire;
Rilevanza: indica quanto i dati sono appropriati e di aiuto in un determinato contesto applicativo;
Utilità: indica quanti e quali benefici l’utilizzo dei dati apporta all’azienda, ed è una misura del valore aggiunto portato dall’utilizzo dei dati.

A partire da tali dimensioni un’organizzazione deve definire delle metriche ad hoc in grado di determinare la qualità dei dati nel proprio contesto di business. Accertare la qualità dei dati implica solitamente un processo sintetizzabile in tre fasi: