Che cos’è, come funziona e importanza della Data Quality nei progetti IT

Che cos’è, come funziona e importanza della Data Quality nei progetti IT

Data Quality nei progetti IT

I sistemi informativi offrono nuove opportunità per la gestione della qualità dei dati, come la capacità di selezionare e confrontare i dati da diverse fonti per rilevare e correggere gli errori e, quindi, migliorare la qualità complessiva dei dati.

In letteratura la qualità dei dati può essere definita in base a diversi fattori come il loro dominio dei dati, la correttezza, la completezza, unicità e integrità referenziale.

Al fine di determinare che i dati sono “adatti allo scopo”, vengono definiti sei dimensioni/caratteristiche quali: la qualità di accuratezza, tempestività, pertinenza, completezza, comprensione e fiducia.

La qualità dei dati è importante per le aziende al fine di sfruttare iniziative IT come data “mining” e “warehousing”.

Il successo di tali investimenti IT dipende molto dalla qualità dei dati di origine. Il concetto GIGO “Garbage In, Garbage Out” è molto applicabile in questa situazione.

L’efficacia di qualsiasi iniziativa IT dipende dalla qualità dei dati.

I rapporti generati e le decisioni del prodotto possono essere buoni solo quanto la qualità dei dati.

I problemi che circondano la qualità dei dati o la mancanza di qualità sono aggravati dal fatto che i dati sono diffusi tra sistemi disparati all’interno di un’organizzazione, i dati sono raccolti, mantenuti e utilizzati da vari livelli di un’organizzazione e molti sistemi di sviluppo le metodologie non incorporano la garanzia della qualità dei dati.

I problemi di qualità dei dati sopra menzionati possono essere risolti disponendo di un’efficace gestione dei dati che potrebbe garantire una buona qualità attraverso l’uso di un programma di governance dei dati.

La letteratura fornisce un’ampia gamma di tecniche per valutare e migliorare la qualità dei dati, come il collegamento dei records, le regole aziendali etc.

Nel tempo, queste tecniche si sono evolute per far fronte alla crescente complessità della qualità dei dati nei sistemi informativi in rete.

A causa della diversità e complessità di queste tecniche, la ricerca si è recentemente concentrata sulla definizione di metodologie che aiutano a selezionare, personalizzare e applicare tecniche di valutazione e miglioramento della qualità dei dati. In generale, un’ulteriore suddivisione dei dati è la seguente:

  1. I Dati strutturati, sono aggregazioni o generalizzazioni di elementi descritti da attributi elementari definiti all’interno di un dominio. I domini rappresentano l’intervallo di valori che possono essere assegnati agli attributi e di solito corrispondono a tipi di dati elementari dei linguaggi di programmazione, come valori numerici o stringhe di testo. Le tabelle relazionali ei dati statistici rappresentano la tipologia più comune di dati strutturati.
  2. I dati non strutturati, sono una sequenza generica di simboli, tipicamente codificati in linguaggio naturale. Esempi tipici di dati non strutturati sono un questionario contenente testo libero che risponde a domande aperte o il corpo di un’e-mail.
  3. I dati semistrutturati sono dati che hanno una struttura che ha un certo grado di flessibilità. Essi vengono anche definiti senza schema o autodescrittivi.

La grande maggioranza dei contributi di ricerca nella letteratura sulla qualità dei dati si concentra su dati strutturati e semistrutturati.

Che cos'è, come funziona e importanza della Data Quality nei progetti IT

Nel caso più generale, la sequenza delle attività da tenere in conto per la qualità dei dati è composta solitamente da tre fasi:

  1. “Ricostruzione dello Stato”, che ha lo scopo di raccogliere informazioni contestuali su processi e servizi organizzativi, raccolte di dati e relative procedure di gestione, problemi di qualità e costi corrispondenti. Questa fase può essere saltata se le informazioni sono disponibili da analisi precedenti.
  2. Valutazione/misurazione, che misura la qualità delle raccolte di dati lungo le dimensioni di qualità pertinenti; il termine misurazione viene utilizzato per affrontare il problema di misurare il valore di un insieme di dimensioni della qualità dei dati. Il termine valutazione viene utilizzato quando tali misurazioni vengono confrontate con valori di riferimento, al fine di consentire una diagnosi di qualità.
  3. Il miglioramento riguarda la selezione delle fasi, delle strategie e delle tecniche per raggiungere nuovi obiettivi di qualità dei dati.

Nelle loro fasi di miglioramento, le metodologie adottano due tipi generali di strategie, ovvero guidate dai dati e guidate dai processi.

Le strategie basate sui dati migliorano la qualità dei dati modificando direttamente il valore dei dati. Ad esempio, i valori dei dati obsoleti e non più attuali vengono aggiornati con un database più aggiornato.

Le strategie basate sui processi migliorano la qualità riprogettando i processi che creano o modificano i dati.

Le strategie, basate sia sui dati che sui processi, applicano una varietà di tecniche: algoritmi, e attività basate sulla conoscenza, il cui obiettivo è migliorare la qualità dei dati.

Un elenco delle tecniche di miglioramento applicate dalle strategie basate sui dati è:

  • Acquisizione di nuovi dati, che li migliora acquisendo dati di qualità superiore per sostituire i valori che sollevano problemi di qualità
  • Standardizzazione (o normalizzazione), che sostituisce o integra valori di dati non standard con valori corrispondenti conformi allo standard
  • Collegamento di record, che identifica le rappresentazioni dei dati in due (o più) tabelle che potrebbero riferirsi allo stesso oggetto del mondo reale;

La letteratura molto spesso ha associato alla scarsa qualità dei dati, l’aumento dei costi e la complessità dello sviluppo della gestione delle relazioni, per esempio, con i clienti.

I costi sono una prospettiva rilevante considerata nelle metodologie, a causa degli effetti di dati di bassa qualità sulle attività che consumano risorse.

Quindi i costi legati ai dati rappresentano un aspetto molto importante sia da un punto di vista dei possibili svantaggi che possono causare, sia dal punto di vista dei miglioramenti necessari che si possono effettuare.

Il costo della qualità dei dati è la somma del costo delle attività di valutazione e miglioramento della qualità dei dati (indicato anche come costo del programma per la qualità dei dati) e il costo associato alla scarsa qualità dei dati.

Di conseguenza, il costo della scarsa qualità può essere ridotto implementando un programma di qualità dei dati più efficace, che è in genere più costoso.

Pertanto, aumentando il costo del programma di qualità dei dati, si riduce il costo della scarsa qualità dei dati. Questa riduzione può essere vista come il vantaggio di un programma di qualità dei dati.

Il costo di un programma per la qualità dei dati può essere considerato un costo preventivo sostenuto dalle organizzazioni per ridurre gli errori nei dati. Questa categoria di costo include il costo di tutte le fasi e passaggi che compongono un processo di valutazione e miglioramento della qualità dei dati.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *