Definizione e come creare e progettare un Data Warehouse

Definizione e come creare e progettare un Data Warehouse

Nella sua definizione più semplicistica, il Data Warehouse (acronimo DWH), viene definito nell’ambito informatica come un archivio informatico contenente i dati di un’organizzazione. I DWH sono progettati per consentire di produrre facilmente relazioni ed analisi aziendali.
Il Data Warehouse è una collocazione di dati statistici integrati, organizzata per soggetti, che riguardano una serie di fatti accaduti nel tempo e finalizzata al recupero di informazioni a supporto di processi decisionali.

Mentre i database operazionali appartengono ai sistemi informativi di supporto alle attività operative e registrano istante per istante le varie transizioni, i Data Warehouse appartengono ai sistemi di supporto alle attività direzionali e svolgono le seguenti operazioni:

  • raccolta dati provenienti da database operazionali o da altre fonti alternative.
  • elaborazione ed aggregazione dati.
  • classificazione degli stessi secondo criteri specifici.
  • aggiornamento dati rispetto degli istanti precisi.
  • organizzazione dati precedentemente elaborati e successiva aggregazione all’interno di specifici Data Mart.

I dati estratti dagli archivi transazionali vengono memorizzati internamente al data warehouse. Nel DWH l’accesso ai dati è consentito in sola lettura. Tali dati hanno una dimensione storica e sono riferiti a soggetti di business, possono essere memorizzati in un archivio centrale o in un data mart.
Il termine “Data Mart” identifica un Data Warehouse di dimensioni ridotte, specializzato per una particolare area di attività. Si pensi, ad esempio, al data mart per il marketing, in cui i dati filtrati dagli archivi transazionali sono memorizzati per consentire l’analisi della clientela. All’interno della banca dati generale possono quindi esistere più data mart, aventi finalità diverse e orientati a coprire diverse aree di business. I dati contenuti nel data warehouse possono essere aggregati e indicizzati per rispondere a specifiche necessità informative.

Definizione e come creare e progettare un Data Warehouse

Infine, va precisato che il data warehouse è l’unico database per tutti i dirigenti, i quali però sono ben diversi l’uno dall’altro e hanno esigenze distinte. Per questo motivo, spesso si scompone il DWH in porzioni più piccole, chiamate appunto Data Mart, più facilmente gestibili e da cui i motori di elaborazione possono estrarre dati in funzione dell’utente che li richiede.

Come progettare un data warehouse

Il Data Warehouse è un insieme di tabelle che contengono “dati elementari”.

Questi dati rappresentano:

  • la “misura” di un certo evento o fenomeno
  • lo “stato” di una certa parte interessata.

Per realizzare un Data Warehouse di dati elementari è necessario:

  1. Scegliere i dati elementari di interesse, formato, grado di aggiornamento possibile e richiesto, ecc.
  2. Individuare le proprietà fondamentali, quali: tipo di valore indicato, metrica, fonte, modalità di calcolo e modalità di aggiornamento.
  3. Organizzare i dati elementari attraverso l’uso di “ipercubi”, seguendo una logica che possa permettere di costruire indicatori utili ai manager.

Un aspetto sul quale riflettere riguarda la connessione tra sistemi di supporto alle attività operative e sistemi direzionali. I primi sono importanti fonti di dati per i secondi. I dati memorizzati nel database dei sistemi di supporto alle attività operative sono spesso inadatti per essere immessi direttamente nei database direzionali (DWH). Si rende inoltre necessaria una selezione di dati e la scelta di un’opportuna logica volta a stabilire quali tipi di elaborazioni adottare per collegare i due distinti database.

Individuati e selezionati i dati elementari è necessario organizzarli all’interno del Data Warehouse tramite ipercubi fondati su logiche favorevoli alla costruzione di indicatori utili ai manager. L’ipercubo è un insieme di celle organizzate per dimensioni che permettono di interpretare il dato a seconda di come lo si legge.
Dimensione di un ipercubo: insieme di elementi appartenenti allo stesso dominio. Cardinalità di una dimensione: numero di diversi valori che essa assume.

E’ possibile costruire report diversi a partire dallo stesso ipercubo e soddisfare così manager con esigenze diverse. A fronte di una sempre maggiore mole di dati e informazioni da processare, i moderni Data Warehouse hanno dimensioni sempre più grandi e complesse, di conseguenza non vengono quasi più tradotti all’interno di un unico ipercubo ma vengono organizzati per sezioni (Data Mart), ipercubi di dimensioni minori, più efficienti e sviluppati in maniera specifica.

Un metodo molto utilizzato per estrarre e confezionare “pacchetti di informazioni” dal Data Warehouse si basa sull’uso delle cosiddette “Gerarchie di Aggregazione”. Questa tecnica prende a riferimento la struttura organizzativa dell’azienda (organigramma, centri di costo, centri di responsabilità, ecc.), identifica i vari manager presenti nei diversi livelli aziendali e infine associa, ad ogni livello manageriale individuato, un’opportuna gerarchia di aggregazione dei dati elementari.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *