Cosa sono e transizione dai Dati Operazionali ai Big Data

Cosa sono i Big Data

Oggigiorno, accade sempre più spesso che le aziende abbiano la necessità di analizzare i dati, da sempre prodotti in grandi quantità, ma non immagazzinati a causa della mancanza di strumenti di analisi in grado di elaborare tale mole di dati.

Nonostante le aziende abbiano la possibilità di accedere a questa mole di dati, con i tradizionali strumenti messi a disposizione, non sono in gradi di “estrapolare” valore da questi, perchè molto spesso si presentano nella loro versione più grezza oppure in formati semistrutturati o addirittura non strutturati. La percentuale di dati che il business può processare sta calando molto velocemente. Inoltre, Da molti studi è emerso che oltre la metà delle organizzazioni non hanno pieno accesso alle informazioni di cui hanno bisogno per svolgere il proprio lavoro.

Nel corso degli anni si sono resi disponibili dati che, per tipologie e per numerosità, hanno contribuito a far nascere il fenomeno dei Big Data. Il termine Big Data viene applicato a dati e informazioni che non possono essere processati o analizzati utilizzando processi e strumenti tradizionali. I big data rappresentano uno dei fattori evolutivi nel mondo dell’analisi dei dati e della Business Intelligence.

Transizione dai Dati Operazionali ai Big Data

Le basi di dati operazionali variano a seconda della tipologia di azienda che si sta considerando. Alcuni esempi di fonti operazionali potrebbero essere applicativi per la:

gestione della produzione;
gestione degli acquisti;
gestione degli ordini e delle consegne;
contabilità;
gestione del personale;
gestione dei clienti.

Tradizionalmente le basi di dati operazionali risiedono su database relazionali RDBMS (Relational Database Management System). I database relazionali sono progettati utilizzando tecniche di normalizzazione che facilitano le attività transazionali di inserimento, modifica e cancellazione dei dati, ottimizzandone le prestazioni. I database normalizzati però non sono adatti alle analisi, per questo motivo si sfruttano appositi database, detti Data Warehouse che permettono di ottimizzare le performance di interrogazione. I dati provenienti dalle fonti operazionali vengono aggiunti in maniera incrementale all’interno dei Data Warehouse, garantendo così la storicizzazione dei dati. Questi tipi di sistemi però, in presenza di fonti che generano grando moli di dati, sono caratterizzati da una storicizzazione molto onerosa che nel tempo potrebbe risultare ingestibile dal punto di vista delle risorse e dei costi.

I dati operazionali, a seconda del business, possono assumere volumi rilevanti. Si prenda come esempio l’ambito bancario, considerando solamente una parte del patrimonio dei dati della banca, dove per ogni cliente, vengono registrati i saldi giornalieri dei conti e le movimentazioni. Inoltre la velocità con cui i dati vengono prodotti è un aspetto critico che deve essere considerato parallelamente alla mole di dati mantenuti in memoria. Accanto alle fonti strettamente legate al business vi possono essere sistemi, più vicini alla produzione, che generano enormi quantità di dati. Solitamente ci si riferisce a sistemi DCS (Distributed Control System), sistemi computerizzati utilizzati per il controllo di impianti industriali. I componenti distribuiti sull’impianto generano dati mediante sensori legati al componente stesso; le rilevazioni dei dati possono avvenire a intervalli temporali molto piccoli e ciò, assieme alla possibile presenza di migliaia di sensori, porta a produrre una mole molto elevata di valori grezzi da gestire. I dati provenienti da sensori non sono gli unici che possono assumere dimensioni ragguardevoli, anche le apparecchiature scientifiche di misurazione e analisi e le apparecchiature mediche e diagnostiche sono potenzialmente in grado di generare una quantità molto elevata di dati.

Le tecniche legate ai database relazionali, molto spesso, non riescono a tenere testa alla quantità di dati e la velocità con cui essi sono prodotti dai sistemi di misurazione o dal business. Le limitazioni degli RDBMS possono essere superate se si considerano i cosidetti database historian. Questi sistemi, da un lato comportano un notevole risparmio in termini di spazio e consentono un recupero efficiente dei dati, dall’altro risultano essere poco efficaci per svolgere analisi complesse sulle serie storiche, come analisi statistiche avanzate o ricerca di pattern attraverso tecniche di data mining.

Le problematiche citate richiedono tecnologie diverse dagli RDBMS e dagli historian, tecnologie che consentano, senza investimenti proibitivi, di ottenere potenza di calcolo e scalabilità.