Caratteristiche dei Big Data: Volume, Varietà e Velocità

I big data rappresentano tutti quei dati che possono essere disponibili in enormi volumi, possono presentarsi con formati semistrutturati o addirittura destrutturati e possono essere prodotti con estrema velocità. Volume, varietà e velocità (volume, variety, velocity) sono i fattori principali che caratterizzano i big data.

Volume

Uno degli aspetti che caratterizzano i big data è la loro quantità. Dati generati dall’utente attraverso gli strumenti del Web 2.0, sistemi gestionali, oppure dati generati automaticamente da macchine (sensori, strumenti scientifici) possono assumere volumi rilevanti, non più gestibili con strumenti di database tradizionali.

Una valanga di dati viene generata ogni giorno, solo Twitter e Facebook generano più di 7 TeraByte (TB) di dati ogni giorno. Il volume di dati che ad oggi si sta memorizzando sta esplodendo. Se ci si ferma a pensare non c’è da meravigliarsi se progressivamente si sta annegando in questo mare di dati; oggigiorno se si ha la possibilità di tenere traccia o registrare qualcosa lo si fà, basti pensare ad un semplice smartphone e all’insieme di informazioni e dati che ogni giorno viene prodotto da ogni suo singolo sensore. Uno dei principi chiave per operare con i big data è la memorizzazione di tutti i dati grezzi/originali, indipendetemente dal loro immediato utilizzo. Ogni operazione di pulizia o scarto potrebbe portare all’eliminazione di informazioni utili in futuro.

E’ evidente come, così facendo, l’ammontare di dati da mantenere nei sistemi diventi estremamente elevato.

In certi casi, si potrebbe pensare di utilizzare dei normali RDBMS per memorizzare i dati, ma questo presuppone di investire cifre elevatissime sia per lo storage, si per la capacità di calcolo necessaria a elaborare tale mole di dati. Tali investimenti potrebbero rivelarsi non giustificabili alla luce dei risultati ottenuti in termini di performance. Al crescere del volume i dati non possono più essere immagazzinati utilizzando i sistemi tradizionali. Esistono soluzioni basate su architetture hardware MPP (Massive Parallel Processing ) utilizzate in ambito data warehousing, che però non sono adatte a far fronte a un’altra caratteristica dei big data: l’eterogeneità dei formati e la presenza di dati destrutturati. Esistono pertanto soluzioni e tecnologie alternative che permettono di gestire e analizzare al meglio l’intera mole di dati, con l’obiettivo di ottenere informazioni a supporto del business che si sta considerando. Tra le tecnologie open source, la più diffusa e utilizzata è Apache Hadoop, grazie alla sua capacità di processare grandi quantità di dati a costi contenuti.

Varietà

Con l’esplosione dei sensori, degli smartphone, degli strumenti del Web 2.0 e dei social network i dati si sono “complicati”, ovvero non presentano più una struttura predefinita e quindi non sono più riconducibili ad uno schema tabellare, ma possono presentare un formato semistrutturato o destrutturato, non più rapplesentabile in modo efficiente in un database relazionale. La diversità di formati e, spesso, l’assenza di una struttura sono la seconda possibile caratteristica dei big data. La varietà perciò, ha portato un drastico cambiamento all’interno dei processi analitici; si è passati dai tradizionali dati strutturati a dati semistruttirato e/o destrutturati che non possono essere gestiti e processati dai tradizionali strumenti analitici. Per il salvataggio di dati semistrutturati, molto spesso la scelta ricade su cosidetti database NoSql, che forniscono i maccanismi adatti a organizzare i dati ma, allo stesso tempo, non impongono uno schema predefinito, come invece avviene per i database relazionali; infatti vengono anche detti schemaless database. La mancanza di schema, che negli RDBMS deve essere progettata prima dello sviluppo, consente di adattarsi alla variabilità dei dati.

Se ci si ferma ad osservare ciò che ci circonda è possibile notare che solo il 20% dei dati presentano un formato strutturato adatto agli schemi dei database relazioni; ben l’80% dei dati del mondo sono destrutturati o, nella migliore delle ipotesi, semistrutturati. Per cui le imprese, per poter sfruttare l’opportunità dei big data, devono essere in grado di gestire e analizzare tutti i tipi di dati che si presentano, sia relazionali che non relazionali.

Velocità

Non solo la varietà e il volume dei dati che vengono memorizzati sta cambiando, anche la velocità con cui i dati vengono generati sta cambiando e deve essere gestita. La velocità con cui i nuovi dati si rendono disponibili è il terzo fattore con cui è possibile identificare i big data. Oltre al volume, anche la velocità con cui le fonti generano nuovi elementi rende necessario l’utilizzo di strumenti in grado di tenerne il passo. La sfida per le aziende consiste nella capacità di sfruttare i dati provenienti ad alte velocità con altrettanta rapidità, estrapolando le informazioni utili per il business, minimizzando i tempi di elaborazione. A volte, essere in vantaggio rispetto alla concorrenza, significa identificare un problema, una tendenza o un’opportunità in pochi secondi, prima di chiunque altro; quindi, per poter trovare informazioni utili, le aziende devono possedere gli strumenti ed essere in grado di analizzare tali dati “quasi” in tempo reale. Le tecnologie di riferimento per la gestione di questo aspetto dei big data sono chiamate streaming data o complex event processing (CEP).