Caratteristiche, creazione e sfide dei Big Data in informatica

Definizione dei Big Data

“Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications“

Partendo da questa definizione, il termine “Big” sta ad indicare un ammontare di dati tali per cui c’è bisogno di un ingente investimento di capitale sia per la loro raccolta o acquisizione e sia per la loro analisi. I Big data si riferiscono ad un dataset la cui dimensione è troppo elevata per la capacità di calcolo dei software tradizionali per la raccolta e l’analisi dei dati, ovvero il loro volume eccede la capacità di calcolo dei processori dei database convenzionali.

“Big data is too big, too fast, or too hard for existing tools to process”

I Big data si riferiscono alla nascita di un database management e un analytical approach sviluppati per raccogliere, manipolare, estrapolare conoscenza ed infine utilizzare quella conoscenza.

Gli investimenti in Big data includono anche quelli in risorse umane, i cosiddetti data scientists con un notevole impatto nella creazione di lavoro, oltre a quelli in soluzioni tecnologiche altamente avanzate, come le piattaforme di database management (ad esempio Hadoop, IBM/Netezza), strumenti di analisi e visualizzazione (come Revolution R), i cosiddetti text processing, e le soluzioni di streaming in tempo reale.

Il concetto di database machine come strumento specializzato nella raccolta e analisi dei dati nacque negli anni Settanta. Con l’aumento del volume di dati, la capacità di raccolta e processuale di un singolo mainframe computer system divenne obsoleta e si è passati a sistemi più complessi.

I Big data sono diventati un importante fattore produttivo, un intangible asset che richiede capitale umano altamente specializzato, ed attraversano un ciclo produttivo che va dalla loro raccolta e termina con l’elaborazione di informazioni indispensabili per le decisioni strategiche della maggior parte (se non della totalità) delle imprese.

Essi infine rappresentano una chiave competitiva in differenti dimensioni, verso clienti, fornitori, nuovi entranti e prodotti sostituti.

Caratteristiche, creazione e sfide dei Big Data in informatica

Caratteristiche

Un aspetto microeconomico importante è la struttura dei costi per la creazione dei big data. Essi implicano, infatti, zero costi marginali di produzione e distribuzione. In altre parole, una volta acquisite sia le competenze tecniche di analisi, sia le infrastrutture di raccolta ed elaborazione, produrre e distribuire dati digitali non apporta costi incrementali (i costi marginali sono praticamente nulli).

A differenza dell’olio, o di qualsiasi altra commodity, i Big Data non consistono in un grande ammontare dello stesso prodotto poiché, con eccezione dei duplicati, i dati digitali sono diversi ciascuno dall’altro. Essi, attraverso codici binari, rappresentano varie sfaccettature del mondo. L’olio ha caratteristiche specifiche, è nero e vischioso. I big data non hanno le stesse proprietà e, ancor di più, non sono costanti nel tempo. Inoltre, la stessa informazione può essere fornita da diversi dati e gli stessi dati possono fornire diverse informazioni. Questa caratteristica è nota come ubiquità dei dati. Ad esempio, una ricerca fatta sulla disponibilità a pagare di un target di individui per un bene/servizio, fatta sia attraverso i dati provenienti dalle carte di credito, sia dagli acquisti on-line, può condurre allo stesso risultato. Così come, processando gli stessi dati sugli acquisti on-line, si possono ottenere informazioni sia sugli orari tipici in cui vengono effettuati acquisti sulle piattaforme di e-commerce, sia a quale età gli individui sono maggiormente soliti effettuare acquisti in rete. In sostanza, i dati digitali su cui un’impresa tenta di estrapolare informazioni, spesso ammettono sostituti. Si pensi ancora alle numerose imprese produttrici di applicazioni per gli smartphones che collezionano dati sulla geolocalizzazione dei proprietari dei device.

I big data sono Inoltre non rivali e non escludibili nel consumo. In altre parole, una volta divulgati, il consumo di dati di un individuo o entità, non preclude la possibilità di consumo di altri; e nessun consumatore di dati digitali può impedire ad altri di utilizzare gli stessi dati per fini decisionali. Le due entità, infatti, non competono sull’approvvigionamento di dati, bensì sulle decisioni strategiche che ne derivano, che sono frutto di un’analisi ed una raccolta fatta a priori. Quest’ultime due fasi, la raccolta e l’analisi, pongono un dubbio che apre un dibattito molto acceso sul fronte antitrust. Ovvero, ci si chiede se l’accesso ai dati digitali possa essere escluso da chi ne detiene la proprietà.

Sfide dei Big Data

Le caratteristiche dei big data delle 4 V, l’ubiquità, la strutturabilità, la non rivalità e non escludibilità unite alla struttura dei costi dei dati, apportano delle sfide complesse da affrontare per chi ha a che fare con l’acquisizione, immagazzinamento, gestione ed analisi dei big data. Sviluppare applicazioni, hardware o software, per la raccolta e l’analisi dei big data comportano diverse sfide da affrontare. Qui ne verranno indicate alcune:

Rappresentazione: molti dataset hanno vari livelli di eterogeneità per tipo, struttura, significati semantici, organizzazione, granularità e accessibilità. La data representation mira a fornire significatività ai dati, sia per l’analisi attraverso i computer, sia per l’interpretazione degli utenti. Ciononostante, un’impropria rappresentazione dei dati potrebbe ridurre il valore dei dati originali e ostacolare l’analisi effettiva dei dati.
Compressione dati ed eliminazione dati ridondanti: tipicamente, c’è un alto grado di ridondanza dei dati. Ad esempio, molti dati generati dai sensori sono fortemente ridondanti; essi vengono prima filtrati e poi compressi secondo il loro ordine di grandezza.
Gestione del ciclo di vita dei dati: Il valore dei dati è funzione della “giovinezza” dei Il valore della ricerca analitica fatta su un dataset, pertanto, dipende dal processo decisionale di quali dati scartare e quali invece registrare.
Gestione analitica: il processo analitico consiste nel processare una massa eterogenea di dati in un tempo limitato, a causa della variabilità dei dati. I tradizionali RDBMSs hanno performance deficitarie in scalabilità ed espandibilità, sono quindi poco efficienti nel processare grossi volumi di I database non relazionali (per i dati non strutturati) stanno iniziando ad essere più performanti e sono candidati a diventare il mainstream nell’analisi dei big data. Essi tuttavia hanno ancora qualche problema in alcune applicazioni. Molte imprese hanno scelto un database che ha un’architettura mista tra il RDBMSs e i database non relazionali (ad esempio Facebook e Taobao).
Confidenzialità: Bisogna avere confidenza con i dati. Molte imprese non hanno al loro interno le skills necessarie per processare grandi ammontari di dati, per questo esternalizzano questa attività a professionisti che hanno a disposizione il tool per la raccolta e l’analisi dei big data.
Riservatezza: l’analisi di dati, soprattutto quelli sensibili, deve essere supportata da adeguate misure di sicurezza per prevenirne l’integrità.
Espandibilità e scalabilità: il sistema di raccolta e analisi dei dati deve processare dati presenti e futuri. L’algoritmo analitico deve essere in grado di processare dataset più complessi ed in espansione.
Consumo energetico: le fasi di raccolta, elaborazione e trasmissione, con la crescita del volume dei big data richiedono sempre più un notevole consumo di energia. Tuttavia anche i meccanismi di risparmio energetico stanno crescendo al fine di assicurare espandibilità e scalabilità
Cooperazione: l’analisi dei big data è una ricerca interdisciplinaria, che richiede esperti in differenti campi per “esaurire” tutto il potenziale di un dataset. Diversi ingegneri o scienziati devono infatti poter accedere ai big data.