Big data: Come le aziende estraggono valore dai dati

Big data: Come le aziende estraggono valore dai dati

Catena del valore

Nell’ambito dei Big data, la supply chain si compone di quattro fasi: generazione, acquisizione, raccolta ed analisi. Le prime due rappresentano la macro fase dell’approvvigionamento del dato grezzo, la raccolta la fase della conservazione e l’analisi quella della produzione in cui vi è l’apporto di nuovo valore, grazie all’elaborazione dei dati grezzi e all’informazione che vi si ricava.

Generazione

Questa è la prima fase della catena del valore e consiste nella produzione del dato grezzo. Come detto, negli ultimi decenni, con l’avvento di internet prima e con quello dell’internet of things dopo, l’ammontare di dati è cresciuto esponenzialmente. Una grossa mole di ricerche in internet, nei motori di ricerca piuttosto che nei blog, di condivisioni sui social network, di scambi di messaggi, e-mail, segnali dai più svariati sensori vengono generati ogni giorno. Questi dati sono strettamente connessi alla vita di tutti i giorni dell’uomo o macchina in questione e sarebbero inutili se presi singolarmente ma, attraverso la registrazione e conservazione di un grosso volume di dati, utili informazioni ne vengono estrapolate (si pensi, ad esempio, agli hobbies o agli orientamenti religiosi, politici, sessuali che vengono esplicitati nella propria home page di Facebook; oppure agli spostamenti geografici di tanti automobilisti che permettono a Google di avere informazioni dettagliate sul traffico; oppure ancora alle ricerche che vengono fatte su Amazon che permettono a quest’ultimo di identificare i gusti di una persona e consigliare di conseguenza libri da leggere; è persino possibile prevedere stati d’animo e comportamenti umani, ecc). La tipologia di dati raccolti è estremamente differenziata e le informazioni che ne vengono dedotte sono decisamente utili nelle strategie delle imprese.

Acquisizione

La seconda fase è cruciale, essa consiste nel collezionare, trasmettere ed effettuare una cosiddetta data pre-processing phase. Una volta formatosi il dataset di riferimento, bisogna utilizzare un efficiente meccanismo di trasmissione per inviarlo al tool di storage management system che supporta la fase analitica che si vuole affrontare. Il dataset da trasmettere può contenere molti dati ridondanti o inutili, che necessariamente riducono lo spazio per la registrazione, ostacolando il processo successivo di analisi. Ad esempio, nei dataset registrati dai sensori per il monitoraggio ambientale, c’è molta ridondanza dei dati. La tecnologia che viene utilizzata in questo caso per l’eliminazione dei dati superflui è la cosiddetta data compression. Perciò la fase di data pre-processing, in cui c’è l’eliminazione delle inefficienze, è indispensabile per assicurare un’efficiente raccolta ed elaborazione di dati.

Raccolta

La big data storage si riferisce all’archiviazione e alla gestione della raccolta (elaborazione) di dati e si focalizza al raggiungimento e della disponibilità all’accesso e dell’attendibilità dei dati.

Grazie ad internet, si è sviluppato il cloud computing che ha permesso la registrazione automatizzata di dati verso risorse preesistenti, i server. L’obiettivo delle infrastrutture di storage service è quello di fornire lo spazio necessario alla raccolta così da ridurre il costo unitario di archiviazione di ciascun dato e, d’altro canto, essere un’interfaccia funzionale alla fase di analisi. Esse hanno risolto il problema di come collezionare e registrare grandi ammontari di dati, integrare dati eterogenei e come processare dataset di larga scala per permetterne l’analisi.

‘’Data collection, data storage, data process, data analysis, data application will be the basic task of the enterprise performance in wisdom economy era. Judgement and decision based on data will become the skills and means of enterprises for development.”

Come accennato nei primi paragrafi, i Relational database management systems (RDBMSs) sono i sistemi di registrazione tradizionali, elaborati per memorizzare i dati strutturati. I grandi server processati attraverso il RDBMSs riuscivano a garantire performance elevate nel gestire la variabilità orizzontale dei dati strutturati e accessibilità per le Big data applications; tuttavia, con l’aumento del volume di dati e dell’eterogeneità degli stessi in maniera più che proporzionale all’aumento della capacità di immagazzinamento dei RDBMSs, ci si è spostati verso altre soluzioni. Questo a causa dell’enorme volume di dati non strutturati che hanno iniziato ad essere generati. La sfida di riuscire a processare grossi ammontari di dati semi-strutturati e non strutturati, estremamente eterogenei tra loro, ovvero risolvere il problema della computational scalability, spetta alle piattaforme di data analysis, come Map Reduce. Essa è una piattaforma detta schema-free e index free; caratteristiche che hanno permesso di dotare tali sistemi di flessibilità e permettere di lavorare con i dati non e semi strutturati. Tuttavia queste piattaforme funzionano solo una volta registrati i dati si servono quindi dei cosiddetti NoSQL26 e NewSQL servers, dove SQL sta per structured query lenguage e NoSQL per ‘‘not only SQL”, che sono strutture complesse di network fra server, per farla breve. Le SQL sono diventate un obiettivo cruciale per tali sistemi.

Le principali caratteristiche di tali sistemi sono la gestione mediante schemi flessibili e l’eliminazione delle inefficienze come la ridondanza di dati, che causano un sovraffollamento di dati nei server duplicandone i costi di raccolta.

Le principali piattaforme esistenti sono Google File System (GFS) e Hadoop Distribuited File System (HDFS). Hadoop è un sistema open source fondato da Apache Software Foundation. I principali contributori alla realizzazione di tale progetto sono stati Yahoo, Facebook, Citrix, Google, Microsoft, IBM, HP, Cloudera ed altri.

Queste piattaforme fanno pare della realizzazione di un design di una tecnologia di cloud computing, che comprende diversi device fisici e di supporto alla raccolta di dati. Le risorse fisiche si trovano al centro del nodo principale (master node) dell’architettura, il quale è il responsabile per il monitoraggio e la gestione delle operazioni giornaliere che si svolgono nei nodi periferici e del normale stato di tali nodi. I dati si trovano registrati in quest’ultimi nodi che riescono ad equilibrare la distribuzione dei dati fra i vari nodi. Il problema della registrazione di dati eterogenei dei RDMSs è risolto frazionando e suddividendo per categorie il totale ammontare di dati.

Il sistema di registrazione parte con la richiesta inviata dal client, il cui messaggio passa per il master node server attraverso il network con altri server. I dati vengono poi automaticamente dislocati verso i nodi dove ne vengono implementate le operazioni. Questo è il cosiddetto metodo Partition distribuited storage. Con l’utilizzo degli strumenti di visualizzazione e di analisi i dati arrivano all’utilizzatore finale attraverso il terminal display, Questo può collegarsi all’ Internet client terminal e accedere al sistema.

L’assenza di indici comparabili frena le performance di tali sistemi ma questi riescono ad integrarsi con le piattaforme di Storage Analysis, fra tutte Map Reduce, la quale riesce ad accedere agli indici dei dati, migliorando di gran lunga la performance della query. Tuttavia rimangono ancora diverse sfide da affrontare, ovvero la mancanza di un query lenguage standardizzato per le SQL, una limitata ottimizzazione del modus operandi di Map Reduce e della sua integrazione con le RDBMSs e, per ultimo ma decisamente più importante, la gestione in tempo reale (senza quindi passare per strutture di raccolta intermedie) di dati eterogenei.

Analisi

L’analisi è la fase finale della catena del valore dei big data. Essa viene svolta col metodo analitico tradizionale se si tratta di dati strutturati, mentre è conseguita con l’ausilio di architetture analitiche e di software utilizzati allo scopo dell’estrazione e dell’analisi dei big data non strutturati. Lo scopo è quello di estrapolare valore dai dati, sotto forma di informazioni, al fine di implementare decisioni strategiche. Diversi dataset hanno diversi potenziali di valore. La cosiddetta Data mining si riferisce alla tecnica di estrazione di informazioni utili dai databases. Per questo motivo c’è bisogno di una fase di preprocessing oltre che di un metodo analitico per estrapolare valore dai dati. Questo processo di ricerca ed estrazione di valore dai dati, si compone delle fasi di pulizia, integrazione, selezione, trasformazione, estrazione, valutazione e rappresentazione. I requisiti e le sfide di tale fase analitica sono: trattare big data eterogenei tra loro, avere algoritmi con capacità di calcolo sufficiente a garantire efficienza e scalabilità ed estrapolare informazioni diverse dallo stesso dataset e/o stesse informazioni da dataset simili tra loro. Di seguito verranno esposte le diverse tipologie di analisi, oltre ad una breve descrizione del funzionamento di Map Reduce.

L’analisi tradizionale Consiste nell’utilizzo di metodi statistici per analizzare grossi volumi di dati. L’obiettivo è quello di estrarre dal calderone dei database dati raffinati e utili per i fini strategici che devono essere implementati; ovvero massimizzare il valore dei dati. Questo tipo di analisi viene effettuata tipicamente per i dati strutturati e, a seconda della tipologia dei dati e dei fini a cui l’analisi è volta, ci sono varie tipologie di analisi statistiche da implementare:

  • Cluster Analysis: è un metodo statistico per il raggruppamento di dati e per la riclassificazione degli stessi a seconda di determinate caratteristiche che accomuna i dati omogenei. Viene utilizzata quindi per differenziare i dati eterogenei in cluster di dati omogenei tra loro a seconda di determinate caratteristiche che li accomuna. Quindi si avrà elevata omogeneità all’interno dei cluster ed elevata eterogeneità tra cluster diversi.
  • Factor Analysis: consiste nel sintetizzare le relazioni tra i dati e diverse variabili attraverso pochi fattori che riescono a rivelare la maggior parte delle informazioni sui big data.
  • Correlation Analysis: Serve a verificare se c’è correlazione tra i fenomeni osservati e di che tipo di correlazione si tratta. Dunque è possibile avere relazioni di dipendenza unilaterale, dipendenza reciproca (e quindi correlazione) oppure relazioni e correlazioni inesatte e comunque non giustificate da nessuna variabile causale.
  • Regression Analysis: è uno strumento matematico per manifestare la correlazione tra una variabile e molte altre variabili. Essa si basa su una moltitudine di esperimenti su dati osservabili. La retta di regressione, tuttavia, non spiega anche le relazioni che ci sono per casualità, ovvero quelle ingiustificate.

A seconda della tempestività ricercata nell’analisi dei big data, quest’ultima si distingue in real-time analysis e off-line analysis:

  • Real-time analysis: questa tipologia di analisi è usata soprattutto dalle piattaforme di e-commerce e da quelle Poiché i dati mutano costantemente è necessaria un’analisi rapida di quest’ultimi e bisogna fornire report analitici in tempi più brevi possibili. Le architetture esistenti che permettono una real time analysis sono i tradizionali RDMSs che processano parallelamente diversi cluster di dati e le cosiddette memory-based computing platforms (come HANA di SAP e Greenplum di EMC)
  • Offline Analysis: è un’analisi propria delle architetture che non sono in grado di processare i dati in tempo reale. La maggior parte delle piattaforme di offline analysis utilizzano Hadoop come storage tool al fine di convertire i dati col minor costo possibile e migliorare quindi l’efficienza del processo di acquisizione dei dati. Esempi di tools di questo tipo sono la piattaforma open source Scribe di Facebook, quella di LinkedIn Kafka, Time tunnel di Taobao e Chukwa di Hadoop. Questi strumenti riescono ad acquisire e a trasmettere centinaia di MB al secondo e a soddisfare la domanda.

Ci sono poi diversi livelli di analisi dei dati:

  • Memory-level analysis: è il caso in cui il totale ammontare dei dati è inferiore allo spazio di memoria disponibile per quello specifico cluster di Questo puo’ arrivare a contenere addirittura decine di TB. La Memory-level analysis è estremamente idonea alla real time analysis. Un esempio di architettura di questo tipo è costituito da Mongo DB. Con lo sviluppo del SSD (Solid state driven) la velocità e la capacità dei memory-level analysis è migliorata in modo significativo.
  • BI analysis: è il caso in cui il volume di dataset è superiore allo spazio di memoria disponibile ma puo’ essere importato dalla cosiddetta BI analysis environment. Questi sistemi riescono dunque a superare lo spazio di archiviazione delle memory-level analysis.

MapReduce è stato introdotto da Google con l’obiettivo di processare e analizzare grandi dataset su hardware. Esso fornisce un linguaggio di programmazione che si integra perfettamente con il sistema popolare open source Hadoop. MapReduce riesce a raggruppare i dati già processati in gruppi, ad assegnare un valore chiave a ciascun gruppo e a mappare tali gruppi. Esso inoltre riesce a processare i dati in un tempo relativamente breve e risolve le sfide di tolleranza all’errore e di disponibilità di dati dei sistemi tradizionali. Inoltre esso ha spianato la strada per lo sviluppo di applicazioni per la gestione dei dati sempre più affidabili ed efficienti.

Big data: Come le aziende estraggono valore dai dati

Come le imprese estraggono valore dai dati

Molte imprese e aziende colgono appieno il potenziale di un dataset di riferimento, altre meno. Questo dipende dall’efficacia e dall’efficienza del processo di data storage e analytics. Dopo aver visto le tecnologie utilizzate per effettuare le diverse tipologie di analisi che si possono fare sui dati, passiamo a vedere come le imprese impiegano i dati raccolti ed analizzati per accrescere e migliorare le performance dei propri processi produttivi.

I dati possono essere impiegati in vario modo come ad esempio:

  • Ottimizzazione dei costi e dei ricavi: le potenziali applicazioni in quest’ambito sono Sul lato dei costi, i dati possono essere impiegati per analisi predittive ai fini di opere di manutenzione, efficientamento gestionale, nell’attività di approvvigionamento, supply chain e pianificazione logistica. Sul lato dei ricavi, le intuizioni derivanti dai dati possono essere utilizzate per entrare in nuovi mercati, per attività di segmentazione dei consumatori, per migliorare le caratteristiche dei prodotti offerti e per rendere più efficaci i canali di distribuzione. I dati derivati dalle macchine e dai processi, in particolare dai sensori IoT e dal comportamento dei clienti sono i più utili per le operazioni di ottimizzazione. Viceversa, i dati generati internamente, possono essere utili attività di efficientamento.
  • Marketing e pubblicità: queste attività in genere si basano su transazioni effettuate dall’utente e sui dati comportamentali aggregati derivanti da più fonti, come profili social, informazioni demografiche, cronologia di navigazione on-line e acquisti In quest’ottica possono essere analizzati grandi volumi di dati, fondamentale è l’attività di pulizia e scrematura dei dati ai fini della creazione dell’intuizione di valore. In particolare, imprese pubblicitarie altamente tecnologiche e social media con grandi quantità di dati comportamentali di consumo sono solo alcuni dei player cosiddetto fastestgrowing in questo settore.
  • Market intelligence: molti fornitori tradizionali di servizi di informazione rientrano in questa Poche aziende sono in grado di generare macro dati autonomamente, la maggior parte dei fornitori in questo settore aggregano dati da fonti esterne. Poiché i dati conferiscono un chiaro valore per i clienti e non è facile replicarlo, può essere venduto direttamente e, in questo caso, il suo valore è più facilmente determinabile.
  • Market-making: le imprese market-making, dalle app ride-sharing ai siti di incontri, giocano un ruolo cruciale nel far incontrare le esigenze di acquirenti e venditori. Queste imprese spesso creano piattaforme per raccogliere le informazioni necessarie per consentire una corrispondenza quanto più efficiente ed efficace. In alcuni casi, i dati di segnalazione pura rappresentano tutto ciò che Ma in altri casi, le preferenze, i dati reputazionali (a garanzia dell’autenticità e della qualità dei partecipanti), i dati sulle transazioni e quelli comportamentali sono determinanti. In questo contesto, economie di scala ed effetti di rete svolgono un ruolo fondamentale.
  • Training data for artificial intelligence: machine learning e deep learning necessitano di enormi quantità di traning data. Alcuni vengono generati attraverso simulazioni ripetute, in parte sono generati nella sfera pubblica (come ad esempio i dati catastali e quelli climatici), in parte sono aggregati da una varietà di fonti (quali immagini e video o dati comportamentali). Le imprese che con la loro piattaforma producono enormi quantità di dati rilevanti possono godere di un vantaggio importante, in quanto le loro offerte avranno più tempo per imparare e generare ulteriori dati, alimentando il circolo Però, proprio perché c’è una grande varietà di possibilità di utilizzo per i diversi utenti, valorizzare i dati in questo contesto può risultare particolarmente impegnativo.

Questi ecosistemi possono poi sovrapporsi. In alcuni casi, lo stesso set di dati può avere molteplici applicazioni, ciascuna con un diverso valore.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *