Tecniche per la gestione e l’analisi dei Big Data in azienda
Tecniche per Big Data
In questo articolo sui Big Data descriviamo le principali tecniche utilizzate dalle organizzazioni e aziende per aggregare, manipolare, gestire ed analizzare i Big Data:
- A/B testing: tecnica in cui un gruppo di controllo viene confrontato con gruppi di test al fine di determinare quali modifiche ed azioni miglioreranno una data variabile obiettivo;
- Classificazione: insieme di tecniche che permettono di identificare a quali categorie appartengono nuovi dati, basandosi su un training set i cui i dati vengono già categorizzati (apprendimento supervisionato);
- Cluster analysis: si vuole estrapolare un certo numero di gruppi in cui è possibile separare gli oggetti di un insieme analizzando i valori dei loro attributi. Non esistono classi predeterminate, l’algoritmo deve riuscire ad identificare gli oggetti che “si somigliano” e raggrupparli tra loro (apprendimento non supervisionato);
- Crowdsourcing: tecnica utilizzata per raccogliere dati, sottoposta a un grande gruppo di persone o ad una comunità;
- Data fusion e data integration: insieme di tecniche che integrano ed analizzano dati provenienti da diverse fonti con l’obiettivo di sviluppare insights più efficienti ed accurati rispetto a quelli ottenuti esaminando una singola fonte;
- Data mining: insieme di tecniche di classificazione, cluster analysis, regole associative e regressione, che riesce di estrapolare modelli da grandi dataset combinando metodi statistici e di machine learning con la gestione dei database;
- Machine Learning: parte della computer science riguardante la progettazione e lo sviluppo di algoritmi che consentono ai computer di identificare i comportamenti basandosi su dati empirici e in particolare di riconoscere schemi complessi e prendere decisioni intelligenti;
- Modelli predittivi: tecniche in cui viene scelto o creato un modello matematico per calcolare e prevedere la probabilità di un risultato;
- Natural Language Processing (NLP): insieme di tecniche di computer science e linguistica che si ricorrono ai computer per analizzare il linguaggio umano;
- Network analysis: insieme di tecniche utilizzate per caratterizzare le relazioni tra nodi in un grafo o in una rete; vengono analizzate le relazioni tra individui di una comunità o di un’organizzazione, ad esempio il modo in cui circolano le informazioni;
- Ottimizzazione: insieme di tecniche numeriche utilizzate per riprogettare sistemi complessi e processi con l’obiettivo di migliorare le performance relativamente ad uno o più aspetti, tra cui costi, velocità ed affidabilità;
- Regole associative: tecniche che hanno lo scopo di trovare relazioni tra variabili all’interno di un grande dataset;
- Regressione: set di tecniche che permettono di determinare come il valore di una variabile dipendente varia quando una o più variabili indipendenti vengono modificate;
- Sentiment analysis: applicazione del processing natural language e di altre tecniche analitiche per identificare ed estrapolare informazioni soggettive dai testi, un esempio è il giudizio espresso dalle persone riguardo le caratteristiche dei prodotti;
- Statistica: scienza della raccolta, organizzazione ed interpretazione dei dati, utilizzata per esprimere giudizi sulle relazioni tra variabili che potrebbero essersi verificate per caso (ipotesi nulla) e su quelle causali (statisticamente significative);
- Visualizzazione: tecniche di creazione di immagini, diagrammi o animazioni che consentono di comunicare, capire e migliorare i risultati dell’analisi dei Big Data.
Analisi dei Big Data
Ora illustreremo invece un’architettura concettuale per l’analitica dei Big Data. I Big Data provengono sia da fonti interne sia da fonti esterne, molto spesso li troviamo in formati differenti e risiedono in posizioni multiple in numerosi sistemi legacy ed altre applicazioni. I dati possono essere strutturati, ovvero dati conservati in database relazionali, dove le informazioni sono organizzate secondo uno schema definito, e non strutturati, cioè dati conservati senza alcuno schema e semi-strutturati, dati che presentano caratteristiche sia di quelli strutturati che di quelli non strutturati. Una volta uniti i dati, questi hanno bisogno di essere processati o trasformati, essendo in uno stato grezzo. Abbiamo diverse opzioni a disposizione:
- Service-oriented architecture combinata con web services (middleware): i dati rimangono grezzi e i services sono utilizzati per chiamare, recuperare e processare i dati;
- Data warehousing: i dati provenienti da diverse fonti vengono aggregati e preparati per essere processati, anche se non sono disponibili in tempo reale;
- Extract, transform and load (ETL): i dati che derivano da diverse fonti vengono puliti e preparati per la fase successiva.
Il passo successivo consiste nella scelta della piattaforma e della tecnologia da utilizzare.
Infine, abbiamo l’ultima fase relativa alle applicazioni di Big Data analytics che includono queries, reports, OLAP, data mining e data visualization.
Tool di Big Data analytic
I Big Data analytics, ovvero processo che include la raccolta e l’analisi dei big data per ottenerne informazioni utili al business, svolgono un ruolo chiave in questo ambito. Gli strumenti di analytics vengono solitamente suddivisi in 4 categorie:
- Descriptive Analytics: insieme di strumenti orientati a descrivere la situazione presente e passata dei processi aziendali e/o aree funzionali;
- Predictive Analytics: strumenti avanzati che effettuano l’analisi dei dati per rispondere a domande relative a cosa potrebbe accadere nel futuro, caratterizzati da tecniche matematiche quali regressione, forecasting, modelli predittivi, eccetera;
- Prescriptive Analytics: tools avanzati che, insieme all’analisi dei dati, sono capaci di proporre al decision maker soluzioni operative e strategiche sulla base delle analisi svolte;
- Automated Analytics: strumenti in grado di implementare autonomamente l’azione proposta secondo il risultato delle analisi svolte.