Caratteristiche e Differenza tra OLAP e Data Mining in informatica

OLAP (On Line Analytical Processing)

In informatica, con il termine OLAP (On Line Analytical Processing) si intende la possibilità fornita all’utente di costruire, modificare e personalizzare report decidendo autonomamente:

dimensioni di analisi (righe, colonne, pagine)
livello di dettaglio
quali dati numerici sottoporre a elaborazione (ricavi, costi, ecc.)
il tutto in modo facile, visuale, guidato, drag & drop.

Il sistema OLAP si distingue da un sistema di reporting per il fatto che quest’ultimo offre un set predefinito di report, al limite modificabili e integrabili (colonne calcolate), mentre OLAP evidenzia la facilità per l’utente di cambiare totalmente strategia di analisi senza che, a priori, siano stati creati report dedicati.

Le analisi OLAP consentono la navigazione sull’informazione contenuta in un cubo e quindi con una logica multidimensionale.

Le caratteristiche principali sono:

drill (Up, Down e Across): azione che permette di percorrere la gerarchia in ogni direzione e livello di dettaglio
slice and dice: danno la libertà di esprimere una variabile rispetto a qualsiasi incrocio di dimensioni ad essa relate.

Caratteristiche e Differenza tra OLAP e Data Mining in informatica

Data Mining

Le tecniche di Data Mining rappresentano un passo conoscitivo maggiore rispetto alle analisi OLAP ma su settori ben definiti di indagine.
Il loro scopo è identificare relazioni e tendenze tra dati aiutando a scoprire fenomeni di mercato e a consolidare conoscenze di base sul proprio business.

Si tratta di un processo analitico finalizzato ad esplorare grosse quantità di dati nella ricerca di regolarità consistenti e/o relazioni sistematiche tra variabili, e quindi a validare i risultati ottenuti applicando le regolarità individuate a nuovi sottoinsiemi di dati. Queste tecniche possono essere utilizzate con fini descrittivi, ossia per estrarre una rappresentazione schematica facilmente interpretabile dall’utente, oppure con fini predittivi, ossia per determinare i valori futuri di alcune variabili o quelli sconosciuti di altre.

Il Data Mining si basa su sofisticate tecniche matematiche e statistiche. Le più utilizzate sono:

analisi cluster che consiste nel raggruppare gli oggetti in un ridotto numero di insiemi che caratterizzano meglio la popolazione
analisi fattoriale che permette di ottenere una riduzione della complessità del numero di fattori che spiegano un fenomeno proponendo di determinare un numero di variabili “latenti” più ristretto e riassuntivo rispetto al numero di variabili di partenza. In altre parole si tratta di una sorta di ricerca della parte comune delle rilevazioni fatte
modelli di reti neurali sono modelli costituiti da un gruppo di interconnessioni di informazioni costituite da neuroni artificiali e processi che utilizzano un approccio di connessionismo di calcolo. Esse possono essere utilizzate per simulare relazioni complesse tra ingressi e uscite che altre funzioni analitiche non riescono a rappresentare
alberi decisionali attraverso cui comprendere un particolare fenomeno classificando, in ordine di importanza, le cause che portano al verificarsi di un evento
modelli predittivi.

Vi sono, inoltre, altre due funzionalità che i sistemi di BI sono in grado di svolgere. Si tratta delle funzionalità di cruscotti e quelle di query.

La prima offre la possibilità di presentare in modo statico le informazioni mediante efficaci visualizzazioni grafiche di vario genere (per esempio semafori, tachimetri, business graphics, icone e forme grafiche di vario genere ecc.) e quindi di applicare allarmi grafici e cromatici per evidenziare problemi, eccezioni o fuori norma, come per esempio, scostamenti da valori di soglia o di budget. È più spesso destinata al vertice aziendale.

La seconda, invece, offre la possibilità di interrogare liberamente il Datawarehouse costruendo interrogazioni (query) libere senza conoscere la sintassi del linguaggio di interrogazione (tipicamente il linguaggio SQL), e quindi reperire le informazioni utili al management ricercando, selezionando, filtrando, raggruppando, correlando e sintetizzando i dati disponibili secondo i criteri personali del decisore.
Anche se i tradizionali sistemi di business intelligence sono stati consegnati tramite terminali host o rapporti cartacei, la distribuzione moderna tipica di una domanda di BI si trova sul web, tramite connessioni Internet o Intranet.