Che cos’è, a cosa serve, processi e esempi di Data Mining in informatica

Dati, informazioni e conoscenza

I dati sono definiti come trasportatori di informazioni e raramente hanno valore per l’utente. Un dato è ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione. In informatica: elementi di informazione costituiti da simboli che debbono essere elaborati.
Le informazioni sono dati aggregati ad un livello in cui hanno senso per il supporto decisionale. L’informazione è un notizia, dato o elemento che consente di avere conoscenza piu’ o meno esatta di fatti, situazioni, modi di essere.
Quando la BA (Business Analytics) genera conoscenza significa che le informazioni sono state analizzate e interpretate.

Ora possiamo specificare tre chiari requisiti dei nostri analisti e il loro centro di competenza:

competenze di business;
competenze di metodo (i kit di attrezzi devono essere adeguati);
competenze sui dati (comprensione tecnica).

Data Mining

Le attività di data mining sono suddivise in due tipologie: metodi predittivi (utilizzano alcune variabili per prevedere il valore futuro di altre variabili); metodi descrittivi (consistono nell’identificare pattern comprensibili che descrivano i dati).
Fanno parte dei metodi predittivi la classificazione e la regressione, mentre fanno parte dei metodi descrittivi il clustering, l’identificazione di regole associative, l’identificazione di pattern sequenziali e l’identificazione di anomalie.

Che cos'è, a cosa serve, processi e esempi di Data Mining in informatica

Classificazione

Data una collezione di record (training set), ogni record contiene un insieme di attributi, alcuni dei quali indicano la classe del record. Lo scopo è di assegnare nuovi record ad una (o piu’) classi il piu’ accuratamente possibile, identificando un modello per gli attributi di classe, cioè una funzione sui valori degli altri attributi.
Un test set viene utilizzato per determinare l’accuratezza del modello. I test set e i training set sono ottenuti entrambi dai dati disponibili, che vengono suddivisi nei due tipi di insiemi.

Esempio: ridurre il costo di marketing individuando un insieme ristretto di consumatori che piu’ probabilmente compreranno un nuovo modello di cellulare. Approccio: utilizzare i dati per un prodotto simile introdotto in precedenza, individuare chi ha comprato o meno il prodotto, questo attributo (Sì/No) è l’attributo di classe. Raccogliere informazioni relative a questi clienti e utilizzarle come attributi di input per “addestrare” il classificatore.

Regressione

Predirre il valore di una variabile continua sulla base dei valori di altre variabili assumendo l’esistenza di un modello di dipendenza (lineare o non lineare).

Esempi:

Predire le vendite di un nuovo prodotto sulla base delle spese pubblicitarie.
Predire la velocità del vento in funzione della temperatura, l’umidità, la pressione, e altri parametri.
Predire l’andamento di indici di borsa.

Clustering

Dato un insieme di dati, ognuno descritto da un insieme di attributi, e una misura di similarità, identificare cluster (gruppi) tali che:

I dati in un cluster siano piu’ simili tra loro.
I dati in due cluster diversi siano meno simili.

Esempi

Attuare una segmentazione del mercato raccogliendo le informazioni relative ai clienti e identificare poi cluster di clienti simili.
Misurare i cluster ponendo attenzione ai pattern di acquisto di clienti nello stesso cluster o in cluster differenti.

Identificazione di regole Associative

Dato un insieme di record, ciascuno contenente alcuni oggetti, produrre regole di dipendenza per predire l’occorrenza di alcuni oggetti sulla base della presenza di altri.
Esempio: processare i dati raccolti alla cassa tramite gli scanner di codici a barre per identificare i prodotti che vengono acquistati insieme da un numero significativo di clienti.

Identificazione di pattern sequenziali

Dato un insieme di oggetti, con ogni oggetto associato al tempo in cui esso si manifesta, identificare regole che predicano dipendenze sequenziali tra eventi differenti.
Esempio: seguire la navigazione degli utenti e cercare le regole su come questi si muovono attraverso il web.

Identificazione di anomalie

Identificare deviazioni significative dal comportamento abituale.
Esempio: identificazione di frodi con carte di credito.

Le informazioni presentate da questi processi metodici non sono destinate ad essere successivamente interpretate e trasferite in conoscenza, perchè questi risultati analitici sono indiscutibili.