Differenza tra Web Content Mining, Web Structure Mining, Web Usage Mining

Che cos’è il Web Mining

In informatica, con il termine Data Mining (DM) si intende un processo atto a scoprire correlazioni, relazioni, tendenze, setacciando grandi quantità di dati usando tecniche di riconoscimento delle relazioni e tecniche statistiche/matematiche utili a supportare un processo decisionale. Per poter dare dei risultati appropriati il Data Mining ha bisogno di una mole di dati idonea per poter operare in modo da estrarre le informazioni richieste e per questo il Web è sicuramente lo strumento in grado di soddisfare questo requisito.

Il Web Mining può essere definito come il processo di Data Mining applicato ai dati provenienti dal Web. Vista la vastità e l’eterogeneità del campo di analisi si è soliti distinguere, all’interno di tale ambito di ricerca tre categorie di interesse: Web Content Mining, Web Structure Mining, Web Usage Mining.

Web Content Mining

Il Web Content Mining è il processo di Web Mining volto all’analisi dei contenuti presenti sul Web. Gli oggetti coinvolti sono i vari elementi che compongono le pagine web come immagini, audio, video, testo del documento, banner, contenuti multimediali e quant’altro. Di solito i processi di Content Mining costituiscono i principali task dei motori di ricerca, che hanno l’obbiettivo di catalogare e indicizzare i contenuti presenti su Internet.

Il processo di Web Content Mining inizia con una fase di preprocessing dei dati detta Content Preparation estraendo il testo dai documenti, dopodiché si “pulisce” il documento stesso eliminando tutti i caratteri non necessari all’analisi. Attraverso questo processo si ottiene per ogni documento un vettore contenente i pesi di ogni termine, potendo assegnare anche pesi aggiuntivi alle Keywords e alle parole che compaiono nei titoli. Una volta pronto il set di dati si possono applicare le procedure del Data Mining quali la classificazione, la clasterizzazione, le regole associative. Altri processi tipici di un’analisi di Web Content sono la Topic Identification e la Concept Hierarchy Creation. La prima è il risultato di una combinazione di clustering e classificazione associando un’etichetta ai nuovi documenti sulla base di categorie già precedentemente identificate mentre la seconda è volta alla comprensione delle gerarchie e delle relazioni tra le categorie individuate. Alcune applicazioni tipiche del Content Mining permettono di quantificare la rilevanza di un contenuto o di un documento in un dato contesto. I metodi di rilevazione sono i seguenti:

Query Based
Document
User Based
Role/Task Based

Il primo metodo associa le parole immesse nella query alle keywords dei documenti archiviati. Questa tecnica permette di arricchire il procedimento di ricerca attraverso l’adozione di parametri quali la popolarità della pagina o la posizione dei termini cercati.

Il secondo metodo misura quanto il documento è rilevante in un contesto specifico, normalmente la visualizzazione di questo risultato si ottiene al termine della query, dove la lista dei documenti è orientata in base all’importanza.

Il terzo metodo parte dalla creazione di un profilo utente, le cui caratteristiche rappresentano la base per il confronto con gli altri documenti. In questo caso non si richiede l’utilizzo di query.

Il quarto metodo è un’estensione del precedente dove la differenza principale consiste nel fatto che i profili possono essere delineati a seguito dell’attività di più utenti e non necessariamente di uno singolo.

Differenza tra Web Content Mining, Web Structure Mining, Web Usage Mining

Web Structure Mining

Il Web Structure Mining è il processo di Web Mining volto a studiare la struttura di un sito Web, di alcuni frammenti della Rete e soprattutto della struttura dei link (Hyperlink structure). Mentre con il Content Mining si è interessati a come sono strutturati internamente i documenti Web, nello Structure Mining si è interessati ad analizzare come i documenti sono tra loro connessi.

Proprio per questo l’obbiettivo principale è scoprire gerarchie tra siti di un particolare dominio e in questo caso il Web può essere visto come un enorme rete in cui i nodi sono rappresentati dalle pagine e gli hyperlink sono gli archi orientati che le collegano.

Un’analisi di Web Structure può essere condotta a due livelli:

Document Level (Intra page cioè all’interno della stessa pagina)
Hyperlink Level (Inter Page cioè mettendo in correlazione più pagine)

L’analisi del secondo livello è la più interessante e viene svolta normalmente per incrementare l’efficacia di un processo di navigazione ed anche per aumentare le probabilità di accedere alle pagine authority cioè quelle pagine ben posizionate all’interno dei motori di ricerca. Le applicazioni di Web Structure hanno diverse finalità tra le quali la determinazione della qualità della pagina (un esempio classico è il PageRank di Google) ma più in generale restituiscono punteggi o indicazioni sulla pertinenza della pagina rispetto a un determinato topic oppure stabiliscono quali pagine marcare nel processo di crawling.

Come accennato sopra il motore di ricerca Google utilizza l’architettura PageRank per classificare le pagine “desiderate” dagli utenti utilizzando due componenti principali. Il primo è la pertinenza dei contenuti di una pagina ai topic indicati nei titoli o nelle indicazioni passate al motore di ricerca mentre il secondo deriva dalla numerosità e dalla popolarità delle pagine che puntano alla pagina considerata.

Web Usage Mining

Il Web Usage Mining è il processo di Web Mining orientato alla comprensione delle dinamiche d’uso di uno o più siti Internet da parte dei navigatori, riferendosi ad aspetti quali le pagine visualizzate con maggior frequenza, i percorsi di visita più ricorrenti, i tempi di connessione e le pagine che producono più entrate o più uscite dal sito. La differenza tra Usage Mining e il Content/Structure Mining sta nel fatto che i secondi utilizzano i dati primari disponibili nella rete mentre il primo estrae le informazioni richieste da sorgenti secondarie dette “clickstream“, ottenute dall’interazione degli utenti con il Web.

L’output di un processo di Usage Mining è formato da una segmentazione o clusterizzazione di utenti del sito sulla base di abitudini di navigazione e delle componenti socio demografiche reperite tramite registrazioni o form compilati per richieste specifiche. La raccolta dei dati nel Web Usage Mining avviene attraverso differenti segmenti dell’intero traffico Web e cioè a livello client, server o proxy. Il livello client descrive l’interazione di un singolo utente con un insieme di siti dove i dati vengono reperiti tramite l’utilizzo di applet Java o Javascript oppure modificando il codice sorgente di un browser rendendo partecipe l’utente in prima persona. Il livello server rappresenta la sorgente dati più importante per il Web Usage Mining in quanto registra il comportamento attraverso un accesso concorrente degli utenti nella visita di un sito internet memorizzando le informazioni nei server access log. Il Web server permette di registrare altri tipi di informazioni come i cookies, e le query utente, i singoli click del mouse e ogni altra possibile informazione ottenuta come risultato di una interazione dell’utente con il sito. Il livello proxy agisce come livello intermedio tra il browser dell’ utente e il web server, permettendo di ridurre notevolmente il tempo di carico dei documenti. Le informazioni vengono memorizzate nei log proxy e sono utili per comprendere i comportamenti di un gruppo di utenti che utilizzano lo stesso proxy server o per studiare metodi per migliorare le strategie di caching.

Molti professionisti hanno individuato tre fasi che compongono il processo di estrazione della conoscenza dal Web e più precisamente il: preprocessing, pattern discovery, pattern analysis.

Preprocessing

Il Preprocessing è un’attività che si occupa di reperire tutte le informazioni relative alle pagine visitate dai vari utenti le quali saranno l’input per la fase di estrazione della conoscenza. Il preprocessing include le seguenti attività: Data Cleaning, User Identification, Session Identification e Path Completion.

Pattern Discovery

Il Pattern Discovery è un’attività successiva all’identificazioni di utenti e sessioni la quale è importante per determinare strategie di marketing efficienti o per ottimizzare la struttura del sito. Il Patterns Discovery è caratterizzato dai seguenti task:

Analisi dei cammini
Regole di Associazione
Patterns Sequenziali
Classificazione
Clustering

Queste tecniche possono essere utilizzate in maniera a se stante oppure combinate tra loro dando luogo a dei modelli utilizzabili per diversi aspetti del Web Usage Mining.

Patterns Analysis

La Pattern Analysis è un’attività successiva alle tecniche di patterns discovery descritte sopra in quanto queste ultime non sarebbero molto utili senza meccanismi e strumenti di aiuto per la comprensione. Infatti l’output degli algoritmi di mining spesso non è direttamente utilizzabile.

Il primo obbiettivo di questa fase è filtrare le regole e i patterns ritenuti non interessanti a seconda dell’analisi che si vuole effettuare e a seconda del tipo di applicazione di Web Mining che è stata realizzata.