Definizione e caratteristiche del Web Mining in informatica

L’introduzione e la diffusione di Internet e delle nuove tecnologie, sono entrate nel modo di pensare e di vivere delle persone influenzandone i loro comportamenti. Fino a qualche anno fa il web era considerato un enorme magazzino di informazioni a disposizione di milioni di persone per le quali molto spesso tali notizie erano incomprensibili. Negli ultimi anni grazie alla popolarità del Web molte compagnie hanno scoperto la potenzialità economica di questo strumento, rendendolo un’area fertile anche per ricerche di Data Mining. Vista l’enorme quantità di dati residente nel Web da un punto di vista statistico l’utilizzo del Data Mining è stata una soluzione quasi obbligata, infatti le numerosità delle informazioni ha fatto si che ci si focalizzasse sin da subito sulla profondità del livello di analisi. Ogni giorno molte organizzazioni registrano grandi volumi di dati durante le loro attività nel Web, ed attraverso l’utilizzo del Web Mining associato a tecniche di Data Mining possono estrarre e scoprire numerose informazioni dalla rete. Le aziende orientate al business sul Web, utilizzano il Web Mining per obbiettivi ben precisi tipo la determinazione del valore reale dei propri clienti definendo apposite campagne di marketing o analizzando specifiche richieste del cliente. Tali attività possono portare alla determinazioni di alcuni servizi specifici per i clienti ed all’accrescimento economico di alcune attività.

Il Web Mining

Con il termine Data Mining (DM) si intende un processo atto a scoprire correlazioni, relazioni, tendenze, setacciando grandi quantità di dati usando tecniche di riconoscimento delle relazioni e tecniche statistiche/matematiche utili a supportare un processo decisionale. Per poter dare dei risultati appropriati il Data Mining ha bisogno di una mole di dati idonea per poter operare in modo da estrarre le informazioni richieste e per questo il Web è sicuramente lo strumento in grado di soddisfare questo requisito.
Il Web Mining può essere definito come il processo di Data Mining applicato ai dati provenienti dal Web. Vista la vastità e l’eterogeneità del campo di analisi si è soliti distinguere, all’interno di tale ambito di ricerca tre categorie di interesse: Web Content Mining, Web Structure Mining, Web Usage Mining.

Web Content Mining

Il Web Content Mining è il processo di Web Mining volto all’analisi dei contenuti presenti sul Web. Gli oggetti coinvolti sono i vari elementi che compongono le pagine web come immagini, audio, video, testo del documento, banner, contenuti multimediali e quant’altro. Di solito i processi di Content Mining costituiscono i principali task dei motori di ricerca, che hanno l’obbiettivo di catalogare e indicizzare i contenuti presenti su Internet.

Web Structure Mining

Il Web Structure Mining è il processo di Web Mining volto a studiare la struttura di un sito Web, di alcuni frammenti della Rete e soprattutto della struttura dei link (Hyperlink structure). Mentre con il Content Mining si è interessati a come sono strutturati internamente i documenti Web, nello Structure Mining si è interessati ad analizzare come i documenti sono tra loro connessi.
Proprio per questo l’obbiettivo principale è scoprire gerarchie tra siti di un particolare dominio e in questo caso il Web può essere visto come un enorme rete in cui i nodi sono rappresentati dalle pagine e gli hyperlink sono gli archi orientati che le collegano.

Web Usage Mining

Il Web Usage Mining è il processo di Web Mining orientato alla comprensione delle dinamiche d’uso di uno o più siti Internet da parte dei navigatori, riferendosi ad aspetti quali le pagine visualizzate con maggior frequenza, i percorsi di visita più ricorrenti, i tempi di connessione e le pagine che producono più entrate o più uscite dal sito. La differenza tra Usage Mining e il Content/Structure Mining sta nel fatto che i secondi utilizzano i dati primari disponibili nella rete mentre il primo estrae le informazioni richieste da sorgenti secondarie dette “clickstream”, ottenute dall’interazione degli utenti con il Web.
L’output di un processo di Usage Mining è formato da una segmentazione o clusterizzazione di utenti del sito sulla base di abitudini di navigazione e delle componenti socio demografiche reperite tramite registrazioni o form compilati per richieste specifiche. La raccolta dei dati nel Web Usage Mining avviene attraverso differenti segmenti dell’intero traffico Web e cioè a livello client, server o proxy.