Caratteristiche dei documenti, dati e metadati per il web semantico

Al giorno d’oggi i contenuti web sono formattati per essere ben compresi dalle persone piuttosto che dai programmi e il linguaggio predominante con cui sono scritte le pagine web è l’HTML, linguaggio che non prevede marcatori utili alla semantica. Un contenuto web semantico, invece, dovrebbe essere contemporaneamente comprensibile per l’utente e processabile per la macchina. Ciò richiede la possibilità di inserire varie annotazioni leggibili per l’utente e di specificare il significato del contenuto in modo preciso e disambiguo (un risultato si può ottenere tramite le varie specifiche XML come RDF). In pratica, il documento deve essere auto-descrittivo, e questa caratteristica si ottiene parzialmente producendo un linguaggio comune per specificare dati e metadati nel web. La standardizzazione è l’elemento chiave per migliorare la comprensione da parte degli elaboratori dei dati e contenuti del web ed è fattibile tramite l’uso di termini di base nella creazione dei descrittori dei metadati.

Dati e metadati

L’informazione presente sul web può apparire sotto forma di dati strutturati (per esempio database relazionali), semi-strutturati (per esempio pagine scritte in XML), o non strutturati (per esempio file di tipo .txt). Il concetto di dato è intuitivo: qualunque informazione rappresentata in modo da poter essere trattata da un calcolatore costituisce in pratica un dato. Diverso invece il concetto di metadato che costituisce la caratteristica principale del web semantico e ha che il compito di descrivere il dato:

SEMANTIC WEB CONTENT = DATI + METADATI

I metadati e le annotazioni si riferiscono al dominio specifico che vogliono descrivere e sono associati ai dati. Nel suo significato più generale, il metadato è definito come “informazione relativa al dato”. Per database strutturati, il più comune esempio di metadato è lo schema del database. I metadati possono essere usati per memorizzare proprietà relative al formato, utili nell’accesso o nel recupero dei dati. Essi possono descrivere il contenuto informativo oppure rappresentarne un sommario quando i dati sono descritti in maniera molto analitica. Sono utili, inoltre, per rappresentare proprietà o relazioni tra oggetti appartenenti a tipologie eterogenee.

La funzione dei metadati è duplice:

consentire l’astrazione dei dettagli di rappresentazione come il formato o l’organizzazione dei dati, catturando informazione sul contenuto degli stessi, indipendentemente dai dettagli di rappresentazione;
consentire la rappresentazione del dominio della conoscenza cui i dati appartengono. Tale conoscenza può essere usata per fare inferenze sui dati, per misurare la loro rilevanza e per identificare relazioni tra dati memorizzati in repository e siti web.