Web semantico: Caratteristiche, limiti e meta informazioni del web

Web semantico: Caratteristiche, limiti e meta informazioni del web

Introduzione al web semantico

Il World Wide Web è stato reso possibile dalla creazione di un insieme di standard che garantiscono l’interoperabilità a vari livelli; il protocollo di trasporto TCP/IP consente la comunicazione fra processi distribuiti sulla rete, HTTP e HTML consentono il recupero, il collegamento e la presentazione di documenti ipertestuali.

L’espansione del WWW, fenomeno di dimensioni senza precedenti nel campo della comunicazione umana, ha visto al momento il succedersi di due generazioni del web:

  1. Una prima generazione di pagine HTML statiche create a mano dalle persone.
  2. Una seconda generazione di pagine dinamiche create in maniera automatiche dalle macchine grazie all’adozione di linguaggi come PHP, Perl, Java ecc.

Entrambe queste fasi della storia del Web vedono comunque i contenuti della rete creati per elaborazioni fatte dagli uomini, che sono al momento gli unici in grado di interpretarne i contenuti.

Web semantico: Caratteristiche, limiti e meta informazioni del web

Meta Informazioni

Al momento molti degli sforzi del WWW hanno uno scopo: generare informazioni che non siano soltanto destinati alla lettura, ma che possano essere riutilizzati per applicazioni automatiche. Non c’è niente in un documento HTML che indichi l’argomento trattato o la fonte delle informazioni. L’unico tipo di ricerca che si può fare su un documento è la ricerca sul contenuto. Questo non è sufficiente nella maggior parte delle volte: usando un motore di ricerca si ottiene un qualche migliaio di hit, la maggior parte dei quali non serve assolutamente a niente.

La terza generazione del Web mira a rendere le risorse ‘comprensibili’ ai processi automatici utilizzando meta-informazioni sui contenuti. Le meta informazioni permettono agli autori di specificare informazioni sui loro documenti (informazioni su informazioni) che siano non soltanto leggibili, ma anche interpretabili in maniera intelligente dalle applicazioni di rielaborazione, (es. dai motori di ricerca). L’utilizzo sistematico di meta-informazioni ci porterà alla prossima generazione di Web: il Web Semantico.

Il W3C considera l’ideale, futura evoluzione del Web quella dal machine-representable al machine-understandable. L’idea è di generare documenti che possano al tempo stesso essere letti ed apprezzati da esseri umani, ma anche acceduti ed interpretati da software che potranno agire come agenti di ricerca, filtri di informazioni o intermediari (brokers) nelle comunicazioni.
Il Web si deve dunque dotare di una sovrastruttura per l’interoperabilità semantica tra le applicazioni, in modo da poter svolgere quelle funzioni che oggi debbono essere fatte a mano o codificate nei programmi.

Questo porta al web semantico, in cui non si esprimono testi (all’interno dei quali le informazioni si trovano nascoste e richiedono un umano per la loro comprensione), ma affermazioni (informazioni non ambigue, che esprimono relazioni tra oggetti, risorse, esseri umani, fatti del mondo reale, e che possono essere utilizzate anche da applicazioni automatiche). Il Semantic Web non risulta separato e distinto del Web odierno, ma è piuttosto una sua estensione.

Le caratteristiche del Web

Una base di conoscenza è l’insieme delle ‘credenze’ di un sistema e può essere rappresentata in modi diversi, secondo il linguaggio di rappresentazione che si utilizza. Il Web può essere inteso come una base di conoscenza: una fonte di informazioni facilmente reperibili e su cui si possono effettuare interrogazioni.
Questo accostamento ha fatto emergere, però, alcune caratteristiche del Web, che sono in contrasto con la concezione tradizionale di knowledge base:

  • è un immenso contenitore d’informazioni: le pagine indirizzate crescono a dismisura ed ognuna contiene una parte infinitesima di tutto quello che può essere ‘raccolto’ da una singola applicazione; il database che si otterrebbe sarebbe cos`ı grande da essere ingestibile dai sistemi di rappresentazione esistenti.
  • è un mondo ‘aperto’ e l’informazione che è raccolta da un software è sempre una piccola parte di quella disponibile; un sistema di rappresentazione della conoscenza, invece, per l’efficienza dei ragionamenti, considera il dominio come un mondo ‘chiuso’ e ciò che non vi è compreso è considerato ‘falso’ : questa completezza non può essere garantita nella gestione del Web.
  • è dinamico, cioè cambia molto rapidamente, intervenendo su di esso con:
    • Aggiunta di nuove pagine;
    • Modifica delle pagine esistenti: tali variazioni possono avvenire ad intervalli regolari o in qualunque momento, e riguardare parti non inerenti al contenuto informativo (come la correzione di errori di sintassi o il cambiamento di formattazione) oppure coinvolgere dati significativi;
    • Rimozione di pagine (o di interi siti). Questa instabilità si deve riflettere in sistemi estremamente flessibili, in grado di riconoscere dati non disponibili, ma non per questo meno significativi.

Il Web, quindi, è un mondo in continua evoluzione: i dati disponibili cambiano in maniera imprevedibile, la pagine possono essere inserite, cancellate o modificate senza avvertimenti di sorta; tutto questo, in aggiunta alla mancanza di un controllo centralizzato, fa s`ı che i dati possano essere

  • Inconsistenti, per la mancanza di vincoli di qualunque tipo;
  • Inaffidabili, perchè non sono controllati in alcun modo;
  • Non disponibili, se la pagina in cui sono contenuti è rimossa.

L’introduzione dei contenuti semantici deve cercare di mantenere le caratteristiche peculiari del Web (soprattutto la quantità d’informazioni largamente disponibili), ma deve cercare di sfruttarlo meglio, consentendo una ricerca più mirata e precisa e uno scambio di informazioni tra le applicazioni, che le trovano nel Web e successivamente le elaborano in base al loro significato.

Dunque, la creazione del Semantic Web si basa su due elementi fondamentali:

  1. Le ontologie di riferimento.
  2. I documenti sul web ‘annotati’ con informazioni semantiche, ovvero che abbiano al loro interno dei contenuti semantici.

Ontologia

Il termine ontologia ha origini nella filosofia e designa lo studio e ricerca dell’essere e dell’esistenza in quanto tale, principio che condiziona le sue determinazioni particolari.
Le ontologie hanno un ruolo di primo piano per l’elaborazione e condivisione della conoscenza sul Web. In pratica forniscono una visione comune di un determinato insieme di concetti e/o argomenti, che possono essere scambiati fra uomini o applicazioni.

Annotazioni

Le annotazioni sono informazioni semantiche associate a risorse web. Si usano per arricchire il contenuto informativo dei documenti e per esprimere in maniera formale, il significato di una porzione di testo in un documento, dei Web service, delle strutture dati coinvolte in un processo di collaborazione (interoperabilità tra applicazioni software).
Le annotazioni sono delle meta risorse di conoscenza, e vi sono molti criteri per classificare le annotazioni. Si può analizzare il livello di formalità del linguaggio usato, il posizionamento dell’annotazione, il destinatario dell’annotazione, il tipo di risorsa annotata, il livello di restrizione imposto sul linguaggio e la modalità di annotazione.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *