Caratteristiche e modelli dell’Information Retrieval in informatica

Caratteristiche e modelli dell’Information Retrieval in informatica

L’Information Retrieval (IR), che significa letteralmente “reperimento delle informazioni”, è l’insieme delle tecniche utilizzate per gestire la rappresentazione, la memorizzazione, l’organizzazione delle informazioni e l’accesso ad oggetti contenenti informazioni quali documenti, pagine web, cataloghi online e oggetti multimediali, al fine di rendere agevole all’utente il soddisfacimento dei propri bisogni informativi.

I problemi centrali dell’Information Retrieval sono:

  1. capire quali documenti sono impotanti e quali non lo sono per l’utente; non è semplice caratterizzare esattamente i bisogni informativi dell’utente.
  2. le decisioni di solito dipendono da un algoritmo di ranking basato sul concetto di rilevanza del documento; questo concetto è determinato dal modello di Information Retrieval adottato.

Caratteristiche e modelli dell'Information Retrieval in informatica

Modelli di Information Retrieval

I modelli classici di Information Retrieval sono tre: il modello Booleano, il modello Vettoriale e il modello Probabilistico.

Modello Booleano

Il modello Booleano è un semplice modello di recupero basato sulla teoria degli insiemi e dell’algebra di Boole; in questo modello, i termini indice sono presenti oppure assenti in un documento. Come risultato, i pesi dei termini indice vengono considerati in modo binario, cioè possono assumere solamente i valori 0 o 1. La query q è composta da termini indice collegati da operatori booleani come “and”, “or”, “not”. I principali vantaggi del modello Booleano sono la semplicità e il formalismo pulito che sta dietro a questo modello; mentre i principali svantaggi sono che la corrispondenza esatta (cioè un documento pùo essere pertinente oppure non pertinente, senza corrispondenze parziali) pùo portare al recupero di troppi o troppo pochi documenti e che i documenti recuperati non siano classificati in base alla rilevanza della query.

Modello Vettoriale

Il modello Vettoriale riconosce che l’uso di pesi binari è troppo limitante e propone un quadro in cui la corrispondenza parziale è possibile e auspicabile. Ci`o si ottiene assegnando pesi non binari ai termini indice nelle query e nei documenti. Questi pesi sono infine utilizzati per calcolare il grado di somiglianza tra ogni documento memorizzato nel sistema e la query dell’utente. Il modello Vettoriale ordina i documenti recuperati in ordine di similarità decrescente.

Modello Probabilistico

L’idea fondamentale su cui si basa il modello probabilistico è che, data una query utente, vi è un insieme di documenti che contiene esattamente i documenti rilevanti e nient’altro. Data la descrizione di questo insieme ideale, non avremmo problemi a recuperare i suoi documenti, quindi possiamo pensare al processo di interrogazione come ad un processo che specifichi le proprietà di questo insieme ideale. Data una query utente e un documento della collezione, il modello Probabilistico tenta di stimare la probabilità che l’utente troverà questo documento interessante (cioè rilevante).

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: www.vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *