Caratteristiche e modelli dell’Information Retrieval in informatica

L’Information Retrieval (IR), che significa letteralmente “reperimento delle informazioni”, è l’insieme delle tecniche utilizzate per gestire la rappresentazione, la memorizzazione, l’organizzazione delle informazioni e l’accesso ad oggetti contenenti informazioni quali documenti, pagine web, cataloghi online e oggetti multimediali, al fine di rendere agevole all’utente il soddisfacimento dei propri bisogni informativi.

I problemi centrali dell’Information Retrieval sono:

capire quali documenti sono impotanti e quali non lo sono per l’utente; non è semplice caratterizzare esattamente i bisogni informativi dell’utente.
le decisioni di solito dipendono da un algoritmo di ranking basato sul concetto di rilevanza del documento; questo concetto è determinato dal modello di Information Retrieval adottato.

Caratteristiche e modelli dell'Information Retrieval in informatica

Modelli di Information Retrieval

I modelli classici di Information Retrieval sono tre: il modello Booleano, il modello Vettoriale e il modello Probabilistico.

Modello Booleano

Il modello Booleano è un semplice modello di recupero basato sulla teoria degli insiemi e dell’algebra di Boole; in questo modello, i termini indice sono presenti oppure assenti in un documento. Come risultato, i pesi dei termini indice vengono considerati in modo binario, cioè possono assumere solamente i valori 0 o 1. La query q è composta da termini indice collegati da operatori booleani come “and”, “or”, “not”. I principali vantaggi del modello Booleano sono la semplicità e il formalismo pulito che sta dietro a questo modello; mentre i principali svantaggi sono che la corrispondenza esatta (cioè un documento pùo essere pertinente oppure non pertinente, senza corrispondenze parziali) pùo portare al recupero di troppi o troppo pochi documenti e che i documenti recuperati non siano classificati in base alla rilevanza della query.

Modello Vettoriale

Il modello Vettoriale riconosce che l’uso di pesi binari è troppo limitante e propone un quadro in cui la corrispondenza parziale è possibile e auspicabile. Ci`o si ottiene assegnando pesi non binari ai termini indice nelle query e nei documenti. Questi pesi sono infine utilizzati per calcolare il grado di somiglianza tra ogni documento memorizzato nel sistema e la query dell’utente. Il modello Vettoriale ordina i documenti recuperati in ordine di similarità decrescente.

Modello Probabilistico

L’idea fondamentale su cui si basa il modello probabilistico è che, data una query utente, vi è un insieme di documenti che contiene esattamente i documenti rilevanti e nient’altro. Data la descrizione di questo insieme ideale, non avremmo problemi a recuperare i suoi documenti, quindi possiamo pensare al processo di interrogazione come ad un processo che specifichi le proprietà di questo insieme ideale. Data una query utente e un documento della collezione, il modello Probabilistico tenta di stimare la probabilità che l’utente troverà questo documento interessante (cioè rilevante).