Quali sono i limiti dei motori di ricerca?

Quali sono i limiti dei motori di ricerca?

Che cos’è un motore di ricerca?

Nell’ambito del World Wide Web (WWW), un motore di ricerca è definito come un sistema automatico di information retrieval il cui scopo è quello di aiutare un utente a reperire le informazioni che desidera all’interno di un sistema informatico. Una ricerca è effettuata dall’utente attraverso un’apposita interfaccia, e i risultati sono solitamente restituiti nella forma di lista contenente collegamenti ipertestuali a documenti indicizzati all’interno del database del sistema.

I motori di ricerca rappresentano al momento l’unico strumento attraverso il quale un utente può cercare e reperire informazioni all’interno di più siti web.

Quali sono i limiti dei motori di ricerca?

Information retrieval

In generale, lo scopo dell’information retrieval è soddisfare il cosiddetto bisogno informativo di un utente, ovvero garantire che i risultati restituiti da una ricerca siano rilevanti per la richiesta effettuata dall’utente. Una richiesta è tradotta nella digitazione all’interno di un campo di input di un’espressione contenente una o più parole chiave, detta query.
L’aumento della quantità di informazioni presenti sul Web è un problema che ha condizionato fortemente i motori di ricerca. Gli algoritmi di information retrieval implementati dai principali servizi di ricerca sono stati potenziati e adeguati nel tempo per continuare a garantire una certa efficacia delle ricerche effettuate (in termini di soddisfacimento del bisogno informativo di un utente). Nonostante ciò, proprio perché il numero di documenti in cui cercare le informazioni è diventato sempre più grande, e i contenuti presenti sono contestualmente eterogenei fra loro, non sempre i risultati ottenuti sono pertinenti alle richieste dell’utente.

In generale, per quantificare la bontà di una ricerca, in termini di rilevanza dei risultati restituiti rispetto al bisogno informativo reale di un utente, si utilizzano due misure:

  1. precision (precisione), che indica la proporzione di documenti rilevanti fra tutti quelli recuperati da una ricerca;
  2. recall (recupero o richiamo), che indica la proporzione fra il numero di documenti rilevanti recuperati da una ricerca e il numero di tutti i documenti classificati come tali nel database del motore.

Precision e recall sono grandezze inversamente proporzionali fra loro: maggiore è la precision di una ricerca, minore sarà la recall, e viceversa. Ne consegue che realizzare motori di ricerca “perfetti” in grado di garantire precision e recall massimi è praticamente impossibile.

Limiti dei motori di ricerca

In generale, quindi, i problemi presenti intrinsecamente nei motori di ricerca impediscono spesso all’utente di ottenere le informazioni che desidera. Di seguito vengono brevemente discussi i principali limiti.

  1. Bontà di una ricerca. Come si accennava poco sopra, realizzare motori di ricerca “perfetti” utilizzando le tecnologie attualmente esistenti è molto complesso. In relazione alla valutazione della bontà di una ricerca, possono capitare le seguenti situazioni “estreme”:
    • recall elevata e precision bassa, ovvero la ricerca estrae un gran numero di documenti, classificati rilevanti o non rilevanti nel database del sistema, ma solo una minima parte di questi risulta pertinente alla richiesta dell’utente;
    • recall bassa o nulla, ovvero una ricerca restituisce un numero molto ridotto di risultati o nessun risultato.
  2. Processo di ricerca. I risultati restituiti dai motori di ricerca sono talvolta elenchi di migliaia di collegamenti a singoli documenti contenenti l’informazione cercata. L’utente non solo dovrà districarsi all’interno di questa lista per trovare i documenti più attinenti al suo bisogno informativo, ma dovrà anche ricercare “manualmente” l’informazione all’interno di ciascun documento selezionato. Da questo punto di vista, un processo di ricerca che coinvolge più richieste correlate fra loro può diventare molto lungo e complesso.
  3. Linguaggio e termini nella query di ricerca. Un problema molto sentito nell’utilizzo dei motori di ricerca è dato dal linguaggio delle parole chiave contenute all’interno di una query. Se utilizziamo un’espressione con termini in lingua italiana per la nostra ricerca, il motore ci restituirà un insieme di risultati collegati a documenti contenenti quei termini. Eventuali documenti che riportano termini scritti in altre lingue riferiti allo stesso concetto non saranno estratti, in quanto un algoritmo di information retrieval non ha le capacità di associare tra loro termini semanticamente correlati. Per lo stesso motivo, documenti contenenti termini sinonimi od omonimi delle parole chiave contenute nella query non saranno estratti.
  4. Accesso alle informazioni. Un motore di ricerca reperisce informazioni dai documenti in base ai contenuti dei siti indicizzati all’interno del proprio database. Per motivi di proprietà e di privacy, questi sistemi non hanno alcuna possibilità di accedere direttamente alle sorgenti dati da cui i server estraggono le informazioni generate dinamicamente nei documenti trasmessi all’utente. Analogamente, i risultati restituiti da una ricerca non sono facilmente accessibili da applicazioni esterne. Da questo punto di vista, quindi, i motori di ricerca possono essere considerati dei veri e propri sistemi isolati.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *