DR. ANTONIUS: il motore di ricerca medico

DR. ANTONIUS: il motore di ricerca medico

DR. ANTONIUS è un motore di ricerca per il web specifico per argomenti medici. È un sistema basato su Thersaurus introdotto in Germania il 15 Settembre 2000. Alla sua base c’è, naturalmente un CRAWLER ossia un programma in grado di caricare URL, titoli di estratti, testi e link vari per una successiva elaborazione. Un crawler utilizza il protocollo HTTP che si articola in tre passi fondamentali: richiesta di un documento da parte del client; invio da parte del sever di alcune informazioni di stato racchiuse in un codice a tre cifre intere; invio da parte del server dei dati richiesti dal client. Nello sviluppo di Dr. ANTONIUS per decidere se un sito fosse di lingua tedesca si è adottata la regola pratica di non considerare tutti quei siti che contenevano un numero di “stopwords” inferiore al 2% del totale delle parole. Le stopwords sono quei termini non descrittivi come gli articoli e le preposizioni.

Il metodo utilizzato per individuare i siti di argomento medico consiste nel calcolare la frequenza di termini medici specifici nel testo individuato. A questo scopo è stata elaborata una lista che integra un Thesaurus di termini medici già esistente ed in pratica un testo è considerato di carattere medico se più del 3% delle parole che lo compongono appartengono a tale lista. Un altro problema incontrato è quello della ridondanza di alcuni siti tra i risultati della ricerca. Questo capita per diverse ragioni e per evitarlo è stato deciso di eliminare dai risultati quei testi nei quali i primi 250 caratteri coincidono con i primi 250 caratteri di un testo già trovato. Il database implementato è costituito da diverse tabelle ciascuna delle quali ha una propria organizzazione.

Ricerca degli argomenti con DR. ANTONIUS

Per la ricerca possono essere utilizzati gli operatori Booleani AND, OR e NOT oltre all’operatore di posizione NEAR (A NEAR B dà come risultato tutti i testi in cui A e B sono separate da non più di cinque parole). È possibile utilizzare delle parentesi per definire delle priorità.

La ricerca consiste di tre fasi: nella prima fase si ricavano dei risultati di ricerca per ogni parola; nella seconda fase si calcola il set finale dei risultati applicando le regole dell’algebra booleana ai set di risultati trovati al punto precedente; infine si calcola un indice per ogni documento che serve come priorità per ordinare i vari risultati. Se vi sono più di 10 risultati l’output viene impaginato. L’indice di priorità (ranking) associato a ciascun termine può essere valutato o in base alla frequenza assoluta di un termine nel testo o in base alla frequenza relativa del termine stesso. A questo scopo esistono diverse regole pratiche.

Feedback dall’esecuzione di DR. ANTONIUS

Concludento si può dire che il sistema DR. ANTONIUS ha portato i seguenti risultati:

  • Il sistema si è dimostrato molto stabile;
  • In media vengono effettuate tra le 500 e le 1000 ricerche al giorno;
  • Ogni giorno vi sono fino a 50 registrazioni di nuovi siti;
  • Il tempo di risposta varia da “non misurabile” ad alcuni secondi;
  • Gli operatori NOT e NEAR sono utilizzati molto raramente;
  • Curiosamente le parole-chiave (keyword) più ricercate sono quelle relative alle malattie più diffuse nella popolazione (come ci si aspettava che accadesse).

 

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *