DR. ANTONIUS: il motore di ricerca medico

DR. ANTONIUS: il motore di ricerca medico

DR. ANTONIUS è un motore di ricerca per il web specifico per argomenti medici. È un sistema basato su Thersaurus introdotto in Germania il 15 Settembre 2000. Alla sua base c’è, naturalmente un CRAWLER ossia un programma in grado di caricare URL, titoli di estratti, testi e link vari per una successiva elaborazione. Un crawler utilizza il protocollo HTTP che si articola in tre passi fondamentali: richiesta di un documento da parte del client; invio da parte del sever di alcune informazioni di stato racchiuse in un codice a tre cifre intere; invio da parte del server dei dati richiesti dal client. Nello sviluppo di Dr. ANTONIUS per decidere se un sito fosse di lingua tedesca si è adottata la regola pratica di non considerare tutti quei siti che contenevano un numero di “stopwords” inferiore al 2% del totale delle parole. Le stopwords sono quei termini non descrittivi come gli articoli e le preposizioni.

Il metodo utilizzato per individuare i siti di argomento medico consiste nel calcolare la frequenza di termini medici specifici nel testo individuato. A questo scopo è stata elaborata una lista che integra un Thesaurus di termini medici già esistente ed in pratica un testo è considerato di carattere medico se più del 3% delle parole che lo compongono appartengono a tale lista. Un altro problema incontrato è quello della ridondanza di alcuni siti tra i risultati della ricerca. Questo capita per diverse ragioni e per evitarlo è stato deciso di eliminare dai risultati quei testi nei quali i primi 250 caratteri coincidono con i primi 250 caratteri di un testo già trovato. Il database implementato è costituito da diverse tabelle ciascuna delle quali ha una propria organizzazione.

Ricerca degli argomenti con DR. ANTONIUS

Per la ricerca possono essere utilizzati gli operatori Booleani AND, OR e NOT oltre all’operatore di posizione NEAR (A NEAR B dà come risultato tutti i testi in cui A e B sono separate da non più di cinque parole). È possibile utilizzare delle parentesi per definire delle priorità.

La ricerca consiste di tre fasi: nella prima fase si ricavano dei risultati di ricerca per ogni parola; nella seconda fase si calcola il set finale dei risultati applicando le regole dell’algebra booleana ai set di risultati trovati al punto precedente; infine si calcola un indice per ogni documento che serve come priorità per ordinare i vari risultati. Se vi sono più di 10 risultati l’output viene impaginato. L’indice di priorità (ranking) associato a ciascun termine può essere valutato o in base alla frequenza assoluta di un termine nel testo o in base alla frequenza relativa del termine stesso. A questo scopo esistono diverse regole pratiche.

Feedback dall’esecuzione di DR. ANTONIUS

Concludento si può dire che il sistema DR. ANTONIUS ha portato i seguenti risultati:

  • Il sistema si è dimostrato molto stabile;
  • In media vengono effettuate tra le 500 e le 1000 ricerche al giorno;
  • Ogni giorno vi sono fino a 50 registrazioni di nuovi siti;
  • Il tempo di risposta varia da “non misurabile” ad alcuni secondi;
  • Gli operatori NOT e NEAR sono utilizzati molto raramente;
  • Curiosamente le parole-chiave (keyword) più ricercate sono quelle relative alle malattie più diffuse nella popolazione (come ci si aspettava che accadesse).

 

Fonte: Testo Informatica Medica – Poliba

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *