Motori di ricerca e spider: Google e Googlebot

Motori di ricerca e spider: Google e Googlebot

Il numero di utenti che cerca informazioni sulla rete Internet è in continua crescita e i motori di ricerca rappresentano lo strumento principale che Internet mette a disposizione per facilitare la ricerca di informazioni da parte degli utenti.

Effettivamente il motore di ricerca può essere paragonato ad una grande biblioteca che analizza i contenuti presenti nella rete e cataloga tutte le informazioni mediante l’uso di determinati criteri. All’interno della biblioteca virtuale agiscono senza sosta gli “spider“, cioè delle applicazioni software che sono al servizio dei motori di ricerca. Questi spider hanno la caratteristica di navigare in Internet e ricercare le nuove informazioni o quelle aggiornate. In pratica mediante i link lo spider si indirizza verso altri siti e continua la sua esplorazione nella rete, indicizzando i contenuti di Internet e generando una gerarchia in cui risultano premiati i siti più popolari.

Sulla base di una ricerca condotta dalle aziende SEMS/OTO Research, basandosi su un campione di 30.000 utenti rappresentativi dell’utenza Internet italiana, è emerso che Google è il motore di ricerca leader in Italia.

A tale proposito è particolarmente importante capire il funzionamento dello spider di Google che prende il nome di Googlebot. Perciò nel seguito analizzeremo i tre processi chiave che esegue il robot di Google al fine di visualizzare i risultati di ricerca. Essi sono: la scansione, l’indicizzazione e la restituzione dei risultati.

Motori di ricerca e spider - Google e Googlebot

La scansione

Nella fase di scansione lo spider individua le pagine nuove o aggiornate che sono presenti nella rete per aggiungerle all’indice di Google. Questo processo viene effettuato da Googlebot, il quale utilizza un algoritmo che gli permette di stabilire quali siti scansionare, con quale frequenza e quante pagine acquisire da ogni sito. In pratica Googlebot inizia la scansione partendo dall’insieme di URL che sono stati generati nei processi di scansione precedenti e dalle nuove Sitemap inviate dai webmaster. Ogni volta che lo spider trova nella scansione delle pagine dei nuovi link, esso li aggiunge all’elenco delle pagine da sottoporre a scansione.

L’indicizzazione

Nella fase di indicizzazione Googlebot effettua un’analisi approfondita di tutte le pagine che sono state scansionate e compila un indice delle parole presenti al loro interno. Per ogni parola viene indicato l’elenco delle pagine che contiene il termine e la posizione che il termine stesso occupa all’interno del documento. Con questa struttura diventa semplice e veloce accedere al documento che contiene le parole richiesta dall’utente. Nella fase di indicizzazione vengono ignorati alcuni termini di uso comune (ad esempio: come, perché, e, o…) oltre che i segni di punteggiatura. Infine le lettere maiuscole vengono convertite in minuscolo per migliorare le prestazioni di Google.

Ricordiamo che per redigere questo indice vengono sfruttate tutte le informazioni inserite nei tag title, nei tag dei contenuti chiave e negli attributi alt. Google riesce ad elaborate molti tipi di contenuti, ma non è ancora in grado di operare con pagine dinamiche o file multimediali complessi.

La visualizzazione dei risultati

L’ultima fase per rendere possibile la visualizzazione dei risultati consiste nella ricerca vera e propria delle informazioni desiderate mediante l’inserimento di una query. I risultati vengono estrapolati dai database di Google tenendo in considerazione oltre 200 fattori. Google naturalmente dà priorità alle pagine che contengono i termini nello stesso ordine in cui sono ricercate all’interno della query.

Generalmente, come si vede dall’illustrazione sotto riportata, si ha che la richiesta dell’utente giunge, attraverso la formulazione della query, al Web Server di Google, il quale avvia la ricerca all’interno  dell’indice.  Individuate le parole  è possibile trovare immediatamente le  pagine che contengono i termini, oltre che la posizione che occupano al loro interno (proprio per come viene strutturato l’indice). Dopo l’individuazione della pagina, basta fare riferimento ai server che contengono i documenti, in modo da elaborare lo snippet da inserire nel risultato di ricerca. Il processo termina con la visualizzazione del titolo, della descrizione e dell’URL delle pagine che soddisfano i criteri imposti con la query.

Schema del processo di restituzione dei risultati di Google
Schema del processo di restituzione dei risultati di Google

 

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *