Come funziona il motore di ricerca Google e il Page Rank

Come funziona il motore di ricerca Google e il Page Rank

Google è il motore di ricerca per eccellenza, ad oggi conta centinaia di milioni di gigabyte di indici dai quali estrapola i dati e ci restituisce i risultati più pertinenti alle nostre ricerche.

Ma come funziona davvero? Cosa avviene quando un utente digita qualcosa nel motore di ricerca? Quando viene eseguita una ricerca su Google, viene eseguita una ricerca sull’indice web di Google, ovviamente un indice che rappresenta tutto il web che gli strumenti di ricerca di Google no a quel momento sono riusciti ad indicizzare. Questo indice viene continuamente popolato mediante l’utilizzo di software chiamati spider, che non fanno altro che navigare i siti internet, partendo dall’homepage e da eventuali sitemap (mappe di link generate dal sito internet per renderne più facile la consultazione da parte degli spider), e da lì visitando ogni link presente nella pagina. Lo stesso procedimento viene fatto in tutte le pagine raggiunte, dunque lo spider non fa altro che analizzare i contenuti del sito, e mettere nell’indice di Google ogni pagina web presente, raggiungibile mediante link interni al sito che sta visitando.

In questo modo si crea una ragnatela di contenuti generata dallo spider, che vengono inseriti nell’indice di Google, pronti per essere ricercati. Quando un utente effettua una ricerca, Google va ad analizzare ed estrapolare dall’indice tutte le pagine indicizzate che contengono i termini di ricerca; queste solitamente sono diverse centinaia di migliaia, dunque per poter decidere quali pagine sono più attinenti rispetto alle altre, Google applica una serie di algoritmi che ne determinano l’effettivo valore di ogni singola pagina: viene analizzato il numero di parole chiave presenti nella pagina, dove queste parole compaiono, ad esempio nel titolo, nella URL o nel contenuto generico della pagina; inoltre vengono confrontati anche i sinonimi delle parole chiave ricercate, così da trovare anche pagine che trattano quella ricerca, nonostante non abbiano al loro interno la stessa parola chiave ricercata, ma che abbiano lo stesso significato. Un’altra informazione che viene confrontata è se la pagina appartiene ad un sito di qualità elevata o un sito di bassa qualità, verifica il Page Rank della pagina, e valuta anche i link che si riferiscono a quella pagina che arrivano da altri siti internet, dunque dall’esterno; esiste infatti una formula che valuta il numero di link esterni riferiti a quella pagina web, valutandone l’importanza. Una volta valutati tutti questi fattori, viene calcolato il punteggio totale di ogni pagina, e vengono restituiti i risultati in ordine di rilevanza, solitamente nell’arco di mezzo secondo. Tutto questo fa di Google un motore di ricerca molto complicato, che è continuamente in aggiornamento, alla ricerca di nuovi modi per poter affinare la qualità dei risultati di ricerca e per renderla più globale possibile.

Come funziona il motore di ricerca Google e il Page Rank

Che cos’è il Page Rank?

Il Page Rank è un algoritmo di analisi che assegna un peso numerico ad ogni elemento di un collegamento ipertestuale d’un insieme di documenti, come ad esempio il WWW, con lo scopo di quanticare la sua importanza relativa all’interno della serie. Può essere tradotto come rango di una pagina web. Il page rank è facilmente riconducibile al concetto di popolarità tipico delle relazioni sociali umane, ed indica nella maniera più vicina possibile alla realtà le pagine o i siti di maggiore rilevanza in relazione ai termini ricercati. Gli algoritmi di Google che determinano la rilevanza delle informazioni indicizzate fanno ampio uso di questo elemento, che fa parte in ogni caso di un grande e complesso
sistema di valutazione di una pagina/sito web.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: www.vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *