PageRank di Google e lo spider Googlebot

Introduzione

Google è il sito più visitato del mondo e oltre a catalogare ed indicizzare il World Wide Web (WWW) si occupa anche di foto, newsgroup, notizie, mappe, video e programmi creati appositamente dal motore stesso.

Come possiamo apprendere da molte “internet stories”, Google è nato dalle ricerche di due giovani studenti universitari di Stanford, Sergey Brin e Larry Page, che dopo aver sviluppato la teoria secondo cui un motore di ricerca basato sull’analisi matematica delle relazioni tra siti Web avrebbe prodotto risultati migliori rispetto alle tecniche empiriche usate in precedenza, fondarono la loro azienda il 27 settembre del 1998. Convinti che le pagine con un maggior numero di link fossero le più importanti e meritevoli (Teoria delle Reti), decisero di approfondire tale idea gettando le basi per il loro motore di ricerca.

Google ha debuttato online a fine settembre 1999 dopo un anno di test e in un paio di anni si è rapidamente imposto nel mondo del Web diventando il primo motore di ricerca utilizzato dagli utenti della rete.

Il termine “Google” è un gioco di parole che richiama la parola “Googol”, che fu inventata da Milton Sirotta, nipote del matematico americano Edward Kasner, per descrivere il numero 1 seguito da 100 zeri. Un Googol è quindi un numero molto grande, a tal punto che ci consente di affermare che non c è un Googol di nulla nell’universo.

L’uso che Google fa del termine riflette la missione del motore di ricerca: organizzare un immenso, praticamente infinito insieme di informazioni e documenti disponibili sul Web.

Attualmente il motore di ricerca è talmente popolare che in inglese è nato il verbo transitivo “to google”, con il significato di “fare una ricerca sul web”; mentre in tedesco è nato il verbo “googeln” ed in italiano ha preso piede il termine “googlare”.

Inoltre il vocabolo può essere associato con un doppio gioco di parole in inglese a goggle, assumendo ulteriori sfaccettature di concetto; infatti la traduzione in italiano di goggles è binocolo, ed indica la possibilità di esplorare la rete fino a guardarla da vicino; mentre la traduzione di to goggle è strabuzzare gli occhi, in senso di sorpresa per quanto si riesce a trovare.

PageRank di Google

In termini operativi Google seleziona i risultati di ricerca valutando l’importanza di ogni pagina Web con un metodo matematico, il PageRank; esso è un valore numerico (va dallo 0 al 10) che il motore attribuisce ad ogni pagina Web presente nel suo database e sta ad indicare la qualità del documento stesso e la sua popolarità. L’algoritmo completo per il calcolo del PageRank fa ricorso all’uso della teoria dei processi di Markov (processo stocastico nel quale la probabilità di transizione che determina il passaggio ad uno stato di sistema dipende unicamente dallo stato di sistema immediatamente precedente e non dal come si è giunti a tale stato).

In concreto Google considera un voto ogni collegamento attribuito ad una pagina da un’altra pagina. Oltre al numero dei voti ricevuti, però, viene valutata la rilevanza della pagina che ha creato il collegamento ed espresso il suo voto: i voti espressi dalle pagine considerate “importanti” contribuiscono a rendere “importanti” anche le pagine collegate.

Perché un sito venga incluso nella lista dei risultati visualizzati da Google è indispensabile che sia registrato negli archivi del motore di ricerca; tale immatricolazione avviene in base alla segnalazione analizzata dai software specifici (spiders).

Lo spider Googlebot

Lo spider Googlebot di Google

Lo spider di Google, il cosiddetto Googlebot, effettua due tipi di scansione del Web: la deep-crawl (mensile) e la fresh-crawl (giornaliera). La prima come sopra riportato viene effettuata una volta al mese e sviluppa un controllo del Web pagina per pagina, aggiornando indici, PageRank e cache.

Dopo una deep-crawl Google impiega circa 6/8 giorni (a volte anche meno) per aggiornare completamente i suoi indici e propagarli in tutti i data center. In questa fase si parla di “Google dance” perché i risultati che escono possono essere diversi di volta in volta. Dopo qualche giorno raggiungono la stabilità.

La seconda invece viene effettuata quasi quotidianamente ed in pratica aggiorna le pagine che già sono presenti nell’indice e aggiunge quelle eventualmente create dopo l’ultima deep-crawl. Infine l’indice viene ordinato ed i siti Web vengono riorganizzati secondo la classifica, il ranking, che stabilisce la rilevanza di una pagina secondo la parola chiave ricercata. L’attività di ranking rappresenta una delle procedure più complicate nella creazione di un motore di ricerca.

Google garantisce diversi servizi di base, prevalentemente riconducibili all’attività di ricerca, infatti per ogni risultato viene proposto un estratto del testo contenente le parole chiave inserite, il link al sito originale, il link a siti contenenti parole chiave simili, e la possibilità di consultare una copia del sito nella Webcache di Google, in modalità completa o solo testo, utile per chi è dotato di una connessione lenta.

Altri servizi di Google

Dall’11 novembre 2010 è possibile inoltre visualizzare un’anteprima dei siti con il semplice passaggio del mouse sopra il risultato riportato in elenco. Oltre a queste funzioni basilari, esistono decine di servizi gratuiti per soddisfare ogni desiderio di comunicazione: email, chat, newsgroup, shopping, mappe, sistemi di indicizzazione dei file sul proprio computer, archivi di immagini, video, libri e molto altro ancora. Tra queste opportunità il vero punto di svolta, la prima vera applicazione completamente Web 2.0, in termini sia tecnologici che di design grafico/applicativo, è Gmail, la Webmail di Google.