Come funziona il Posizionamento e l’indicizzazione sui Motori di Ricerca

La cosiddetta “guerra” ai primi posti dei motori di ricerca è un tema molto discusso: raggiungere la vetta negli elenchi legati a parole chiave vale centinaia di click di utenti che in quel momento si trasformano in potenziali clienti. E soprattutto in contesti come quello del mercato turistico on-line, in virtù della mole di offerta presente in rete (Internet), diventa fondamentale essere visibili sul web e ritrovarsi nelle prime pagine dei motori di ricerca.

Prima di parlare delle tecniche e delle strategie per riuscire posizionarsi nei primi posti degli elenchi dei motori di ricerca, è utile conoscere la struttura logica e il funzionamento di un qualsiasi motore di ricerca in modo più dettagliato.

Posizionamento e indicizzazione sui Motori di Ricerca

I motori di ricerca sono sistemi per il reperimento pressoché istantaneo di informazioni contenute nel world wide web. La ricerca avviene per “parole chiave”, o keyword (letteralmente “parola chiave”), vale a dire specificando dei termini che definiscono l’argomento cercato, il motore restituisce un elenco di indirizzi di pagine web che contengono le keyword specificate. Esso, dunque, contiene un programma in grado di analizzare le pagine web, in modo da stabilire se le parole chiave sono contenute in essa.

Benché tale lettura avvenga in un tempo estremamente ridotto, dato il numero smisurato di pagine web presenti in rete (decine di miliardi), sarebbe impensabile eseguire una ricerca in tempo reale. Pertanto, il motore di ricerca esegue periodicamente una lettura del web, memorizzandone parte dei contenuti in un archivio elettronico, detto indice (index).

Viste le dimensioni illimitate del web, oltre a problemi di tempo vi sono ovviamente problemi di spazio. Per questo, il motore di ricerca non memorizzerà nell’indice tutta la pagina web, bensì solo un “riassunto”, contenente parte del testo e di altre parti di codice ritenute significative oltre naturalmente il suo indirizzo. In tal modo, quando si esegue una ricerca, il motore interroga il database e quasi istantaneamente fornisce una lista di indirizzi di pagine che contengono le parole chiave specificate.

In tal modo si riduce la spaventosa quantità di informazioni presenti in rete, dislocate in una miriade di siti che si trovano su innumerevoli server, creando un indice delle pagine memorizzate.

E’ semplice la similitudine con l’indice di un libro, un sommario del contenuto con i numeri delle pagine in cui tali informazioni sono reperibili. Nell’indice del motore di ricerca si trovano appunto gli indirizzi in cui è possibile trovare le informazioni dislocate in rete. Ecco perché il processo è definito indicizzazione.

Se l’indice è la componente statica del motore di ricerca, al centro del processo dell’indicizzazione c’ è lo “spider“. Il nome (spider = ragno) deriva dalla parola inglese spider web, ragnatela (sinonimi sono crawler, bot, robot, agent, scooter).

Lo spider è il programma che percorre il web, legge automaticamente le pagine seguendo i link ipertestuali e ne memorizza nell’indice le informazioni salienti. Ogni motore di ricerca ha un suo spider, questi giorno dopo giorno percorrono il web in lungo e in largo indicizzando il numero più alto possibile di pagine web.

Durante le scansioni lo spider salva in una sua memoria la lista di nuovi URL identificati durante il salvataggio delle pagine. Su questo grande taccuino lo spider annota sapientemente tutti i link che in futuro potrebbe dover seguire. Saranno poi i progettisti ad indicare allo spider quali link seguire ed in quali modalità.

Il processo di raccolta dei link, estremamente banalizzato in precedenza, è in realtà decisamente complesso. È necessario progettare con maestria lo spider per evitare che lo stesso cada in processi di link che incastrerebbero il crawler in un ciclo infinito.

Allo stesso tempo è fondamentale che lo spider raccolga questi link poiché garantisce al motore di ricerca di autoalimentare sé stesso senza apparente bisogno di fornire manualmente nuove risorse. È infatti ipotizzabile che passando da un sito all’altro sia possibile scandagliare almeno il 95% dell’intero world wide web. Uno dei più famosi spider è appunto quello di Google il cosiddetto Googlebot.

Esso effettua due tipi di scansione del web: la deep-crawl (fatta una volta al mese circa) e la fresh-crawl (quasi tutti i giorni). La prima come detto viene fatta una volta al mese e viene scansionato tutto il web pagina per pagina, aggiornando indici, pagerank e cache.

Dopo una deep-crawl Google impiega circa 6-8 giorni per aggiornare completamente i suoi indici e propagarli in tutti i datacenter. In questa fase si parla della cosiddetta “Google dance” perché i risultati che escono possono essere diversi di volta in volta. Dopo qualche giorno invece si stabilizzano.

La seconda invece viene fatta quasi tutti i giorni e in pratica aggiorna le pagine che già sono presenti nell’indice e aggiunge quelle eventualmente create dopo l’ultima deep-crawl.

Infine l’indice viene ordinato e i siti web vengono messi in ordine secondo una classifica, un ranking che stabilisce la rilevanza di una pagina web secondo la parola chiave ricercata. L’attività di ranking è uno tra i processi più complicati nella creazione di un motore di ricerca.

A questo punto si ha a disposizione un indice con una miriade di dati ed è necessario rivalutare quell’indice per assegnare a ciascun elemento che lo compone un valore di qualità. Alcuni motori basano parte del calcolo affidandosi ai link in ingresso, altri alla collocazione della keyword nel testo, altri ancora alla sua frequenza all’interno del documento.

Ogni motore di ricerca ha un proprio algoritmo per la definizione del ranking il più famoso è ovviamente il sistema di Google chiamato pagerank, esso è un valore numerico (che va dallo 0 al 10) che Google attribuisce ad ogni pagina web presente nel suo database e sta ad indicare la qualità del documento stesso e la sua popolarità.

Il Motore di ricerca, dunque, identifica i contenuti presenti nelle pagine e stabilisce la rilevanza di quella pagina rispetto a ciascun contenuto ivi trattato, compilando così il ranking.

L’obbiettivo di un azienda che vuole proporre i suoi prodotti servizi sul web è quello appunto di risultare nelle prime pagine proposte dal motore di ricerca.

Per fare ciò esistono diverse tecniche classificabili in due filoni:

Tecniche a pagamento, per cui l’azienda paga il motore di ricerca per apparire in spazi sponsorizzati. Quello che si acquista è la “keyword“, la parola chiave appunto; quando l’utente digiterà quella parola nell’apposito spazio di ricerca, il collegamento con il sito di chi ha comprato la keyword sarà presente nella pagina dei risultati della ricerca (il cosiddetto pay per click che sarà ampiamente esaminato in seguito).
Il SEO o SEM tecniche e strategie che permettono di costruire pagine web più facilmente leggibili e riconoscibili dai motori di ricerca.

Prendendo in considerazione le risorse del turismo (alberghi, destinazioni, vettori aerei, ecc) anche queste concorrono come tutti in questa sorta di “gara del ranking”, cercando di farsi segnalare nelle prime pagine dei risultati della ricerca.

E’ evidente insomma che la maggior parte degli utenti si fermano alle prime evidenze, se vengono restituiti 10.000 risultati rilevanti divisi in centinaia di pagine, molti visitatori cliccheranno solo sui link presenti nelle prime pagine, solo pochi curiosi che hanno molto tempo a disposizione faranno un esame più approfondito arrivando fino alla ventesima pagina.

Per ottenere un buon posizionamento acquisiscono un ruolo centrale i contenuti. Il successo di un sito web è strettamente legato alla qualità e alla quantità dei suoi contenuti, che anche se rappresentano un ottimo strumento per generare traffico devono essere anche strutturati e funzionali rispetto agli interessi dell’utente.

Possiamo affermare che i contenuti sono diventati i veri padroni della rete, più un sito web sarà ricco di contenuti, più questi saranno autorevoli e più il sito sarà premiato nei motori di ricerca. Inoltre come abbiamo visto un ruolo importante lo giocano il numero di link e la reputazione di essi che puntato verso il proprio web site (link popularity). Se ad una festa siamo presentati da un amico ben introdotto faremo tante nuove amicizie interessanti, questo contesto è replicabile sul web. In particolare i Mdr premiano i siti che ricevono link da altri ritenuti interessanti in base ad una serie di variabili interpretate dagli algoritmi di ricerca (vedi pagerank).

Tutto questo ha fatto così aumentare in modo esponenziale il cosiddetto “scambio link” anche tra siti non omogenei tra loro, di conseguenza i Mdr hanno adottato un filtro che non solo riduce l’importanza del link reciproco rispetto ad un link univoco ma arriva anche ad operare penalizzazioni al sito ed in questo modo coloro che ricevono troppi link in qualche modo anche senza senso vengono considerati degli spammer e vengono “bannati” (eliminati) dagli indici.