Motori di ricerca e indicizzazione di un sito web

Motori di ricerca e indicizzazione di un sito web

Uno degli aspetti più sconvolgenti relativo all’avvento del Web è quello della velocità con cui la rete ha raggiunto le smisurate dimensioni attuali. Risulta impossibile quantificare il numero dei siti internet e la quantità dei contenuti presenti visto il vertiginoso aumento continuo che si verifica in ogni instante della nostra vita. E’ evidente però il problema che deriva da questo scenario: come è possibile garantire la rintracciabilità dei contenuti all’interno di una biblioteca cosi vasta? A questa esigenza hanno risposto le varie forme di indicizzazione e di catalogazione presenti sul Web: Motori di Ricerca, Portali web, Directory web e Marketplace (web marketing).

In particolare i motori di ricerca sono sistemi per il reperimento pressoché istantaneo di informazioni contenute nel World Wide Web. La ricerca avviene per “parole chiave”, o keyword, vale a dire specificando dei termini che definiscono l’argomento di interesse, ed il motore di conseguenza restituisce un elenco di indirizzi di pagine Web che accolgono le keyword indicate. Esso, dunque, include un programma in grado di analizzare le pagine Web, in modo da stabilire se le parole chiave sono presenti all’interno delle medesime.

Benché tale lettura avvenga in un tempo estremamente ridotto, dato il numero smisurato di pagine presenti in rete (decine di miliardi), sarebbe impensabile eseguire una ricerca in tempo reale. Pertanto, il motore di ricerca esegue periodicamente una scansione del Web, memorizzandone parte dei contenuti in un archivio elettronico, detto indice (index). Viste le dimensioni immense del WWW, oltre a problemi di tempo vi sono ovviamente problemi di spazio; per questo il motore di ricerca non registrerà nell’indice tutta la pagina, bensì solo un “riassunto”, comprendente parte del testo e di altre porzioni di codice ritenute significative. Oltre alla sintesi di una pagina, viene protocollato il suo indirizzo (URL).

In questo modo, quando si esegue una ricerca, il motore interroga il database ed in tempi molto ristretti fornisce una lista di indirizzi di pagine che contengono le parole chiave specificate.

Attraverso questa procedura si riduce notevolmente la spaventosa quantità di informazioni presenti in rete; di conseguenza, risulta semplice la similitudine con l’indice di un libro, cioè un sommario del contenuto con i numeri delle pagine in cui tali informazioni sono reperibili. Nell’elenco del motore di ricerca si trovano gli indirizzi in cui è possibile reperire i dati dislocati nella rete. Ecco perché tale processo viene definito indicizzazione.

Motori di ricerca e indicizzazione di un sito web

Indicizzazione di un sito web

Se l’indice è la componente statica del motore di ricerca, al centro dell’attività di indicizzazione si colloca lo “spider“. Il nome deriva dal termine inglese spider web, ragnatela (sinonimi: crawler, bot, robot, agent, scooter). Lo spider è il programma che percorre il Web, legge automaticamente le pagine seguendo i link ipertestuali e ne memorizza nell’indice le informazioni salienti. Ogni motore annovera diversi spider, che giorno dopo giorno si spostano nel Web in lungo e in largo catalogando il numero più alto possibile di pagine Internet.

Esistono grandi limiti però alla capacità degli spider di leggere effettivamente tutta la rete. Un grosso problema è rappresentato dalle dimensioni; si stima che le pagine nel Web siano varie decine di miliardi, un numero talmente alto da rendere difficile una catalogazione completa.

Non è solo la dimensione del Web a rendere incompleti gli elenchi, vi sono anche delle limitazioni tecnologiche intrinseche che rendono molte pagine, è talvolta interi siti, inaccessibili ai motori di ricerca.

Tra i principali punti di criticità riscontrati nella procedura di indicizzazione troviamo:

  • Irraggiungibilità: in rete lo spider visita un sito solamente se trova almeno un link che conduce ad esso. Molti siti non sono linkati e di conseguenza risultano inaccessibili; maggiore è il numero di link che puntano ad un sito, maggiori sono le vie di accesso degli spider e naturalmente sarà più alta la probabilità di ricevere una loro
  • Illeggibilità: i motori di ricerca prediligono siti statici con pagine scritte in html standard. Gli spider infatti trovano difficoltà ad entrare nei siti che usano tecnologie sofisticate, e/o grandi database. Inoltre il numero elevato di pagine di un sito, e le dimensioni eccessive rappresentano ulteriori ostacoli.
  • Aggiornamento: le nuove pagine messe on-line non entrano subito nell’indice; gli spider passano ad intervalli molto lunghi e l’aggiornamento del database avviene quando un ciclo è completato. Questo può richiedere anche diversi mesi (a meno che non si opti per il pay per inclusion, pratica che però non è consentita da google).

Esiste un metodo che alcuni motori di ricerca utilizzano per sopperire in gran parte ai limiti degli spider e per far sì che un sito escluso dall’indice venga effettivamente inserito. Si tratta  del “submit”, vale a dire la segnalazione manuale del sito al motore di ricerca. Il webmaster, in questo caso, può trovare in un apposita pagina del sito del motore di ricerca, una “form” in cui indicare l’URL del sito che si desidera indicizzare. La pagina di segnalazione del principale motore di ricerca, Google, è la seguente: http://www.google.com/addurl.html

In conclusione il motore di ricerca, quindi, identifica i contenuti presenti nelle pagine e stabilisce la rilevanza di quest’ultima rispetto a ciascun contenuto ivi trattato, compilando cosi un “ranking“. Da qui nascono le varie strategie di posizionamento per scalare posizioni nella classifica di ogni motore e guadagnare una maggiore visibilità del proprio Web Site.

Precedente Cos'è un Internet Service Provider (ISP)? Successivo PageRank di Google e lo spider Googlebot

Lascia un commento

*