Cosa sono e come funzionano gli spider e i crawler in informatica

Cosa sono e come funzionano gli spider e i crawler in informatica

In informatica, il funzionamento degli spider (o anche crawler) è sicuramente una delle tematiche più complesse quando si parla di motori di ricerca. Gli algoritmi che gestiscono la loro operatività sono tenuti segreti dalle aziende proprietarie, che ne discutono durante gli incontri annuali del W3C.
Il compito degli spider del web è quello di visitare continuamente una grande quantità di siti web, analizzare il testo contenuto nelle pagine ed estrarre i termini che rappresentano al meglio i contenuti del sito. Per ogni pagina analizzata, lo spider cerca al suo interno e memorizza tutti i link verso altri siti, aggiungendoli a una lista di siti da analizzare. In questo modo, attraverso un processo a catena, lo spider è in grado di ottenere una quantità enorme di indirizzi di siti e pagine web, riuscendo ad incrementare il numero di siti conosciuti.

Di solito gli spider iniziano ad analizzare il sito partendo dalla homepage e proseguono l’analisi seguendo i link alle altre pagine. Per permettere allo spider di trovare agevolmente tutte le pagine che appartengono a un sito web, bisogna fare in modo che da qualunque pagina del sito sia possibile risalire a tutte le altre pagine. Un metodo per ottenere questo risultato consiste nell’inserire in ogni pagina del sito un link alla homepage; in questo modo, qualunque pagina rintracciata e analizzata dallo spider, consentirà allo stesso di risalire alla pagina principale e, da lì, trovare le altre seguendo tutti i link incontrati. La frequenza con cui gli spider analizzano i siti è molto variabile, ciò nonostante è importante precisare che uno spider passerà molto più spesso dove trova contenuti aggiornati frequentemente. Viceversa, le visite saranno meno frequenti per quei siti che aggiornano poco frequentemente o mai i loro contenuti. A proposito della frequenza di aggiornamento dei contenuti di un sito web, molti si chiedono se questo fattore sia così rilevante ai fini di un migliore posizionamento. Matt Cutts, ingegnere di Google, in un video pubblicato sul web ha chiarito la questione spiegando che la frequenza di aggiornamento non porta automaticamente a un buon posizionamento del sito tra i risultati di Google. Questo significherebbe favorire i blog e i siti di news rispetto ai siti aziendali che vengono aggiornati meno frequentemente. Cutts spiega che nel momento in cui un sito web dispone di contenuti “sempreverdi” che superano la prova del tempo, la frequenza di aggiornamento non incide così tanto sul posizionamento come si potrebbe pensare, poiché è solo uno dei tanti fattori di posizionamento.

Cosa sono e come funzionano gli spider e i crawler in informatica

Alcuni siti, con lo scopo di rendere più accattivante la grafica, sostituiscono i normali menù contenenti i link alle altre pagine con dei menù prodotti attraverso dei particolari linguaggi di scrittura (ad esempio Javascript). Questi menù sono sicuramente belli da vedere, però rendono il lavoro degli spider molto più complicato poiché può capitare che questi non riescano a seguire i link oppure li seguano soltanto in maniera parziale. Proprio per questo motivo, ai fini di un buon posizionamento di tutte le pagine del sito nei motori di ricerca, è preferibile utilizzare i menù classici realizzati con il linguaggio HTML.

Un altro elemento molto importante che aiuta gli spider a svolgere il proprio compito, e di conseguenza ad ottenere la corretta indicizzazione dei siti, è la mappa del sito. Si tratta di una pagina del sito linkata almeno dalla homepage (ma più pagine la linkano e meglio è) che linka a sua volta tutte le pagine del sito indicando anche un breve riassunto dell’argomento trattato.

Alcune volte può succedere che i titolari di un sito web non vogliano che una pagina del sito sia analizzata dagli spider e indicizzata nei motori di ricerca. In questo caso è possibile usare un particolare file chiamato ROBOTS.TXT, attraverso il quale è possibile indicare allo spider in che modo comportarsi quando analizza il sito web.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: www.vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *