Cos’è e come funziona uno spider web dei motori di ricerca

Cos’è e come funziona uno spider web dei motori di ricerca

Cos'è e come funziona uno spider web dei motori di ricerca

Il funzionamento degli spider è sicuramente una delle tematiche più complesse quando si parla di motori di ricerca. Gli algoritmi che gestiscono la loro operatività sono tenuti segreti dalle aziende proprietarie, che ne discutono durante gli incontri annuali del W3C (World Wide Web Consortium – si occupa dello sviluppo di tecnologie adatte a garantire l’interoperabilità attraverso specifiche, guidelines, software e applicazioni per portare il World Wide Web al massimo del suo potenziale).

Il compito degli spider è quello di visitare continuamente una grande quantità di siti web, analizzare il testo contenuto nelle pagine ed estrarre i termini che rappresentano al meglio i contenuti del sito. Per ogni pagina analizzata, lo spider cerca al suo interno e memorizza tutti i link verso altri siti, aggiungendoli a una lista di siti da analizzare. In questo modo, attraverso un processo a catena, lo spider è in grado di ottenere una quantità enorme di indirizzi di siti e pagine web, riuscendo ad incrementare il numero di siti conosciuti siti che aggiornano poco frequentemente o mai i loro contenuti. A proposito della frequenza di aggiornamento dei contenuti di un sito web, molti si chiedono se questo fattore sia così rilevante ai fini di un migliore posizionamento. Matt Cutts, ingegnere di Google, in un video pubblicato sul web ha chiarito la questione spiegando che la frequenza di aggiornamento non porta automaticamente a un  buon posizionamento del sito tra i risultati di Google. Questo significherebbe favorire i blog e i siti di news rispetto ai siti aziendali che vengono aggiornati  meno frequentemente. Cutts spiega che nel momento in cui un sito web dispone di contenuti “sempreverdi” che superano la prova del tempo, la frequenza di aggiornamento non incide così tanto sul posizionamento come si potrebbe pensare, poiché è solo uno dei tanti fattori di posizionamento. Nell’intervista Cutts commenta: “Google è abbastanza bravo a capire quando è più utile mostrare un contenuto fresco e quando invece le pagine che erano buone per ieri, sono buone anche per oggi“.

Alcuni siti, con lo scopo di rendere più accattivante la grafica, sostituiscono i normali menù contenenti i link alle altre pagine con dei menù prodotti attraverso dei particolari linguaggi di scrittura (come ad esempio il linguaggio Javascript). Questi menù sono sicuramente belli da vedere, però rendono il lavoro degli spider molto più complicato poiché può capitare che questi non riescano a seguire i link oppure li seguano soltanto in maniera parziale. Proprio per questo motivo, ai fini di un buon posizionamento di tutte le pagine del sito nei motori di ricerca, è preferibile utilizzare i menù classici realizzati con il linguaggio HTML.

Un altro elemento molto importante che aiuta gli spider a svolgere il proprio compito, e di conseguenza ad ottenere la corretta indicizzazione dei siti, è la mappa del sito. Si tratta di una pagina del sito linkata almeno dalla homepage (ma più pagine la linkano e meglio è) che linka a sua volta tutte le pagine del sito indicando anche un breve riassunto dell’argomento trattato. Alcune volte può succedere però che i titolari di un sito web non vogliano che una pagina del sito sia analizzata dagli spider e indicizzata nei motori di ricerca. In questo  caso  è  possibile usare un particolare file chiamato ROBOTS.TXT, attraverso il quale è possibile indicare allo spider in che modo comportarsi quando analizza il sito web.

 

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *