Che cos’è, a cosa serve e come funziona il file Robots.txt di un sito web

Che cos’è, a cosa serve e come funziona il file Robots.txt di un sito web

In internet, il compito degli spider è quello di visitare continuamente una grande quantità di siti web, analizzare il testo contenuto nelle pagine ed estrarre i termini che rappresentano al meglio i contenuti del sito. Per ogni pagina analizzata, lo spider cerca al suo interno e memorizza tutti i link verso altri siti, aggiungendoli a una lista di siti da analizzare. In questo modo, attraverso un processo a catena, lo spider è in grado di ottenere una quantità enorme di indirizzi di siti e pagine web, riuscendo ad incrementare il numero di siti conosciuti

Di solito gli spider del web iniziano ad analizzare il sito partendo dalla homepage e proseguono l’analisi seguendo i link alle altre pagine. Per permettere allo spider di trovare agevolmente tutte le pagine che appartengono a un sito web, bisogna fare in modo che da qualunque pagina del sito sia possibile risalire a tutte le altre pagine. Un metodo per ottenere questo risultato consiste nell’inserire in ogni pagina del sito un link alla homepage; in questo modo, qualunque pagina rintracciata e analizzata dallo spider, consentirà allo stesso di risalire alla pagina principale e, da lì, trovare le altre seguendo tutti i link incontrati.

Alcune volte può succedere che i titolari di un sito web non vogliano che una pagina del sito sia analizzata dagli spider e indicizzata nei motori di ricerca. In questo caso è possibile usare un particolare file chiamato ROBOTS.TXT, attraverso il quale è possibile indicare allo spider in che modo comportarsi quando analizza il sito web.

Il file robots.txt è usato per indicare agli spider dei motori di ricerca in che modo comportarsi, ovvero se analizzare o saltare un determinato file o un’intera pagina web. Tuttavia, bisogna considerare che questa è una richiesta e non è detto che lo spider la prenda in considerazione.

Che cos'è, a cosa serve e come funziona il file Robots.txt di un sito web

Le direttive che possono essere impartite agli spider attraverso il file robots.txt sono due e hanno i seguenti scopi:

  • richiesta di includere o non includere i contenuti della pagina nell’archivio dei motori di ricerca;
  • richiesta di seguire o non seguire tutti i link presenti nella pagina, con lo scopo di individuare le altre pagine del sito.

Per creare il file robots.txt basta usare un qualsiasi editor di testo e creare un file chiamato “robots.txt”. Il file è composto dall’istruzione “User-agent:”, che indica il nome dello spider, seguita dall’istruzione “Disallow:”, che indica allo spider cosa non deve analizzare. Ad esempio, se vogliamo che una pagina web non sia analizzata esclusivamente dallo spider di Google, scriveremo “User-agent: googleboot”; così facendo si può evitare il passaggio esclusivamente allo spider di Google per le pagine e i contenuti indicati. Viceversa, se si vuole evitare il passaggio a tutti gli spider di qualsiasi motore di ricerca, è sufficiente scrivere “User-agent:*”.

Vediamo alcuni esempi:

  1. User-agent: Googleboot Disallow: /images/
    In questo caso viene indicato esclusivamente allo spider di Google di saltare la cartella delle immagini.
  2. User-agent: * Disallow: /images/
    In questo caso viene indicato a tutti gli spider di saltare la cartella delle immagini
  3. User-agent: * Disallow: /
    Quest’ultimo esempio indica che nessun motore di ricerca deve visitare il sito.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *