Motori di ricerca e file robots.txt per il controllo degli spider

Motori di ricerca e file robots.txt per il controllo degli spider

Motori di ricerca e file robots.txt per il controllo degli spider

Il file robots.txt è usato per indicare agli spider dei motori di ricerca in che modo comportarsi, ovvero se analizzare o saltare un determinato file o un’intera pagina web. Tuttavia, bisogna considerare che questa è una richiesta e non è detto che lo spider la prenda in considerazione.

Le direttive che possono essere impartite agli spider attraverso il file robots.txt sono due e hanno i seguenti scopi:

  • richiesta di includere o non includere i contenuti della pagina nell’archivio dei motori di ricerca;
  • richiesta di seguire o non seguire tutti i link presenti nella pagina, con lo scopo di individuare le altre pagine del sito.

Per creare il file robots.txt basta usare un qualsiasi editor di testo e creare un file chiamato “robots.txt”. Il file è composto dall’istruzione “User-agent:”, che indica il nome dello spider, seguita dall’istruzione “Disallow:”, che indica allo spider cosa non deve analizzare. Ad esempio, se vogliamo che una pagina web non sia analizzata esclusivamente dallo spider di Google, scriveremo “User-agent: googleboot”; così facendo si può evitare il passaggio esclusivamente allo spider di Google per le pagine e i contenuti indicati. Viceversa, se si vuole evitare il passaggio a tutti gli spider di qualsiasi motore di ricerca, è sufficiente scrivere “User-agent:*”.

Vediamo alcuni esempi:

  1. In questo caso viene indicato esclusivamente allo spider di Google di saltare la cartella delle immagini.
    User-agent: Googleboot
    Disallow: /images/
  2. In questo caso viene indicato a tutti gli spider di saltare la cartella delle immagini.
    User-agent: *
    Disallow: /images/
  3. Quest’ultimo esempio indica che nessun motore di ricerca deve visitare il sito.
    User-agent: *
    Disallow: /

 

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: [email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *