Che cos’è un file robots.txt e come ottimizzato per il posizionamento in SERP

In informatica, la creazione del file testuale robots.txt (da scrivere in minuscolo) è uno dei passaggi importanti per il posizionamento di un sito in SERP, ma bisogna prestare massima attenzione alla sua stesura perché, se mal strutturato, potrebbe essere un fattore SEO estremamente penalizzante.

Che cos'è un file robots.txt e come ottimizzato per il posizionamento in SERP

Cos’è il file robots.txt?

I motori di ricerca scansionano i contenuti presenti in Rete attraverso i propri bot. Gli spider dei motori (Googlebot per Google, Bingbot per Bing, Baiduspider per Baidu e così via per Yandex, ecc.) prima d’ogni altra cosa leggono questo file di testo per capire quali URL di un determinato sito web “devono” scansionare e quali no.
Si potrebbe allora supporre che, una volta detto ai bot di non andare in una certa pagina o directory, questi non ci vadano, ma non è sempre così perché ciò che si indica nel file robots.txt sono solo delle direttive e non degli obblighi. Per tale motivo, se si hanno cartelle o file assolutamente da non indicizzare, è meglio, a seconda dei casi, proteggerli tramite password (attraverso i file .htpasswd e .htaccess), oppure usare il file .htaccess o infine inserire noindex nell’head della pagina.

Il file robots.txt è migliore per non consentire l’accesso a tutta una sezione di un sito, mentre il meta tag è più efficiente per negare l’accesso a singoli file.
<head><meta name=”…” content=”…” /></head> indica agli spider come comportarsi rispetto ai contenuti della pagina. Gli attributi name e content non fanno distinzione tra maiuscole e minuscole.

Esempi:

Per specificare più crawler singolarmente, utilizzare più meta tag robots:
<meta name=”googlebot” content=”noindex”>
<meta name=”googlebot-news” content=”…”>

Elenco dei crawler di Google: https://support.google.com/webmasters/answer/1061943?hl=it I possibili parametri del metatag sono i seguenti:

Follow indica i link in uscita presenti nella pagina. È il default. Nofollow è l’opposto Posso usare la , per impartire più istruzioni:
<meta name=”robots” content=”noindex,nofollow” />

Archive consente di memorizzare una copia cache del documento e mostrarla nei risultati di ricerca. Noarchive è l’opposto. Noimageindex blocca l’indicizzazione delle immagini della pagina. Se le immagini sono linkate direttamente o sono raggiungibili in altro modo ( es. elenco della directory, uso in altri articoli, ecc. ) sono comunque indicizzate dal motore.

Se il file non è presente nella root directory del sito web, i crawler ritengono che in quel sito web ogni pagina va scansionata e indicizzata, e questo, per ragioni di crawl budget, non è il massimo. Infatti nei grandi portali il processo di scansione può risultare pesante e vietando l’accesso a determinate aree, lo si alleggerisce.

Inoltre se il file robots.txt contiene errori è plausibile che anche in questo caso verrà scansionato tutto il sito a meno che si commetta l’errore macroscopico di bloccare l’accesso agli stessi motori di ricerca: ciò renderà le pagine irrintracciabili in SERP.

Perché usare il file robots.txt?

Un uso comune del file è di bloccare la scansione dei motori di ricerca rispetto a determinate directory o pagine di un sito web, nel seguente esempio si nega l’accesso alla pagina privacy-policy.html. Il file robots.txt sarà qualcosa tipo:

User-agent:*
Disallow: /privacy-policy.html
Massima attenzione però: si deve bloccare il bot SOLO per le pagine NON importanti lato SEO.
Non vanno bloccati neanche file e cartelle CSS, JS o simili perché i crawler devono vedere il sito come una persona reale.

Struttura del file robots.txt

La struttura è banale e funziona con le seguenti etichette:

User-agent: indica a quale crawler vanno indirizzate le direttive, ad esempio il crawler generale di Google è Googlebot. Per riferirsi a tutti i crawler, va usato un asterisco (*).
Disallow: dice allo User-agent che NON deve scansionare una certa URL.
Allow: è il contrario di Disallow, usata per dare accesso a pagine interne alla directory messa in Disallow. Funziona solo per Google.

Esempio:

User-agent: Googlebot
Disallow: /archivio
Allow: /archivio/oggi.html
Crawl-delay: dice ai crawler di aspettare un certo numero di millisecondi prima di scansionare la prossima pagina. Non funziona per Google per il quale va modificata l’impostazione in Google Search Console.
Sitemap: specifica al motore di ricerca la Sitemap del sito.

Esempi di file robots.txt

User-agent: *
Allow: /
Sitemap: https://www.miosito.it/sitemap.xml
Dà accesso a tutto il sito web, ma per questioni di crawl budget non è la soluzione ottimale, e segnala la presenza del file sitemap.xml
User-agent: *
Allow: /nomecartella/ scansiona tutti i file della directory nomecartella
Allow: /paginaweb.html scansiona il file paginaweb.html, possono essere anche pagine con estensione diverse da .html. Allow: / scansiona tutti i file e le directory del sito

User-agent: *
Allow: /directory/paginweb.html Disallow: /directory/
scansione paginaweb.html ma nega l’accesso agli altri file presenti in directory

User-agent: *
Disallow: /
Intero sito non scansionabile

User-agent: Googlebot-Image
Disallow: /
Tutte le immagini dell’intero sito non sono scansionabili per Google Immagini

User-agent: Googlebot-Image
Disallow: /immagini/nascondi.png
Un’immagine del sito non è scansionabile per Google Immagini

User-agent: *
Disallow: /wp*/
Blocco di una serie di directory il cui nome inizia per…

User-Agent: *
Disallow: /
User-Agent: Googlebot
Disallow: /cgi-bin/
Blocco totale nei confronti di tutti gli spider, tranne Googlebot:

Disallow non rimuove i contenuti indicizzati su Google, ma non vi fa accedere i motori. Per la rimozione c’è il tool apposito: Strumento
per la rimozione degli URL.
È possibile commentare anteponendo # prima di una stringa:
# questo è un commento
oppure nel seguente modo
Disallow: /cgi-bin/ # a questa directory non è permesso l’accesso
Nella Google Search Console, il Tester dei file robots.txt (sottovoce di Scansione) controlla se il file robots.txt creato presenta degli errori.

Quanto detto finora vale anche per WordPress, il cui file è una cosa del genere:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Non è modificabile, ne va quindi creato uno che lo sostituirà.

Infine, bisogna dire dunque che creare un file robots.txt ottimizzato non è difficile, quindi non aspettare oltre e crea il tuo file robots.txt all’interno del tuo sito web per migliorare il posizionamento in SERP!