File Robots.txt cosa sono? A Cosa servono?
Può capitare che alcune pagine del tuo sito contengano informazioni riservate o che si trovino ancora in costruzione o in fase di test.
Il file robots.txt è un semplicissimo file di testo che, nella sua forma ideale, bisognerebbe caricare all’interno della document root del sito, ovvero la directory in cui corrispondono i file del nostro sito e che fornisce indicazioni agli spider sui contenuti da scansionare, al fine di indicizzarli all’interno dei propri indici.
Il campo user-agent serve a definire quale robot dovrà essere escluso, il campo disallow invece definisce da quale zona del sito escluderlo. Tipicamente i due campi sono composti in questo modo e separati da un invio:
User-Agent: Googlebot-Image Disallow: /
In questo esempio il file robots.txt escluderà dalla visita dell’intero sito, il “/” identifica la radice del sito e dunque la sua interezza, lo user-agent Googlebot-Image, quindi lo spider di Google che indicizza le immagini.
Il file robots.txt accetta anche il parametro di commento identificato dal simbolo #, tutto ciò che seguirà il cancelletto sarà interpretato dallo user-agent come un commento e dunque ignorato.
# Escludo dall'intero sito advautomobili, aggiunto il 25/12/2011 User-agent: googlebot Disallow: /automobili.html Disallow: /berlina/
Questo record dice a googlebot, il nome dello spider di Google, che non gli è permesso prelevare il file automobilili.html ne accedere alla directory berlina e ai suoi contenuti sottodirectory comprese. Notate come il nome del file è preceduto da un carattere / che indica la directory principale del sito e come il nome della directory fa uso di un carattere / anche in coda.
I due campi sono preceduti da un commento in cui potete inserire, ad esempio, la data di scrittura dell’esclusione per utilizzarla a fini statistici.
Il file robots.txt andrà poi inserito nella radice del sito, nella stessa posizione in cui compare la index dell’homepage, e dovrà dunque essere visibile digitando http://www.nomesito.it/robots.txt.
Tutti gli spider di quei motori di ricerca che hanno deciso di aderire a questo standard e di seguire le indicazioni del file robots.txt, la maggior parte dei motori di ricerca sebbene non tutti, ogni volta che accederanno al sito web, per prima cosa andranno a cercare nella directory principale il suddetto file e, se lo troveranno, seguiranno le direttive contenute al suo interno.
Il campo User-agent può contenere un asterisco “*”, sinonimo di qualunque spider, per cui l’esempio seguente dice a tutti gli spider di non prelevare il file automobili.html:
User-agent: * Disallow: /automobili.html
Quest’altro esempio invece dice che non ci sono file di cui si vuole impedire il prelievo e che quindi sono tutti accessibili:
User-agent: * Disallow: