Glossario dell'informatica, termine - robot exclusion standard

robot exclusion standard

standard per l'esclusione di alcune aree del sito dall'attività di un robot

Un documento stilato nella sua forma finale il 30 giugno 1994 a cui aderisce la maggior parte degli autori di robot. Ha lo scopo di definire un meccanismo che consenta ai gestori dei server Web di limitare l'invadenza dei robot, indicando in modo esplico le aree non accessibili all'interno del sito. L'iniziativa ha preso lo spunto dal verificarsi, nel 1993 e nel 1994, di vari casi d'invadenza nociva. Un esempio e quello si server che sono stati messi in ginocchio dai robot che richiedevano documenti a raffica (rapid-fire), oppure che continuavano a recuperare sempre il medesimo documento (per un proprio difetto di progettazione). Un altro caso è quello in cui il robot recuperava documentazione temporanea o duplicata.Il metodo d'interdizione consiste nel far generare all'amministratore del server un file che specifichi le regole di accesso per i robot entranti. Il file si chiama robots.txt e deve essere accessibile mediante protocollo HTTP (HyperText Transfer Protocol) sul locale URL (Uniform Resource Locator) subito sotto la radice, ad esempio www.miol.it/robots.txt. Al robot basta recuperare questo singolo testo per sapere come regolarsi all'interno del sito. Il file contiene uno o più record, ciascuno separato da un ritorno a capo e da almeno una riga vuota. Il record contiene a sua volta diversi campi che indicano il nome del robot a cui le righe che seguono si riferiscono e le porzioni di sito che il robot deve evitare. La sintassi è campo:valore con un eventuale spazio dopo i due punti. Nel digitare il nome del campo bisogna rispettare maiuscole e minuscole.Gli eventuali commenti vengono preceduti dal simbolo di cancelletto # mentre l'asterisco * costituisce il classico carattere jolly onnicomprensivo.Il record inizia con una o più righe corrispondenti ad altrettanti campi di tipo User-agent in cui si indica il particolare robot a cui le istruzioni che seguono sono riferite (il carattere * estende l'efficacia a tutti i robot che rispettano questa convenzione). Seguono una o più righe corrispondenti al campo Disallow in cui si specificano le aree vietate del sito.Esempio di file robots.txt per il sito www.miol.it

User-agent: *
Disallow: /help # file di aiuto
Disallow: /tmp/ # aree temporanee

In questo caso tutti i robot devono seguire le indicazioni specificate
dalle due righe precedute da Disallow. Nella prima riga vengono esclusi
tutti i file contenuti nella directory /help e tutte le relative
sottodirectory oltre che i file di queste ultime (tutti gli URL che
corrispondono a queste indicazioni di percorso). Nella seconda riga
vengono esclusi tutti i file contenuti nelle sottodirectory che dipendono
da /tmp, ma non i file che si trovano nella directory /tmp.
Dovete sempre indicare almeno un valore per User-agent e almeno un valore
per Disallow, altrimenti il file robots.txt è inutile.

Altro esempio:

User-agent: Lycos
Disallow:

User-agent: MOMspider
Disallow: /tmp
Disallow: /help

User-agent: *
Disallow: /

Secondo le definizioni di questo secondo esempio di file robots.txt lo
spider Lycos ha libero accesso a tutte le risorse del sito, lo spider MOM
è tagliato completamente fuori, visto che non può accedere a nessun
documento che sia al di sotto della radice del sito, tutti gli altri robot
sono diffidati dal curiosare nelle directory /tmp e /help.