Le B A BA de robots.txt
Le
Denis Beauregard
Bonjour,
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc
Disallow: /abc/
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?
Denis
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc
Disallow: /abc/
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?
Denis

Poser une question


"Denis Beauregard" écrit dans le message news:
Théoriquement, * signifie "tous les robots" et non "valeur par défaut", donc
robotxyz devrait voir la section robotxyz ET la section *.
Attention, il ne devrait pas y avoir de ligne vide, plutôt des
#commentaires.
Mais de toute manière, il ne faudrait pas faire confiance à certains robots
pour respecter de telles directives. Mieux vaut verrouiller l'accès aux
répertoires interdits et faire passer les requêtes HTTP par des scripts
d'accès externes.
--
Cordialement.
--
/**************************************************
* Patrick BRUNET
* E-mail: lien sur http://zener131.free.fr/ContactMe
**************************************************/
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html
fr.comp.infosystemes.www.auteurs:
On lit ceci :
If the value is '*', the record describes the default access policy
for any robot that has not matched any of the other records. It is not
allowed to have multiple such records in the "/robots.txt" file.
Si on a *, c'est la valeur à respecter si rien d'autre n'est trouvé.
C'est comme si on disait que l'on a soit *, soit un enregistrement
identifiable.
Mais j'ai l'impression qu'il y a une interprétation de certains
robots. Je m'aperçois que si j'ai:
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Le robotxyz ne lire ni /cgi-bin/ ni /xyz/.
En tous cas, j'ai refait mon robots.txt pour avoir des blocs
complets pour chaque robot et * ne bloque que ce qui est interdit
à tous.
En fait, le nombre de visites de mon site a tombé de moitié (même si
les stats disent que 10% des visiteurs arrivent par un robot, je
pense que c'est 50% en réalité, comme si un visiteur voyait 5 pages
en moyenne) et la cause était mon interprétation de robots.txt.
J'espère avoir corrigé le problème mais cela prendra au moins un
mois pour voir si mon site remonte.
Denis