Le B A BA de robots.txt

Le
Denis Beauregard
Bonjour,

Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?


Denis
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Patrick 'Zener' Brunet
Le #22026731
Bonjour.

"Denis Beauregard" écrit dans le message news:
Bonjour,

Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?




Théoriquement, * signifie "tous les robots" et non "valeur par défaut", donc
robotxyz devrait voir la section robotxyz ET la section *.

Attention, il ne devrait pas y avoir de ligne vide, plutôt des
#commentaires.

Mais de toute manière, il ne faudrait pas faire confiance à certains robots
pour respecter de telles directives. Mieux vaut verrouiller l'accès aux
répertoires interdits et faire passer les requêtes HTTP par des scripts
d'accès externes.

--
Cordialement.
--
/**************************************************
* Patrick BRUNET
* E-mail: lien sur http://zener131.free.fr/ContactMe
**************************************************/
Pierre Goiffon
Le #22026671
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?



Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html
Denis Beauregard
Le #22026041
Le Mon, 21 May 2007 10:26:53 +0200, Pierre Goiffon
fr.comp.infosystemes.www.auteurs:

Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?



Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html



On lit ceci :

If the value is '*', the record describes the default access policy
for any robot that has not matched any of the other records. It is not
allowed to have multiple such records in the "/robots.txt" file.

Si on a *, c'est la valeur à respecter si rien d'autre n'est trouvé.
C'est comme si on disait que l'on a soit *, soit un enregistrement
identifiable.

Mais j'ai l'impression qu'il y a une interprétation de certains
robots. Je m'aperçois que si j'ai:


User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Le robotxyz ne lire ni /cgi-bin/ ni /xyz/.

En tous cas, j'ai refait mon robots.txt pour avoir des blocs
complets pour chaque robot et * ne bloque que ce qui est interdit
à tous.

En fait, le nombre de visites de mon site a tombé de moitié (même si
les stats disent que 10% des visiteurs arrivent par un robot, je
pense que c'est 50% en réalité, comme si un visiteur voyait 5 pages
en moyenne) et la cause était mon interprétation de robots.txt.
J'espère avoir corrigé le problème mais cela prendra au moins un
mois pour voir si mon site remonte.


Denis
Publicité
Suivre les réponses
Poster une réponse
Anonyme