Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Le B A BA de robots.txt

3 réponses
Avatar
Denis Beauregard
Bonjour,

Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?


Denis

3 réponses

Avatar
Patrick 'Zener' Brunet
Bonjour.

"Denis Beauregard" a
écrit dans le message news:
Bonjour,

Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?




Théoriquement, * signifie "tous les robots" et non "valeur par défaut", donc
robotxyz devrait voir la section robotxyz ET la section *.

Attention, il ne devrait pas y avoir de ligne vide, plutôt des
#commentaires.

Mais de toute manière, il ne faudrait pas faire confiance à certains robots
pour respecter de telles directives. Mieux vaut verrouiller l'accès aux
répertoires interdits et faire passer les requêtes HTTP par des scripts
d'accès externes.

--
Cordialement.
--
/**************************************************
* Patrick BRUNET
* E-mail: lien sur http://zener131.free.fr/ContactMe
**************************************************/
Avatar
Pierre Goiffon
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?



Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html
Avatar
Denis Beauregard
Le Mon, 21 May 2007 10:26:53 +0200, Pierre Goiffon
écrivait dans
fr.comp.infosystemes.www.auteurs:

Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?

En d'autres mots, si j'ai:

User-agent: robotabc
Disallow: /abc/

User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?



Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html



On lit ceci :

If the value is '*', the record describes the default access policy
for any robot that has not matched any of the other records. It is not
allowed to have multiple such records in the "/robots.txt" file.

Si on a *, c'est la valeur à respecter si rien d'autre n'est trouvé.
C'est comme si on disait que l'on a soit *, soit un enregistrement
identifiable.

Mais j'ai l'impression qu'il y a une interprétation de certains
robots. Je m'aperçois que si j'ai:


User-agent: *
Disallow: /cgi-bin/

User-agent: robotxyz
Disallow: /xyz/


Le robotxyz ne lire ni /cgi-bin/ ni /xyz/.

En tous cas, j'ai refait mon robots.txt pour avoir des blocs
complets pour chaque robot et * ne bloque que ce qui est interdit
à tous.

En fait, le nombre de visites de mon site a tombé de moitié (même si
les stats disent que 10% des visiteurs arrivent par un robot, je
pense que c'est 50% en réalité, comme si un visiteur voyait 5 pages
en moyenne) et la cause était mon interprétation de robots.txt.
J'espère avoir corrigé le problème mais cela prendra au moins un
mois pour voir si mon site remonte.


Denis