Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc
Disallow: /abc/
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Patrick 'Zener' Brunet
Bonjour.
"Denis Beauregard" a écrit dans le message news:
Bonjour,
Est-ce que je me trompe ou bien la structure du fichier robots.txt est telle qu'un robot arrête à la 1re série qui le concerne et ne voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc Disallow: /abc/
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc visitera /cgi-bin/ ? C'est cela ?
Théoriquement, * signifie "tous les robots" et non "valeur par défaut", donc robotxyz devrait voir la section robotxyz ET la section *.
Attention, il ne devrait pas y avoir de ligne vide, plutôt des #commentaires.
Mais de toute manière, il ne faudrait pas faire confiance à certains robots pour respecter de telles directives. Mieux vaut verrouiller l'accès aux répertoires interdits et faire passer les requêtes HTTP par des scripts d'accès externes.
-- Cordialement. -- /************************************************** * Patrick BRUNET * E-mail: lien sur http://zener131.free.fr/ContactMe **************************************************/
Bonjour.
"Denis Beauregard" <denis.b-at-francogene.com.invalid@nospam.com.invalid> a
écrit dans le message news: ufdv439peuht5ulnb041rekt68penm9a9g@4ax.com...
Bonjour,
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc
Disallow: /abc/
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?
Théoriquement, * signifie "tous les robots" et non "valeur par défaut", donc
robotxyz devrait voir la section robotxyz ET la section *.
Attention, il ne devrait pas y avoir de ligne vide, plutôt des
#commentaires.
Mais de toute manière, il ne faudrait pas faire confiance à certains robots
pour respecter de telles directives. Mieux vaut verrouiller l'accès aux
répertoires interdits et faire passer les requêtes HTTP par des scripts
d'accès externes.
--
Cordialement.
--
/**************************************************
* Patrick BRUNET
* E-mail: lien sur http://zener131.free.fr/ContactMe
**************************************************/
Est-ce que je me trompe ou bien la structure du fichier robots.txt est telle qu'un robot arrête à la 1re série qui le concerne et ne voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc Disallow: /abc/
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc visitera /cgi-bin/ ? C'est cela ?
Théoriquement, * signifie "tous les robots" et non "valeur par défaut", donc robotxyz devrait voir la section robotxyz ET la section *.
Attention, il ne devrait pas y avoir de ligne vide, plutôt des #commentaires.
Mais de toute manière, il ne faudrait pas faire confiance à certains robots pour respecter de telles directives. Mieux vaut verrouiller l'accès aux répertoires interdits et faire passer les requêtes HTTP par des scripts d'accès externes.
-- Cordialement. -- /************************************************** * Patrick BRUNET * E-mail: lien sur http://zener131.free.fr/ContactMe **************************************************/
Pierre Goiffon
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt est telle qu'un robot arrête à la 1re série qui le concerne et ne voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc Disallow: /abc/
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc visitera /cgi-bin/ ? C'est cela ?
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu qui ressemble à un ordre à respecter, cependant les exemples placent bien * en tête : http://www.robotstxt.org/wc/norobots.html
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc
Disallow: /abc/
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html
Est-ce que je me trompe ou bien la structure du fichier robots.txt est telle qu'un robot arrête à la 1re série qui le concerne et ne voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc Disallow: /abc/
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc visitera /cgi-bin/ ? C'est cela ?
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu qui ressemble à un ordre à respecter, cependant les exemples placent bien * en tête : http://www.robotstxt.org/wc/norobots.html
Denis Beauregard
Le Mon, 21 May 2007 10:26:53 +0200, Pierre Goiffon écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt est telle qu'un robot arrête à la 1re série qui le concerne et ne voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc Disallow: /abc/
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc visitera /cgi-bin/ ? C'est cela ?
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu qui ressemble à un ordre à respecter, cependant les exemples placent bien * en tête : http://www.robotstxt.org/wc/norobots.html
On lit ceci :
If the value is '*', the record describes the default access policy for any robot that has not matched any of the other records. It is not allowed to have multiple such records in the "/robots.txt" file.
Si on a *, c'est la valeur à respecter si rien d'autre n'est trouvé. C'est comme si on disait que l'on a soit *, soit un enregistrement identifiable.
Mais j'ai l'impression qu'il y a une interprétation de certains robots. Je m'aperçois que si j'ai:
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Le robotxyz ne lire ni /cgi-bin/ ni /xyz/.
En tous cas, j'ai refait mon robots.txt pour avoir des blocs complets pour chaque robot et * ne bloque que ce qui est interdit à tous.
En fait, le nombre de visites de mon site a tombé de moitié (même si les stats disent que 10% des visiteurs arrivent par un robot, je pense que c'est 50% en réalité, comme si un visiteur voyait 5 pages en moyenne) et la cause était mon interprétation de robots.txt. J'espère avoir corrigé le problème mais cela prendra au moins un mois pour voir si mon site remonte.
Denis
Le Mon, 21 May 2007 10:26:53 +0200, Pierre Goiffon
<pgoiffon@free.fr.invalid> écrivait dans
fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt
est telle qu'un robot arrête à la 1re série qui le concerne et ne
voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc
Disallow: /abc/
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc
visitera /cgi-bin/ ? C'est cela ?
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu
qui ressemble à un ordre à respecter, cependant les exemples placent
bien * en tête :
http://www.robotstxt.org/wc/norobots.html
On lit ceci :
If the value is '*', the record describes the default access policy
for any robot that has not matched any of the other records. It is not
allowed to have multiple such records in the "/robots.txt" file.
Si on a *, c'est la valeur à respecter si rien d'autre n'est trouvé.
C'est comme si on disait que l'on a soit *, soit un enregistrement
identifiable.
Mais j'ai l'impression qu'il y a une interprétation de certains
robots. Je m'aperçois que si j'ai:
User-agent: *
Disallow: /cgi-bin/
User-agent: robotxyz
Disallow: /xyz/
Le robotxyz ne lire ni /cgi-bin/ ni /xyz/.
En tous cas, j'ai refait mon robots.txt pour avoir des blocs
complets pour chaque robot et * ne bloque que ce qui est interdit
à tous.
En fait, le nombre de visites de mon site a tombé de moitié (même si
les stats disent que 10% des visiteurs arrivent par un robot, je
pense que c'est 50% en réalité, comme si un visiteur voyait 5 pages
en moyenne) et la cause était mon interprétation de robots.txt.
J'espère avoir corrigé le problème mais cela prendra au moins un
mois pour voir si mon site remonte.
Le Mon, 21 May 2007 10:26:53 +0200, Pierre Goiffon écrivait dans fr.comp.infosystemes.www.auteurs:
Denis Beauregard wrote:
Est-ce que je me trompe ou bien la structure du fichier robots.txt est telle qu'un robot arrête à la 1re série qui le concerne et ne voit rien d'aurtes ?
En d'autres mots, si j'ai:
User-agent: robotabc Disallow: /abc/
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Alors, robotxyz ne verra jamais la ligne interdisant /xyz/ et robotabc visitera /cgi-bin/ ? C'est cela ?
Je viens de reparcourir très vite la spec sur robotstxt.org et rien vu qui ressemble à un ordre à respecter, cependant les exemples placent bien * en tête : http://www.robotstxt.org/wc/norobots.html
On lit ceci :
If the value is '*', the record describes the default access policy for any robot that has not matched any of the other records. It is not allowed to have multiple such records in the "/robots.txt" file.
Si on a *, c'est la valeur à respecter si rien d'autre n'est trouvé. C'est comme si on disait que l'on a soit *, soit un enregistrement identifiable.
Mais j'ai l'impression qu'il y a une interprétation de certains robots. Je m'aperçois que si j'ai:
User-agent: * Disallow: /cgi-bin/
User-agent: robotxyz Disallow: /xyz/
Le robotxyz ne lire ni /cgi-bin/ ni /xyz/.
En tous cas, j'ai refait mon robots.txt pour avoir des blocs complets pour chaque robot et * ne bloque que ce qui est interdit à tous.
En fait, le nombre de visites de mon site a tombé de moitié (même si les stats disent que 10% des visiteurs arrivent par un robot, je pense que c'est 50% en réalité, comme si un visiteur voyait 5 pages en moyenne) et la cause était mon interprétation de robots.txt. J'espère avoir corrigé le problème mais cela prendra au moins un mois pour voir si mon site remonte.