Il y =E0 une chose que j'ai du mal =E0 comprendre dans la doc sur
WWW::RobotRules.
En fait, selon cette doc
http://search.cpan.org/~gaas/libwww-perl-5.808/lib/WWW/RobotRules.pm
il faut initialiser l'objet avec :
my $rules =3D WWW::RobotRules->new('MOMspider/1.0');
Seulement, je ne comprends pas comment cette librairie g=E8re la version
du "robot" ?
En fait, il suffit que je change de version de mon "robot" pour que
RobotRules ne puisse plus matcher avec le robots.txt du serveur ?
ou alors il y =E0 une normalisation du nomage des robots et de leurs
versioning ? =3D> dans ce dernier cas, pouvez-vous me guider pour trouver
cette normalisation ?
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Paul Gaborit
À (at) Wed, 03 Oct 2007 22:56:39 +0200, Newsgroups écrivait (wrote):
Il y à une chose que j'ai du mal à comprendre dans la doc sur WWW::RobotRules.
En fait, selon cette doc http://search.cpan.org/~gaas/libwww-perl-5.808/lib/WWW/RobotRules.pm
il faut initialiser l'objet avec : my $rules = WWW::RobotRules->new('MOMspider/1.0');
Ce n'est qu'un exemple. Vous pourriez très bien utiliser :
my $rules = WWW::RobotRules->new('GoogleBot/23.45');
ou :
my $rules = WWW::RobotRules->new('MonRobotAMoi-;-)');
Seulement, je ne comprends pas comment cette librairie gère la version du "robot" ?
Comme indiqué dans la doc, elle gère les règles d'exclusion selon le standard décrit sur <http://www.robotstxt.org/wc/norobots.html>.
En fait, il suffit que je change de version de mon "robot" pour que RobotRules ne puisse plus matcher avec le robots.txt du serveur ?
Si il y a un règle qui commence par :
UserAgent: * ...
Cette règle sera respectée par RobotRules quel que soit le nom que vous aurez donné à votre robot. Pour les autres règles, ça dépend du nom.
ou alors il y à une normalisation du nomage des robots et de leurs versioning ? => dans ce dernier cas, pouvez-vous me guider pour trouver cette normalisation ?
Chacun fait comme il veut. Il faut bien voir que le respect de règles du fichir /robots.txt se fait au choix du robot. Ce n'est qu'une convention...
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
À (at) Wed, 03 Oct 2007 22:56:39 +0200,
Newsgroups <newsgroups@free.fr.invalid> écrivait (wrote):
Il y à une chose que j'ai du mal à comprendre dans la doc sur
WWW::RobotRules.
En fait, selon cette doc
http://search.cpan.org/~gaas/libwww-perl-5.808/lib/WWW/RobotRules.pm
il faut initialiser l'objet avec :
my $rules = WWW::RobotRules->new('MOMspider/1.0');
Ce n'est qu'un exemple. Vous pourriez très bien utiliser :
my $rules = WWW::RobotRules->new('GoogleBot/23.45');
ou :
my $rules = WWW::RobotRules->new('MonRobotAMoi-;-)');
Seulement, je ne comprends pas comment cette librairie gère la version
du "robot" ?
Comme indiqué dans la doc, elle gère les règles d'exclusion selon le
standard décrit sur <http://www.robotstxt.org/wc/norobots.html>.
En fait, il suffit que je change de version de mon "robot" pour que
RobotRules ne puisse plus matcher avec le robots.txt du serveur ?
Si il y a un règle qui commence par :
UserAgent: *
...
Cette règle sera respectée par RobotRules quel que soit le nom que
vous aurez donné à votre robot. Pour les autres règles, ça dépend du
nom.
ou alors il y à une normalisation du nomage des robots et de leurs
versioning ? => dans ce dernier cas, pouvez-vous me guider pour trouver
cette normalisation ?
Chacun fait comme il veut. Il faut bien voir que le respect de règles
du fichir /robots.txt se fait au choix du robot. Ce n'est qu'une
convention...
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>
À (at) Wed, 03 Oct 2007 22:56:39 +0200, Newsgroups écrivait (wrote):
Il y à une chose que j'ai du mal à comprendre dans la doc sur WWW::RobotRules.
En fait, selon cette doc http://search.cpan.org/~gaas/libwww-perl-5.808/lib/WWW/RobotRules.pm
il faut initialiser l'objet avec : my $rules = WWW::RobotRules->new('MOMspider/1.0');
Ce n'est qu'un exemple. Vous pourriez très bien utiliser :
my $rules = WWW::RobotRules->new('GoogleBot/23.45');
ou :
my $rules = WWW::RobotRules->new('MonRobotAMoi-;-)');
Seulement, je ne comprends pas comment cette librairie gère la version du "robot" ?
Comme indiqué dans la doc, elle gère les règles d'exclusion selon le standard décrit sur <http://www.robotstxt.org/wc/norobots.html>.
En fait, il suffit que je change de version de mon "robot" pour que RobotRules ne puisse plus matcher avec le robots.txt du serveur ?
Si il y a un règle qui commence par :
UserAgent: * ...
Cette règle sera respectée par RobotRules quel que soit le nom que vous aurez donné à votre robot. Pour les autres règles, ça dépend du nom.
ou alors il y à une normalisation du nomage des robots et de leurs versioning ? => dans ce dernier cas, pouvez-vous me guider pour trouver cette normalisation ?
Chacun fait comme il veut. Il faut bien voir que le respect de règles du fichir /robots.txt se fait au choix du robot. Ce n'est qu'une convention...
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>