WWW::RobotRules et nom de robot

Le
Newsgroups
Bonjour (re) :-),

Il y à une chose que j'ai du mal à comprendre dans la doc sur
WWW::RobotRules.

En fait, selon cette doc
http://search.cpan.org/~gaas/libwww-perl-5.808/lib/WWW/RobotRules.pm

il faut initialiser l'objet avec :
my $rules = WWW::RobotRules->new('MOMspider/1.0');

Seulement, je ne comprends pas comment cette librairie gère la version
du "robot" ?

En fait, il suffit que je change de version de mon "robot" pour que
RobotRules ne puisse plus matcher avec le robots.txt du serveur ?
ou alors il y à une normalisation du nomage des robots et de leurs
versioning ? => dans ce dernier cas, pouvez-vous me guider pour trouver
cette normalisation ?

Merci. :-)
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Paul Gaborit
Le #152118
À (at) Wed, 03 Oct 2007 22:56:39 +0200,
Newsgroups
Il y à une chose que j'ai du mal à comprendre dans la doc sur
WWW::RobotRules.

En fait, selon cette doc
http://search.cpan.org/~gaas/libwww-perl-5.808/lib/WWW/RobotRules.pm

il faut initialiser l'objet avec :
my $rules = WWW::RobotRules->new('MOMspider/1.0');


Ce n'est qu'un exemple. Vous pourriez très bien utiliser :

my $rules = WWW::RobotRules->new('GoogleBot/23.45');

ou :

my $rules = WWW::RobotRules->new('MonRobotAMoi-;-)');

Seulement, je ne comprends pas comment cette librairie gère la version
du "robot" ?


Comme indiqué dans la doc, elle gère les règles d'exclusion selon le
standard décrit sur
En fait, il suffit que je change de version de mon "robot" pour que
RobotRules ne puisse plus matcher avec le robots.txt du serveur ?


Si il y a un règle qui commence par :

UserAgent: *
...

Cette règle sera respectée par RobotRules quel que soit le nom que
vous aurez donné à votre robot. Pour les autres règles, ça dépend du
nom.

ou alors il y à une normalisation du nomage des robots et de leurs
versioning ? => dans ce dernier cas, pouvez-vous me guider pour trouver
cette normalisation ?


Chacun fait comme il veut. Il faut bien voir que le respect de règles
du fichir /robots.txt se fait au choix du robot. Ce n'est qu'une
convention...

--
Paul Gaborit - Perl en français -
Publicité
Poster une réponse
Anonyme