Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

robots.txt et librairie LWP

4 réponses
Avatar
Paul
Bonjour,

J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller ind=E9xer quelques sites web. (je
r=E9invente surement la roue, mais peu importe...)

Et j'ai donc une question concernant le fichier robots.txt a la racine
des sites web.
En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce =E0 moi de le faire dans mon script perl ? ou alors
est ce que c'est d=E9j=E0 impl=E9ment=E9 par d=E9faut dans LWP::Simple ?

En gros, est ce que je dois moi m=EAme demander =E0 mon script d'aller
v=E9rifier le http://www.domain.com/robots.txt, puis le lire, puis
v=E9rifier qu'aucune r=E8gle ne m'interdit d'aller sur une page de ce
site web, et en fonction du r=E9sultat : visiter la page, ou non ?

Merci de vos r=E9ponses, en esp=E9rant que je suis claire dans mon
explication... sinon, je reformulerai.

4 réponses

Avatar
Paul Gaborit
À (at) 28 Nov 2005 04:50:43 -0800,
"Paul" écrivait (wrote):
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller indéxer quelques sites web. (je
réinvente surement la roue, mais peu importe...)

En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors
est ce que c'est déjà implémenté par défaut dans LWP::Simple ?


LWP::Simple ne gère pas ce fichier. Par contre il existe un module
complémentaire qui le fait LWP::RobotUA :

<http://search.cpan.org/dist/libwww-perl/lib/LWP/RobotUA.pm>

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>

Avatar
Paul
Encore une fois Merci Paul G.....

Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter
Et en plus tu réponds rapidement.

Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.
Avatar
Paul Gaborit
À (at) 28 Nov 2005 05:57:44 -0800,
"Paul" écrivait (wrote):
Encore une fois Merci Paul G.....

Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter


Entre Paul(s), c'est bien normal ! ;-)

Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.


Heu... LWP::RobotUA gère tout ce que gère LWP::UserAgent (puisqu'il en
hérite). Il ne devrait donc pas y avoir de problème.

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>

Avatar
paul POULAIN
Paul Gaborit wrote:

"Paul" écrivait (wrote):
Encore une fois Merci Paul G.....

Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter


Entre Paul(s), c'est bien normal ! ;-)


heu... je peux méler à votre club ?

--
Paul ;-)