robots.txt et librairie LWP
Le
Paul

Bonjour,
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller indéxer quelques sites web. (je
réinvente surement la roue, mais peu importe)
Et j'ai donc une question concernant le fichier robots.txt a la racine
des sites web.
En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors
est ce que c'est déjà implémenté par défaut dans LWP::Simple ?
En gros, est ce que je dois moi même demander à mon script d'aller
vérifier le http://www.domain.com/robots.txt, puis le lire, puis
vérifier qu'aucune règle ne m'interdit d'aller sur une page de ce
site web, et en fonction du résultat : visiter la page, ou non ?
Merci de vos réponses, en espérant que je suis claire dans mon
explication sinon, je reformulerai.
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller indéxer quelques sites web. (je
réinvente surement la roue, mais peu importe)
Et j'ai donc une question concernant le fichier robots.txt a la racine
des sites web.
En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors
est ce que c'est déjà implémenté par défaut dans LWP::Simple ?
En gros, est ce que je dois moi même demander à mon script d'aller
vérifier le http://www.domain.com/robots.txt, puis le lire, puis
vérifier qu'aucune règle ne m'interdit d'aller sur une page de ce
site web, et en fonction du résultat : visiter la page, ou non ?
Merci de vos réponses, en espérant que je suis claire dans mon
explication sinon, je reformulerai.
"Paul"
LWP::Simple ne gère pas ce fichier. Par contre il existe un module
complémentaire qui le fait LWP::RobotUA :
--
Paul Gaborit - Perl en français -
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter
Et en plus tu réponds rapidement.
Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.
"Paul"
Entre Paul(s), c'est bien normal ! ;-)
Heu... LWP::RobotUA gère tout ce que gère LWP::UserAgent (puisqu'il en
hérite). Il ne devrait donc pas y avoir de problème.
--
Paul Gaborit - Perl en français -
heu... je peux méler à votre club ?
--
Paul ;-)