robots.txt et librairie LWP

Le
Paul
Bonjour,

J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller indxer quelques sites web. (je
rinvente surement la roue, mais peu importe)

Et j'ai donc une question concernant le fichier robots.txt a la racine
des sites web.
En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce moi de le faire dans mon script perl ? ou alors
est ce que c'est dj implment par dfaut dans LWP::Simple ?

En gros, est ce que je dois moi mme demander mon script d'aller
vrifier le http://www.domain.com/robots.txt, puis le lire, puis
vrifier qu'aucune rgle ne m'interdit d'aller sur une page de ce
site web, et en fonction du rsultat : visiter la page, ou non ?

Merci de vos rponses, en esprant que je suis claire dans mon
explication sinon, je reformulerai.
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Paul Gaborit
Le #32246
À (at) 28 Nov 2005 04:50:43 -0800,
"Paul"
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller indéxer quelques sites web. (je
réinvente surement la roue, mais peu importe...)

En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors
est ce que c'est déjà implémenté par défaut dans LWP::Simple ?


LWP::Simple ne gère pas ce fichier. Par contre il existe un module
complémentaire qui le fait LWP::RobotUA :


--
Paul Gaborit - Perl en français -
Paul
Le #32245
Encore une fois Merci Paul G.....

Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter
Et en plus tu réponds rapidement.

Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.
Paul Gaborit
Le #32244
À (at) 28 Nov 2005 05:57:44 -0800,
"Paul"
Encore une fois Merci Paul G.....

Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter


Entre Paul(s), c'est bien normal ! ;-)

Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.


Heu... LWP::RobotUA gère tout ce que gère LWP::UserAgent (puisqu'il en
hérite). Il ne devrait donc pas y avoir de problème.

--
Paul Gaborit - Perl en français -
paul POULAIN
Le #42540
Paul Gaborit wrote:

"Paul"
Encore une fois Merci Paul G.....

Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter


Entre Paul(s), c'est bien normal ! ;-)


heu... je peux méler à votre club ?

--
Paul ;-)


Publicité
Poster une réponse
Anonyme