J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller ind=E9xer quelques sites web. (je
r=E9invente surement la roue, mais peu importe...)
Et j'ai donc une question concernant le fichier robots.txt a la racine
des sites web.
En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce =E0 moi de le faire dans mon script perl ? ou alors
est ce que c'est d=E9j=E0 impl=E9ment=E9 par d=E9faut dans LWP::Simple ?
En gros, est ce que je dois moi m=EAme demander =E0 mon script d'aller
v=E9rifier le http://www.domain.com/robots.txt, puis le lire, puis
v=E9rifier qu'aucune r=E8gle ne m'interdit d'aller sur une page de ce
site web, et en fonction du r=E9sultat : visiter la page, ou non ?
Merci de vos r=E9ponses, en esp=E9rant que je suis claire dans mon
explication... sinon, je reformulerai.
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Paul Gaborit
À (at) 28 Nov 2005 04:50:43 -0800, "Paul" écrivait (wrote):
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un petit script Perl qui va aller indéxer quelques sites web. (je réinvente surement la roue, mais peu importe...)
En fait, si je veut que mon script prenne en compte ces fichiers robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors est ce que c'est déjà implémenté par défaut dans LWP::Simple ?
LWP::Simple ne gère pas ce fichier. Par contre il existe un module complémentaire qui le fait LWP::RobotUA :
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
À (at) 28 Nov 2005 04:50:43 -0800,
"Paul" <ernond_paul@yahoo.fr> écrivait (wrote):
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un
petit script Perl qui va aller indéxer quelques sites web. (je
réinvente surement la roue, mais peu importe...)
En fait, si je veut que mon script prenne en compte ces fichiers
robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors
est ce que c'est déjà implémenté par défaut dans LWP::Simple ?
LWP::Simple ne gère pas ce fichier. Par contre il existe un module
complémentaire qui le fait LWP::RobotUA :
À (at) 28 Nov 2005 04:50:43 -0800, "Paul" écrivait (wrote):
J'utilise les librairies LWP::Simple et LWP::UserAgent pour faire un petit script Perl qui va aller indéxer quelques sites web. (je réinvente surement la roue, mais peu importe...)
En fait, si je veut que mon script prenne en compte ces fichiers robots.txt, est-ce à moi de le faire dans mon script perl ? ou alors est ce que c'est déjà implémenté par défaut dans LWP::Simple ?
LWP::Simple ne gère pas ce fichier. Par contre il existe un module complémentaire qui le fait LWP::RobotUA :
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
Paul
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai compter Et en plus tu réponds rapidement.
Il me reste à implémenter cela dans mon script, mais j'ai l'impression que LWP::RobotUA ne gère pas le "timeout", ni le "max_size".... enfin, je m'en passerai.
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter
Et en plus tu réponds rapidement.
Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai compter Et en plus tu réponds rapidement.
Il me reste à implémenter cela dans mon script, mais j'ai l'impression que LWP::RobotUA ne gère pas le "timeout", ni le "max_size".... enfin, je m'en passerai.
Paul Gaborit
À (at) 28 Nov 2005 05:57:44 -0800, "Paul" écrivait (wrote):
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai compter
Entre Paul(s), c'est bien normal ! ;-)
Il me reste à implémenter cela dans mon script, mais j'ai l'impression que LWP::RobotUA ne gère pas le "timeout", ni le "max_size".... enfin, je m'en passerai.
Heu... LWP::RobotUA gère tout ce que gère LWP::UserAgent (puisqu'il en hérite). Il ne devrait donc pas y avoir de problème.
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
À (at) 28 Nov 2005 05:57:44 -0800,
"Paul" <ernond_paul@yahoo.fr> écrivait (wrote):
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter
Entre Paul(s), c'est bien normal ! ;-)
Il me reste à implémenter cela dans mon script, mais j'ai
l'impression que LWP::RobotUA ne gère pas le "timeout", ni le
"max_size".... enfin, je m'en passerai.
Heu... LWP::RobotUA gère tout ce que gère LWP::UserAgent (puisqu'il en
hérite). Il ne devrait donc pas y avoir de problème.
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Perl en français - <http://perl.enstimac.fr/>
À (at) 28 Nov 2005 05:57:44 -0800, "Paul" écrivait (wrote):
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai compter
Entre Paul(s), c'est bien normal ! ;-)
Il me reste à implémenter cela dans mon script, mais j'ai l'impression que LWP::RobotUA ne gère pas le "timeout", ni le "max_size".... enfin, je m'en passerai.
Heu... LWP::RobotUA gère tout ce que gère LWP::UserAgent (puisqu'il en hérite). Il ne devrait donc pas y avoir de problème.
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/> Perl en français - <http://perl.enstimac.fr/>
paul POULAIN
Paul Gaborit wrote:
"Paul" écrivait (wrote):
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai compter
Entre Paul(s), c'est bien normal ! ;-)
heu... je peux méler à votre club ?
-- Paul ;-)
Paul Gaborit wrote:
"Paul" <ernond_paul@yahoo.fr> écrivait (wrote):
Encore une fois Merci Paul G.....
Combien de fois tu m'a aidé, conseillé, orienté... je ne saurai
compter