L'ennui, c'est que, de cookies, point. Le fichier "cookie.txt" est bien
créé, mais il contient désespérément toujours les 90 mêmes octets :
# HTTP cookie file.
# Generated by Wget on 2009-07-30 12:33:09.
# Edit at your own risk.
J'ai demandé à un collègue qui m'a dit avoir eu le même comportement.
J'ai essayé d'utiliser curl qui sauvegarde très bien les cookies, mais
qui n'est pas récursif (j'ai besoin de cette fonctionnalité).
Bref : comment faire pour récupérer les cookies de toute une
arborescence web ?
Bref : comment faire pour récupérer les cookies de toute une arborescence web ?
Je pencherais pour le site qui se comporte différemment selon les User-agent. Fournir un User-agent plus populaire et voir si ça change quelquechose.
bersyl91
Fabien LE LEZ a écrit :
En effet, avec tf1.fr ça foire. Ça a probablement un rapport avec le fait que la page http://tf1.fr ne renvoie pas de cookie.
Oups !
En revanche, avec google.com ça marche bien.
Effectivement. Mais par exemple, orange.fr renvoie des cookies à curl mais pas à wget. J'ai essayé en changeant la user_agent string, même résultat. Une idée ?
Fabien LE LEZ a écrit :
En effet, avec tf1.fr ça foire. Ça a probablement un rapport avec le
fait que la page http://tf1.fr ne renvoie pas de cookie.
Oups !
En revanche, avec google.com ça marche bien.
Effectivement. Mais par exemple, orange.fr renvoie des cookies à curl
mais pas à wget. J'ai essayé en changeant la user_agent string, même
résultat. Une idée ?
En effet, avec tf1.fr ça foire. Ça a probablement un rapport avec le fait que la page http://tf1.fr ne renvoie pas de cookie.
Oups !
En revanche, avec google.com ça marche bien.
Effectivement. Mais par exemple, orange.fr renvoie des cookies à curl mais pas à wget. J'ai essayé en changeant la user_agent string, même résultat. Une idée ?
Fabien LE LEZ
On Fri, 31 Jul 2009 17:49:40 +0200, bersyl91 :
Effectivement. Mais par exemple, orange.fr renvoie des cookies à curl mais pas à wget.
Une requête "GET /" sur l'hôte "orange.fr" ne renvoie pas de header "Set-cookie". En revanche, le code HTML renvoyé contient du code Javascript, qui lui-même ajoute des cookies. Curl a peut-être un interpréteur Javascript ?
Note : pour tes tests, je te conseille fortement d'utiliser l'option --save-headers de wget, qui permet de vérifier si le serveur renvoie effectivement des cookies.
On Fri, 31 Jul 2009 17:49:40 +0200, bersyl91 <choppy@free.fr>:
Effectivement. Mais par exemple, orange.fr renvoie des cookies à curl
mais pas à wget.
Une requête "GET /" sur l'hôte "orange.fr" ne renvoie pas de header
"Set-cookie".
En revanche, le code HTML renvoyé contient du code Javascript, qui
lui-même ajoute des cookies.
Curl a peut-être un interpréteur Javascript ?
Note : pour tes tests, je te conseille fortement d'utiliser l'option
--save-headers de wget, qui permet de vérifier si le serveur renvoie
effectivement des cookies.
Effectivement. Mais par exemple, orange.fr renvoie des cookies à curl mais pas à wget.
Une requête "GET /" sur l'hôte "orange.fr" ne renvoie pas de header "Set-cookie". En revanche, le code HTML renvoyé contient du code Javascript, qui lui-même ajoute des cookies. Curl a peut-être un interpréteur Javascript ?
Note : pour tes tests, je te conseille fortement d'utiliser l'option --save-headers de wget, qui permet de vérifier si le serveur renvoie effectivement des cookies.
bersyl91
Fabien LE LEZ a écrit :
On Fri, 31 Jul 2009 17:49:40 +0200, bersyl91 :
Note : pour tes tests, je te conseille fortement d'utiliser l'option --save-headers de wget, qui permet de vérifier si le serveur renvoie effectivement des cookies.
Ok, je teste tout ça, merci bien.
Fabien LE LEZ a écrit :
On Fri, 31 Jul 2009 17:49:40 +0200, bersyl91 <choppy@free.fr>:
Note : pour tes tests, je te conseille fortement d'utiliser l'option
--save-headers de wget, qui permet de vérifier si le serveur renvoie
effectivement des cookies.
Note : pour tes tests, je te conseille fortement d'utiliser l'option --save-headers de wget, qui permet de vérifier si le serveur renvoie effectivement des cookies.