Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

A propos de lynx...

11 réponses
Avatar
Jean Francois Ortolo
Bonjour
J'ai un login/password d'identification sur un site, dont je cherche
à "pomper" les données à partir d'une fenêtre accessible seulement après
la première fenêtre d'authentification.

Un cookie non permanent que le navigateur reçoit, permet de vérifier
que l'utilisateur a le droit de visiter le site. Le problème est que le
cookie n'est pas permanent, et donc, théoriquement, il s'efface dans le
navigateur quand celui-ci s'arrête.

Je cherche donc à utiliser le navigateur texte lynx sous Linux Fedora
Core 2, pour automatiser ce processus de pompage en intégrant les lignes
de commande avec lynx, dans un script en Bourne Shell sous Linux.

Le seul problème, c'est que je peux très bien donner automatiquement
mon login/password sur le formulaire post d'authentification, je sais
faire celà avec lynx. Mais comment faire pour que l'accès à la page HTML
désirée, soit fait automatiquement ( sachant que je dispose de l'url de
la page ), tout en gardant le cookie envoyé précédemment à lynx par le
serveur du site ?

En effet, la présence de ce cookie est indispensable, autrement
l'accès à la page est refusé. Cependant, si j'arrivais à prendre
connaissance du texte de ce cookie lors de l'authentification, puis de
faire comme si lynx avait ce cookie, j'aurais accès à la page HTML.

Donc, voilà ma question: Comment, avec lynx, mémoriser un cookie reçu
non permanent, puis le restituer lors d'un appel ultérieur à la commende
lynx ?

Si vous avez des liens sur ce sujet ( lynx ), pourriez-vous me les
donner ?

Merci beaucoup.

Jean Francois Ortolo

--
Visitez mon site entièrement gratuit
donnant des Statistiques et des Historiques Graphiques
sur les Courses de Chevaux:
http://www.ortolojf-courses.com

10 réponses

1 2
Avatar
Nicolas Moreau
Jean Francois Ortolo wrote:

Je cherche donc à utiliser le navigateur texte lynx sous Linux Fedora
Core 2, pour automatiser ce processus de pompage en intégrant les lignes
de commande avec lynx, dans un script en Bourne Shell sous Linux.



Ca répondra pas à ta question, mais pourquoi tu n'utilises pas httrack ?
c'est prévu pour ça.

Sinon perso quand il m'arrive d'utiliser un navigateur textuel je
préfère (e)links (onglets, ...)

--
Nicolas Moreau
Avatar
Jean Francois Ortolo
Nicolas Moreau wrote:

Ca répondra pas à ta question, mais pourquoi tu n'utilises pas httrack ?
c'est prévu pour ça.




Bonjour Nicolas
Et avec httrack , qui est un aspirateur de site, est-il possible de
procéder par lignes de commande à partir d'un script Shell, et de
sélectionner les pages HTML aspirées ?

En effet, je ne cherche pas à aspirer tout le site que j'ai en vue (
ce serait sans fin ), seulement quelques pages HTML choisies de manière
programmative, à partir des mes premières visites à d'autres pages HTML
de ce site, tout en sauvegardant le cookie en question, pour garder la
permission d'accès.

Pour l'instant, je ne cherche qu'à savoir s'il est possible pour moi
d'enregistrer sur mon ordinateur, les pages HTML en question, d'une
façon automatisée mettant en jeu des calculs alphabétiques sur les urls
des pages visitées et leurs contenus, calculs fait dans le script Shel
de téléchargement.

Une fois que je saurai comment faire, si c'est possible, je
demanderai l'autorisation écrite au Directeur Général de la société
propriétaire du site, d'utiliser les données de son site, dont j'ai besoin.

Merci beaucoup de ta suggestion.

Jean Francois Ortolo

PS Je sais qu'il existe une version pour Linux de httrack, et sur le
site de httrack, il y a une FAQ je crois, concernant la programmation
avec httrack. Je crois que je vais aller jeter un coup d'oeil là-dessus
cette après-midi.

--
Visitez mon site entièrement gratuit
donnant des Statistiques et des Historiques Graphiques
sur les Courses de Chevaux:
http://www.ortolojf-courses.com
Avatar
Ludovic LE MOAL
Jean Francois Ortolo nous a schtroumpfé :

Bonjour



Salut,

Je cherche donc à utiliser le navigateur texte lynx sous Linux
FedoraCore 2, pour automatiser ce processus de pompage en intégrant les
lignes de commande avec lynx, dans un script en Bourne Shell sous
Linux.



Pourquoi ne pas essayer Wget ?
--
Ludovic LE MOAL
Avatar
Didier Courtaud
Jean Francois Ortolo a écrit :
Nicolas Moreau wrote:


Ca répondra pas à ta question, mais pourquoi tu n'utilises pas httrack
? c'est prévu pour ça.




Bonjour Nicolas
Et avec httrack , qui est un aspirateur de site, est-il possible de
procéder par lignes de commande à partir d'un script Shell, et de
sélectionner les pages HTML aspirées ?




Mais oui !

Il existe une foule de critères dans Httrack qui te premette de régler
précisément ce que tu veux aspirer !

De plus la version Linux ( qui est la plateforme de developpement du
developpeur français ) est beaucoup plus riche que la version Windows
et peut , bien sur, s'utiliser en ligne de commande !

Je rejoins Nicolas pour te conseiller d'eassyer ce produit qui est 100
fois plus puissant et plus pratique que Wget !


En effet, je ne cherche pas à aspirer tout le site que j'ai en vue (
ce serait sans fin ), seulement quelques pages HTML choisies de manière
programmative, à partir des mes premières visites à d'autres pages HTML
de ce site, tout en sauvegardant le cookie en question, pour garder la
permission d'accès.

Pour l'instant, je ne cherche qu'à savoir s'il est possible pour moi
d'enregistrer sur mon ordinateur, les pages HTML en question, d'une
façon automatisée mettant en jeu des calculs alphabétiques sur les urls
des pages visitées et leurs contenus, calculs fait dans le script Shel
de téléchargement.

Une fois que je saurai comment faire, si c'est possible, je demanderai
l'autorisation écrite au Directeur Général de la société propriétaire du
site, d'utiliser les données de son site, dont j'ai besoin.

Merci beaucoup de ta suggestion.

Jean Francois Ortolo

PS Je sais qu'il existe une version pour Linux de httrack, et sur le
site de httrack, il y a une FAQ je crois, concernant la programmation
avec httrack. Je crois que je vais aller jeter un coup d'oeil là-dessus
cette après-midi.



Avatar
Jean Francois Ortolo
Ludovic LE MOAL wrote:

Pourquoi ne pas essayer Wget ?



Bonjour Ludovic
Le problème, c'est d'abord que je dois pouvoir envoyer mon
login/password à un formulaire post dont j'ai l'url, ensuite que je dois
pouvoir garder le cookie reçu au moment de l'authentification par ce
formulaire, au moment où je voudrai accéder aux différentes pages HTML (
en réalité des scripts *.asp délivrant du contenu HTML ), alors que
d'une part le cookie n'est pas permanent, et d'autre part, les
différents téléchargements des pages, nécssitent plusieurs appels à la
commande du navigateur texte ( soit lynx, soit wget, soit httrack ), du
moins je suppose.

De plus, pour choisir les urls des pages téléchargées, je dois les
calculer automatiquement à partir des contenus des pages précédemment
téléchargées, calculs qui ne peuvent avoir lieu que dans le script
Shell, entre chaque appel au navigateur. Tout ceci en gardant le cookie
de départ pour avoit l'autorisation de télécharger les pages
ultérieures. Bref, galère, quoi...

Le problème pour moi, serait surtout de pouvoir identifier le cookie
en question, puis de relancer le navigateur comme s'il venait de
reçevoir le cookie.

Il y a donc deux problèmes, sachant qu'un seul cookie n'intervient (
mais évidemment, à chaque authentification, il est différent ):

- Au moment où le cookie est envoyé ( au moment où l'authentification
se fait avec le formulaire ), pouvoir prendre connaissance du contenu du
cookie. Celui-ci n'est pas permanent, donc théoriquement il n'est pas
enregistré dans un fichier du disque dur.

- Et puis, être capable d'adjoindre le contenu de ce cookie au moment
des appels suivants au navigateur texte, comme si celui celui-ci venait
de le recevoir.

A ces conditions, je pense qu'il me serait possible de faire ces
téléchargements, mais est-ce possible avec wget sous Linux ?

Merci beaucoup pour tes réponses.

Jean Francois Ortolo

--
Visitez mon site entièrement gratuit
donnant des Statistiques et des Historiques Graphiques
sur les Courses de Chevaux:
http://www.ortolojf-courses.com
Avatar
Jean Francois Ortolo
Jean Francois Ortolo wrote:
Ludovic LE MOAL wrote:


Pourquoi ne pas essayer Wget ?







Bon
Apparemment, il est possible d'envoyer n'importe quel cookie dont on
connais préalablement le contenu, encore faut-il en avoir pris
connaissance d'abord avec son navigateur habituel, et que sa durée de
validité ne soit pas trop courte.

Et puis... Le site que j'ai en vue ne dessert que IE et Mozilla, il
va falloir que j'utilise le paramètre -U <agent-string> pour apparaître
comme un client Mozilla, mais quel est l'user agent mour Mozilla ?

Et puis... Je ne sais pas comment, avec wget, il serait possible de
remplir automatiquement un formulaire post dont on a l'url et les noms
des deux variables.

S'il y avait possibilité d'enregistrer sur fichier tous les cookies
reçus, même non permanents, le problème de la durée de validité serait,
ipso facto, arrangé.

Je vais me renseigner.

Merci beaucoup beaucoup pour ta réponse.

Jean Francois Ortolo

--
Visitez mon site entièrement gratuit
donnant des Statistiques et des Historiques Graphiques
sur les Courses de Chevaux:
http://www.ortolojf-courses.com
Avatar
Ludovic LE MOAL
Jean Francois Ortolo nous a schtroumpfé :

Et puis... Je ne sais pas comment, avec wget, il serait possible de
remplir automatiquement un formulaire post dont on a l'url et les noms
des deux variables.



Je suis sous Windows et je fais wget.exe --post-data var1=foo1&var2=foo2
http://host.tld/pagequiurecoitlesparametres.php ou un truc dans le genre.
Il doit y avoir des options pour ne pas enregistrer la page que l'on
demande.

Enfin bon, moi, je propose. Wget est assez puissant pour automatiser
certaines tâches sur le net.
--
Ludovic LE MOAL
Avatar
Jean Francois Ortolo
Ludovic LE MOAL wrote:

Enfin bon, moi, je propose. Wget est assez puissant pour automatiser
certaines tâches sur le net.



Bonsoir Ludovic
Voilà, je viens d'installer la dernière version cvs de wget sur mon
système Linux Fedora Core 2. Cette version supporte l'enregistrement et
la lecture des cookies de session ( non permanents ), et puis il y a
effectivement la possibilité d'entrer automatiquement des variables dans
des formulaires post avec le paramètre --post-data 'login= &password=
' ou toutes autres variables.

Ce programme est génial, le seul truc qui pourrait éventuellement
m'empêcher de faire ces téléchargements automatiques, est mentionné je
ne sais plus où, soit dans les archives de la mailing list
, soit sur le site de wget, il se pourrait qu'il y ait
des problèmes, s'il y a une redirection au moment de l'appel du
formulaire post. Cependant, je ne vois pas très bien ce que celà peut
vouloir dire, vu que le script appelé par le formulaire, est
pratiquement toujours un autre script que le script courant.

J'ai déjà vu le man de cette version, et le fichier info en détail,
je sais quels sont les paramètres dont j'ai besoin, la seule chose dont
j'ai encore besoin, est de savoir s'il faut enregistrer le cookie de
session à chaque appel de wget, en même temps que le cookie est lu sur
le fichier cookies.txt ( après qu'il ait été enregistré une première
fois à l'authentification ). Je suppose que ce problème de parcours
authentifié par le cookie de session, a déjà été prévu par le concepteur
de wget.

Merci beaucoup beaucoup pour ta suggestion, je vais voir dans
quelques jours comment adapter l'utilisation de wget, au téléchargement
des pages dont j'ai besoin. Après avoir fixé l'algorithme, je
programmerai le script Bourne Shell de téléchargement et indexation
automatique des fichiers HTML d'une date à une autre date.

Merci beaucoup.

Jean Francois Ortolo

--
Visitez mon site entièrement gratuit
donnant des Statistiques et des Historiques Graphiques
sur les Courses de Chevaux:
http://www.ortolojf-courses.com
Avatar
Fabien LE LEZ
On 28 Nov 2004 12:54:08 GMT, Ludovic LE MOAL :

Wget est assez puissant pour automatiser
certaines tâches sur le net.



Au fait, est-il aussi puissant en https qu'en http ?

--
;-)
Avatar
Ludovic LE MOAL
Jean Francois Ortolo nous a schtroumpfé :

Bonsoir Ludovic



Salut,

Ce programme est génial,



C'est l'invention du diable, ce logiciel.

le seul truc qui pourrait éventuellement m'empêcher de faire ces
téléchargements automatiques, est mentionné je ne sais plus où, soit
dans les archives de la mailing list , soit sur le
site de wget, il se pourrait qu'il y ait des problèmes, s'il y a une
redirection au moment de l'appel du formulaire post. Cependant, je ne
vois pas très bien ce que celà peut vouloir dire, vu que le script
appelé par le formulaire, est pratiquement toujours un autre script
que le script courant.



Je peux pas trop te renseigner : je suis tombé sur Wget un peu par hasard
et je l'utilise à un très bas niveau, dans des fonctions très basiques. Et
je n'ai pas compris non plus ce que ça peut bien vouloir dire ;)
--
Ludovic LE MOAL
1 2