Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

recherche outil

21 réponses
Avatar
remy
bonjour

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google


en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

je sais je suis un mec compliqué

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans
remy

--
http://remyaumeunier.chez-alice.fr/

10 réponses

1 2 3
Avatar
Sergio
remy a écrit :
bonjour

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google



wget ?

--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org
Avatar
Luc.Habert.00__arjf
« wget -S » fait peut-être ce que tu veux.
Avatar
remy
Luc Habert a écrit :
« wget -S » fait peut-être ce que tu veux.


peut etre mais


:~$ wget -S http://www.google.fr/
--14:33:36-- http://www.google.fr/
=> `index.html.4'
Résolution de www.google.fr... 74.125.43.106, 74.125.43.147,
74.125.43.105, ...
Connexion vers www.google.fr|74.125.43.106|:80... connecté.
requête HTTP transmise, en attente de la réponse...
HTTP/1.0 200 OK
Date: Mon, 21 Sep 2009 12:33:36 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Set-Cookie:
PREF=ID73b7d635ddd5e0:TM53536416:LM53536416:S=mSce3ShMJjjAOvER;
expires=Wed, 21-Sep-2011 12:33:36 GMT; path=/; domain=.google.fr
Set-Cookie:
NID'=GHtVSlJHH8CwidTgWXJhT5DPsMjVvcuBPxZVjI1jYYt5Nos7KG2fd3Wra0IVQKtAXTihYbr57N8W2f7RockVZLeJYpzz42Y1OOB4yLlarnY45ujLUrCDJf5I9bKICgzH;
expires=Tue, 23-Mar-2010 12:33:36 GMT; path=/; domain=.google.fr; HttpOnly
Server: gws
Longueur: non spécifié [text/html]

[ <=>
] 5 529 --.--K/s


14:33:36 (90.31 KB/s) - « index.html.4 » sauvegardé [5529]

:~$



et ou qu'elle est l' image ?



--
http://remyaumeunier.chez-alice.fr/
Avatar
Luc.Habert.00__arjf
remy :

et ou qu'elle est l' image ?



DTC. Je croyais que tu ne les voulais pas. Tu peux essayer de jouer avec les
options de récursion de wget.
Avatar
Franssoa
> Luc Habert a écrit :
« wget -S » fait peut-être ce que tu veux.





remy a écrit :
peut etre mais
(...)
et ou qu'elle est l' image ?




et plus tôt

remy a écrit :
en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées



C'est pas très clair...

Franssoa
Avatar
Kevin Denis
Le 21-09-2009, remy a écrit :
je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp



telnet ?
wget?
curl?
nc?

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer



la lecture des RFC semble un bon début.

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans



Le HTTP, c'est quand même du texte majoritairement.

$ curl -o google http://www.google.fr
$ cat google

mais la page d'accueil de google est écrite, heu, bizarrement (de façon
compacte, quoi).
Essaye plutôt d'autres sites web, qui ont des sources HTML plus lisibles.

sinon, tu peux faire la même chose avec netcat, tu écris ta requête (qui
finit obligatoirement par deux retours chariots successifs)
:~$ cat > req << EOF
GET / HTTP/1.1
Host: www.google.fr

:~$ cat req


GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 20
(... snip le reste)

Ceci dit, le rapport avec linux..

--
Kevin
Avatar
Ph. Ivaldi
Le 21 septembre 2009, Franssoa écrivit :

Luc Habert a écrit :
« wget -S » fait peut-être ce que tu veux.




remy a écrit :
peut etre mais
(...)
et ou qu'elle est l' image ?


et plus tôt
remy a écrit :
en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées


C'est pas très clair...



Si. Il veut les images mais pas quelles soient interprétées.
Heu... c'est quoi une image interprétées ?
Le chemin d'accès ?
Avatar
Tim \Flat\ Bickel
Bonjour les linuxiens,

Tadaaaaaaaaaaaaaaam !

wget -p www.lesiteàcharger.html

devrait faire l'affaire.

Cf man wget :

[...]
-p
--page-requisites
This option causes Wget to download all the files that are
necessary to properly display a given HTML page. This includes such
things as inlined images, sounds, and referenced stylesheets.

[...]

A la prochaine.

remy a écrit :
bonjour

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google


en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

je sais je suis un mec compliqué

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans
remy



Avatar
remy
Kevin Denis a écrit :
Le 21-09-2009, remy a écrit :
je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp



telnet ?
wget?
curl?
nc?

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer



la lecture des RFC semble un bon début.




je veux juste faire quelques stats sur les données du flux pour
définir des grilles pour mon algo de compression
ne le répettes pas mais c'est l'un des rares qui est particulièrement
bien adapté au flux

il n'a pas besoin d'analyser les fréquences
comme par exemple pour les plus courant et connus

http://www.journaldunet.com/developpeur/tutoriel/theo/041014-algo-compression-sans-perte.shtml

je vais essayer de le customiser, et ...

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans



Le HTTP, c'est quand même du texte majoritairement.

$ curl -o google http://www.google.fr
$ cat google




je le teste ce soir mes dépôts ne sont plus à jour
ma version est trop vieille et j'ai du taf à la bourre


mais la page d'accueil de google est écrite, heu, bizarrement (de façon
compacte, quoi).
Essaye plutôt d'autres sites web, qui ont des sources HTML plus lisibles.





sinon, tu peux faire la même chose avec netcat, tu écris ta requête (qui
finit obligatoirement par deux retours chariots successifs)
:~$ cat > req << EOF
GET / HTTP/1.1
Host: www.google.fr

:~$ cat req


GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 20
(... snip le reste)



je viens de tester rapidement cela marche mais il ne m'a pas semblé
avoir vu l'image


:~$ less req
:~$ cat req
GET / HTTP/1.1
Host: www.google.fr



:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 2009 13:33:59 GMT
Expires: -1
Cache-Control: private, max-age=0
...


Ceci dit, le rapport avec linux..



les outils

dans tous les cas merci pour les pistes

remy

--
http://remyaumeunier.chez-alice.fr/
Avatar
remy
Tim "Flat" Bickel a écrit :
Bonjour les linuxiens,

Tadaaaaaaaaaaaaaaam !



:-) pas tadameeeeeeeeeeeeeeee :-(




:~$ wget -p www.google.fr
--16:04:04-- http://www.google.fr/
=> `www.google.fr/index.html'
Résolution de www.google.fr... 74.125.43.105, 74.125.43.147,
74.125.43.106, ...
Connexion vers www.google.fr|74.125.43.105|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]

[ <=>
] 5 529 --.--K/s


16:04:04 (60.95 KB/s) - « www.google.fr/index.html » sauvegardé [5529]

Chargement de robots.txt; svp ignorer les erreurs.
--16:04:04-- http://www.google.fr/robots.txt
=> `www.google.fr/robots.txt'
Connexion vers www.google.fr|74.125.43.105|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/plain]

[ <=>
] 4 508 --.--K/s


16:04:04 (183.20 KB/s) - « www.google.fr/robots.txt » sauvegardé [4508]

--16:04:04-- http://www.google.fr/intl/fr_fr/images/logo.gif
=> `www.google.fr/intl/fr_fr/images/logo.gif'
Connexion vers www.google.fr|74.125.43.105|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: 8 866 (8.7K) [image/gif]

100%[==============================================================================================================>]
8 866 --.--K/s



16:04:04 (88.10 KB/s) - « www.google.fr/intl/fr_fr/images/logo.gif »
sauvegardé [8866/8866]
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^



Terminé --16:04:04--
Téléchargement: 18 903 octets dans 3 fichiers
:~$




un flux un fichier


A la prochaine.




pourquoi pas




--
http://remyaumeunier.chez-alice.fr/
1 2 3