recherche outil

Sergio

21/09/2009 à 14:24

remy a écrit :

bonjour

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

wget ?

--
Serge http://leserged.online.fr/
Mon blog: http://cahierdesergio.free.fr/
Soutenez le libre: http://www.framasoft.org

Luc.Habert.00__arjf

21/09/2009 à 14:25

« wget -S » fait peut-être ce que tu veux.

remy

21/09/2009 à 14:37

Luc Habert a écrit :

« wget -S » fait peut-être ce que tu veux.

peut etre mais

:~$ wget -S http://www.google.fr/
--14:33:36-- http://www.google.fr/
=> `index.html.4'
Résolution de www.google.fr... 74.125.43.106, 74.125.43.147,
74.125.43.105, ...
Connexion vers www.google.fr|74.125.43.106|:80... connecté.
requête HTTP transmise, en attente de la réponse...
HTTP/1.0 200 OK
Date: Mon, 21 Sep 2009 12:33:36 GMT
Expires: -1
Cache-Control: private, max-age=0
Content-Type: text/html; charset=ISO-8859-1
Set-Cookie:
PREF=ID73b7d635ddd5e0:TM53536416:LM53536416:S=mSce3ShMJjjAOvER;
expires=Wed, 21-Sep-2011 12:33:36 GMT; path=/; domain=.google.fr
Set-Cookie:
NID'=GHtVSlJHH8CwidTgWXJhT5DPsMjVvcuBPxZVjI1jYYt5Nos7KG2fd3Wra0IVQKtAXTihYbr57N8W2f7RockVZLeJYpzz42Y1OOB4yLlarnY45ujLUrCDJf5I9bKICgzH;
expires=Tue, 23-Mar-2010 12:33:36 GMT; path=/; domain=.google.fr; HttpOnly
Server: gws
Longueur: non spécifié [text/html]

[ <=>
] 5 529 --.--K/s

14:33:36 (90.31 KB/s) - « index.html.4 » sauvegardé [5529]

:~$

et ou qu'elle est l' image ?

--
http://remyaumeunier.chez-alice.fr/

Luc.Habert.00__arjf

21/09/2009 à 14:40

remy :

et ou qu'elle est l' image ?

DTC. Je croyais que tu ne les voulais pas. Tu peux essayer de jouer avec les
options de récursion de wget.

Franssoa

21/09/2009 à 14:55

> Luc Habert a écrit :
« wget -S » fait peut-être ce que tu veux.

remy a écrit :

peut etre mais
(...)
et ou qu'elle est l' image ?

et plus tôt

remy a écrit :

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées

C'est pas très clair...

Franssoa

Kevin Denis

21/09/2009 à 15:10

Le 21-09-2009, remy a écrit :

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

telnet ?
wget?
curl?
nc?

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

la lecture des RFC semble un bon début.

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans

Le HTTP, c'est quand même du texte majoritairement.

$ curl -o google http://www.google.fr
$ cat google

mais la page d'accueil de google est écrite, heu, bizarrement (de façon
compacte, quoi).
Essaye plutôt d'autres sites web, qui ont des sources HTML plus lisibles.

sinon, tu peux faire la même chose avec netcat, tu écris ta requête (qui
finit obligatoirement par deux retours chariots successifs)
:~$ cat > req << EOF

GET / HTTP/1.1
Host: www.google.fr

:~$ cat req

GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 20
(... snip le reste)

Ceci dit, le rapport avec linux..

--
Kevin

Ph. Ivaldi

21/09/2009 à 15:14

Le 21 septembre 2009, Franssoa écrivit :

Luc Habert a écrit :
« wget -S » fait peut-être ce que tu veux.

remy a écrit :
peut etre mais
(...)
et ou qu'elle est l' image ?

et plus tôt
remy a écrit :
en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées

C'est pas très clair...

Si. Il veut les images mais pas quelles soient interprétées.
Heu... c'est quoi une image interprétées ?
Le chemin d'accès ?

Tim \Flat\ Bickel

21/09/2009 à 15:39

Bonjour les linuxiens,

Tadaaaaaaaaaaaaaaam !

wget -p www.lesiteàcharger.html

devrait faire l'affaire.

Cf man wget :

[...]
-p
--page-requisites
This option causes Wget to download all the files that are
necessary to properly display a given HTML page. This includes such
things as inlined images, sounds, and referenced stylesheets.

[...]

A la prochaine.

remy a écrit :

bonjour

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

je sais je suis un mec compliqué

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans
remy

remy

21/09/2009 à 15:49

Kevin Denis a écrit :

Le 21-09-2009, remy a écrit :
je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

telnet ?
wget?
curl?
nc?

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

la lecture des RFC semble un bon début.

je veux juste faire quelques stats sur les données du flux pour
définir des grilles pour mon algo de compression
ne le répettes pas mais c'est l'un des rares qui est particulièrement
bien adapté au flux

il n'a pas besoin d'analyser les fréquences
comme par exemple pour les plus courant et connus

http://www.journaldunet.com/developpeur/tutoriel/theo/041014-algo-compression-sans-perte.shtml

je vais essayer de le customiser, et ...

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans

Le HTTP, c'est quand même du texte majoritairement.

$ curl -o google http://www.google.fr
$ cat google

je le teste ce soir mes dépôts ne sont plus à jour
ma version est trop vieille et j'ai du taf à la bourre

mais la page d'accueil de google est écrite, heu, bizarrement (de façon
compacte, quoi).
Essaye plutôt d'autres sites web, qui ont des sources HTML plus lisibles.

sinon, tu peux faire la même chose avec netcat, tu écris ta requête (qui
finit obligatoirement par deux retours chariots successifs)
:~$ cat > req << EOF
GET / HTTP/1.1
Host: www.google.fr

:~$ cat req

GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 20
(... snip le reste)

je viens de tester rapidement cela marche mais il ne m'a pas semblé
avoir vu l'image

:~$ less req
:~$ cat req
GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 2009 13:33:59 GMT
Expires: -1
Cache-Control: private, max-age=0
...

Ceci dit, le rapport avec linux..

les outils

dans tous les cas merci pour les pistes

remy

--
http://remyaumeunier.chez-alice.fr/

Kevin Denis a écrit :

Le 21-09-2009, remy <remy@fctpas.fr> a écrit :

je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

telnet ?
wget?
curl?
nc?

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

la lecture des RFC semble un bon début.

je veux juste faire quelques stats sur les données du flux pour
définir des grilles pour mon algo de compression
ne le répettes pas mais c'est l'un des rares qui est particulièrement
bien adapté au flux

il n'a pas besoin d'analyser les fréquences
comme par exemple pour les plus courant et connus

http://www.journaldunet.com/developpeur/tutoriel/theo/041014-algo-compression-sans-perte.shtml

je vais essayer de le customiser, et ...

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans

Le HTTP, c'est quand même du texte majoritairement.

$ curl -o google http://www.google.fr
$ cat google

je le teste ce soir mes dépôts ne sont plus à jour
ma version est trop vieille et j'ai du taf à la bourre

mais la page d'accueil de google est écrite, heu, bizarrement (de façon
compacte, quoi).
Essaye plutôt d'autres sites web, qui ont des sources HTML plus lisibles.

sinon, tu peux faire la même chose avec netcat, tu écris ta requête (qui
finit obligatoirement par deux retours chariots successifs)
kevin@slackwall:~$ cat > req << EOF

GET / HTTP/1.1
Host: www.google.fr

kevin@slackwall:~$ cat req

GET / HTTP/1.1
Host: www.google.fr

kevin@slackwall:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 20
(... snip le reste)

je viens de tester rapidement cela marche mais il ne m'a pas semblé
avoir vu l'image

remy@remy-desktop:~$ less req
remy@remy-desktop:~$ cat req
GET / HTTP/1.1
Host: www.google.fr

remy@remy-desktop:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 2009 13:33:59 GMT
Expires: -1
Cache-Control: private, max-age=0
...

Ceci dit, le rapport avec linux..

les outils

dans tous les cas merci pour les pistes

remy

--
http://remyaumeunier.chez-alice.fr/

Vous avez filtré cet utilisateur ! Consultez son message

Kevin Denis a écrit :

Le 21-09-2009, remy a écrit :
je suis à la recherche d'un outil ou de quelque chose qui si apparente
pour mettre dans un fichier le flux d'entrée d'un navigateur
par exemple la page d'accueil de google

en gros je ne veux pas du "enregistrer sous" du navigateur parce qu'il
y a les images qui sont interprétées et je ne veux pas un sniffeur de
réseaux parce qu'il y a les entêtes tcp

telnet ?
wget?
curl?
nc?

j'aurais bien ouvert un socket sur le 80 mais je ne connais pas les
requêtes à envoyer

la lecture des RFC semble un bon début.

je veux juste faire quelques stats sur les données du flux pour
définir des grilles pour mon algo de compression
ne le répettes pas mais c'est l'un des rares qui est particulièrement
bien adapté au flux

il n'a pas besoin d'analyser les fréquences
comme par exemple pour les plus courant et connus

http://www.journaldunet.com/developpeur/tutoriel/theo/041014-algo-compression-sans-perte.shtml

je vais essayer de le customiser, et ...

bon bref le réseau c'est pas mon fort donc si vous avez une idée

en gros un fichier binaire avec tout dedans

Le HTTP, c'est quand même du texte majoritairement.

$ curl -o google http://www.google.fr
$ cat google

je le teste ce soir mes dépôts ne sont plus à jour
ma version est trop vieille et j'ai du taf à la bourre

mais la page d'accueil de google est écrite, heu, bizarrement (de façon
compacte, quoi).
Essaye plutôt d'autres sites web, qui ont des sources HTML plus lisibles.

sinon, tu peux faire la même chose avec netcat, tu écris ta requête (qui
finit obligatoirement par deux retours chariots successifs)
:~$ cat > req << EOF
GET / HTTP/1.1
Host: www.google.fr

:~$ cat req

GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 20
(... snip le reste)

je viens de tester rapidement cela marche mais il ne m'a pas semblé
avoir vu l'image

:~$ less req
:~$ cat req
GET / HTTP/1.1
Host: www.google.fr

:~$ cat req | nc www.google.fr 80
HTTP/1.1 200 OK
Date: Mon, 21 Sep 2009 13:33:59 GMT
Expires: -1
Cache-Control: private, max-age=0
...

Ceci dit, le rapport avec linux..

les outils

dans tous les cas merci pour les pistes

remy

--
http://remyaumeunier.chez-alice.fr/

remy

21/09/2009 à 16:07

Tim "Flat" Bickel a écrit :

Bonjour les linuxiens,

Tadaaaaaaaaaaaaaaam !

:-) pas tadameeeeeeeeeeeeeeee :-(

:~$ wget -p www.google.fr
--16:04:04-- http://www.google.fr/
=> `www.google.fr/index.html'
Résolution de www.google.fr... 74.125.43.105, 74.125.43.147,
74.125.43.106, ...
Connexion vers www.google.fr|74.125.43.105|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/html]

[ <=>
] 5 529 --.--K/s

16:04:04 (60.95 KB/s) - « www.google.fr/index.html » sauvegardé [5529]

Chargement de robots.txt; svp ignorer les erreurs.
--16:04:04-- http://www.google.fr/robots.txt
=> `www.google.fr/robots.txt'
Connexion vers www.google.fr|74.125.43.105|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: non spécifié [text/plain]

[ <=>
] 4 508 --.--K/s

16:04:04 (183.20 KB/s) - « www.google.fr/robots.txt » sauvegardé [4508]

--16:04:04-- http://www.google.fr/intl/fr_fr/images/logo.gif
=> `www.google.fr/intl/fr_fr/images/logo.gif'
Connexion vers www.google.fr|74.125.43.105|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Longueur: 8 866 (8.7K) [image/gif]

100%[==============================================================================================================>]
8 866 --.--K/s

16:04:04 (88.10 KB/s) - « www.google.fr/intl/fr_fr/images/logo.gif »
sauvegardé [8866/8866]
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

Terminé --16:04:04--
Téléchargement: 18 903 octets dans 3 fichiers
:~$

un flux un fichier

A la prochaine.

pourquoi pas

--
http://remyaumeunier.chez-alice.fr/

recherche outil

10 réponses

Veuillez sélectionner un problème