Wget : aspirer uniquement un sous repertoire

9 réponses

Olivier V

23/09/2006 à 14:04

Bonjour,

A partir de ce lien (http://mathadoc.sesamath.net/site.php?site=1) je
souhaiterais n'aspirer que ce qui se trouve
dans /mathadoc.sesamath.net/Documents/college

Actuellement il m'aspire tout : l'arborescence du site aspiré est la
suivante avec :
wget -r -np -k -E http://mathadoc.sesamath.net/site.php?site=1
/mathadoc.sesamath.net
/mathadoc.sesamath.net/Documents
/mathadoc.sesamath.net/Documents/college
/mathadoc.sesamath.net/Documents/mp
/mathadoc/mathadoc.sesamath.net/image
/mathadoc/mathadoc.sesamath.net/logo
/perso.orange.fr/gilles.costantini/TS
...

J'ai essayé avec :
wget -r -np -k -E -I *college* http://mathadoc.sesamath.net/site.php?site=1
mais ca ne m'aspire qu'une page

Comment faire ?

Olivier V

9 réponses

24/09/2006 à 20:00

Olivier V wrote:

Bonjour,

A partir de ce lien (http://mathadoc.sesamath.net/site.php?site=1) je
souhaiterais n'aspirer que ce qui se trouve
dans /mathadoc.sesamath.net/Documents/college

Actuellement il m'aspire tout : l'arborescence du site aspiré est la
suivante avec :
wget -r -np -k -E http://mathadoc.sesamath.net/site.php?site=1
/mathadoc.sesamath.net
/mathadoc.sesamath.net/Documents
/mathadoc.sesamath.net/Documents/college
/mathadoc.sesamath.net/Documents/mp
/mathadoc/mathadoc.sesamath.net/image
/mathadoc/mathadoc.sesamath.net/logo
/perso.orange.fr/gilles.costantini/TS
...

J'ai essayé avec :
wget -r -np -k -E -I *college*
http://mathadoc.sesamath.net/site.php?site=1 mais ca ne m'aspire qu'une
page

Comment faire ?

Olivier V
Je te conseille l'extension "scrapbook" de firefox qui te fait cela très

simplement et qui te permet ensuite de faire un tas d'opérations sur les
captures: classement et rangement, tri, annotation, fusion,
sauvegarde......
L'extension et une doc complète sont dispo en
http://amb.vis.ne.jp/mozilla/scrapbook/

Jérémy JUST

24/09/2006 à 23:20

Le Sat, 23 Sep 2006 14:04:13 +0200,

A partir de ce lien (http://mathadoc.sesamath.net/site.php?site=1) je
souhaiterais n'aspirer que ce qui se trouve
dans /mathadoc.sesamath.net/Documents/college

Mais il n'y a rien dans ce répertoire!
http://mathadoc.sesamath.net/Documents/college/

J'ai essayé avec :
wget -r -np -k -E -I *college*
http://mathadoc.sesamath.net/site.php?site=1 mais ca ne m'aspire
qu'une page

Ça me semble être le comportement attendu dans ton cas.

--
Jérémy JUST

Jérémy JUST

24/09/2006 à 23:46

Le Sun, 24 Sep 2006 23:20:10 +0200,

Mais il n'y a rien dans ce répertoire!
http://mathadoc.sesamath.net/Documents/college/

Non, en fait c'est un peu bizarre: le listing est vide, mais d'autres
pages y pointent des documents.

J'ai fait quelques essais avec wget et je n'ai pas eu plus de succès
pour attraper spécifiquement les documents qui sont dans ce répertoire.

--
Jérémy JUST

Fabien LE LEZ

25/09/2006 à 00:17

On Sat, 23 Sep 2006 14:04:13 +0200, Olivier V :

wget -r -np -k -E -I *college* http://mathadoc.sesamath.net/site.php?site=1
mais ca ne m'aspire qu'une page

Ben oui, c'est logique : la page en question ne contient aucun lien
vers des documents se trouvant dans /Documents/college.

En fait, tu devrais plutôt t'orienter vers des exclusions (-X).
Ou peut-être, vers un autre logiciel.

Ou bien, tout simplement :

| wget -r -np --level=2 "http://mathadoc.sesamath.net/site.php?site=1"

puis

| find mathadoc.sesamath.net|xargs grep --extended-regexp --ignore-case --no-filename --only-matching "http://mathadoc.sesamath.net/Documents/college/.+.PDF"|xargs wget -c

Olivier V

25/09/2006 à 20:02

Le Sun, 24 Sep 2006 23:20:10 +0200,

Mais il n'y a rien dans ce répertoire!
http://mathadoc.sesamath.net/Documents/college/

Non, en fait c'est un peu bizarre: le listing est vide, mais d'autres
pages y pointent des documents.

J'ai fait quelques essais avec wget et je n'ai pas eu plus de succès
pour attraper spécifiquement les documents qui sont dans ce répertoire.

J'ai encore fait un essai avec :
wget -r -l inf -k -E -N -np --dont-remove-listing
-domains=mathadoc.sesamath.net
--exclude-domains=perso.orange.fr,www.lycee-descartes.ac.ma
--exclude-directories=/Documents/mp,/gilles.costantini
http://mathadoc.sesamath.net

mais :
- il ne respecte pas les restrictions de domaine puisqu'il part dans
perso.orange.fr et www.lycee-descartes.ac.ma
- il ne se limite pas au répertoire indiqué puisqu'il me télécharge des
documents dans /Documents/mp...

Ou bien je ne lui donne vraiment pas les bonnes commandes, ou bien wget ne
fait pas du tout ce qu'il devrait !

Olivier V

Olivier V

25/09/2006 à 20:06

Je te conseille l'extension "scrapbook" de firefox qui te fait cela très
simplement et qui te permet ensuite de faire un tas d'opérations sur les
captures: classement et rangement, tri, annotation, fusion,
sauvegarde......
L'extension et une doc complète sont dispo en
http://amb.vis.ne.jp/mozilla/scrapbook/

C'est pas mal, effectivement.
Mais :
- on ne peut pas empêcher le chargement de certains sous-répertoires (ce que
je voulais faire avec wget)
- il ne recrée pas l'arborescence du site, même après exportation ; c'est
donc vraiment un grand fourre-tout.

Olivier V

25/09/2006 à 23:53

Olivier V wrote:

Je te conseille l'extension "scrapbook" de firefox qui te fait cela très
simplement et qui te permet ensuite de faire un tas d'opérations sur les
captures: classement et rangement, tri, annotation, fusion,
sauvegarde......
L'extension et une doc complète sont dispo en
http://amb.vis.ne.jp/mozilla/scrapbook/

C'est pas mal, effectivement.
Mais :
- on ne peut pas empêcher le chargement de certains sous-répertoires (ce
que je voulais faire avec wget)
- il ne recrée pas l'arborescence du site, même après exportation ; c'est
donc vraiment un grand fourre-tout.

Olivier V

Normalement dans la fenètre de téléchargement, tu peux sélectionner le
filtre à appliquer en bas à gauche (il te propose les différents
répertoires en cours de téléchargement, et tu peux éditer toi-même le
filtre). Il est toujours possible en dernière extrémité de décocher/cocher
à la main les pages dans la file d'attente des pages à télécharger.

Pour le fourre-tout, il faut créer une arborescence de répertoire à
l'intérieur du scapbook dans laquelle on range/classe le site aspiré. Par
contre la consultation doit toujours se faire au travers de
firefox/scrapbook et non pas par un explorateur de fichier. C'est une
habitude facile à prendre losque l'on accède souvent à internet et que l'on
a toujours le navigateur ouvert.

Les fonctions particulièrement intérressantes concerne le surlignage,
l'annotation des documents enregistrés, ainsi que les fonctions d'édition
et de fusion de plusieurs pages.

Luc

Olivier V

26/09/2006 à 11:48

Normalement dans la fenètre de téléchargement, tu peux sélectionner le
filtre à appliquer en bas à gauche (il te propose les différents
répertoires en cours de téléchargement, et tu peux éditer toi-même le
filtre).

Oui, on peut limiter par nom de domaine. Par contre on ne peut pas filtrer
les sous-répertoires du domaine : si on met profondeur 3, il prend tout ce
qui est à 3 de profondeur dans le domaine, et on ne peut pas interdire de
télécharger ce qui se trouve dans /domaine/machin par exemple.

Il est toujours possible en dernière extrémité de décocher/cocher
à la main les pages dans la file d'attente des pages à télécharger.

OK, mais ca devient fastidieux.

Pour le fourre-tout, il faut créer une arborescence de répertoire à
l'intérieur du scapbook dans laquelle on range/classe le site aspiré.

Pas vraiment. Lorsque j'aspire le site "mathadoc" j'ai un seul répertoire
mathadoc dans l'arborescence et dans
$home/.mozilla/firefox/qvvutuxg.default/ScrapBook/data/20060926114014.

Alors qu'avec wget ou khttrack l'arborescence réelle du site est recrée.

Par
contre la consultation doit toujours se faire au travers de
firefox/scrapbook et non pas par un explorateur de fichier.

J'ai pourtant réussi à exporter le tout (avec l'option exporter) et à ouvrir
sous konqueror.

Merci pour toutes les infos.

Olivier V

Olivier V

26/09/2006 à 16:36

J'ai réussi à faire une copie tout à fait correcte, en éditant la page
initiale.

Encore merci pour cette info.

Olivier V

Wget : aspirer uniquement un sous repertoire

9 réponses

Veuillez sélectionner un problème