OVH Cloud OVH Cloud

Wget : aspirer uniquement un sous repertoire

9 réponses
Avatar
Olivier V
Bonjour,

A partir de ce lien (http://mathadoc.sesamath.net/site.php?site=1) je
souhaiterais n'aspirer que ce qui se trouve
dans /mathadoc.sesamath.net/Documents/college

Actuellement il m'aspire tout : l'arborescence du site aspiré est la
suivante avec :
wget -r -np -k -E http://mathadoc.sesamath.net/site.php?site=1
/mathadoc.sesamath.net
/mathadoc.sesamath.net/Documents
/mathadoc.sesamath.net/Documents/college
/mathadoc.sesamath.net/Documents/mp
/mathadoc/mathadoc.sesamath.net/image
/mathadoc/mathadoc.sesamath.net/logo
/perso.orange.fr/gilles.costantini/TS
...

J'ai essayé avec :
wget -r -np -k -E -I *college* http://mathadoc.sesamath.net/site.php?site=1
mais ca ne m'aspire qu'une page

Comment faire ?

Olivier V

9 réponses

Avatar
ll
Olivier V wrote:

Bonjour,

A partir de ce lien (http://mathadoc.sesamath.net/site.php?site=1) je
souhaiterais n'aspirer que ce qui se trouve
dans /mathadoc.sesamath.net/Documents/college

Actuellement il m'aspire tout : l'arborescence du site aspiré est la
suivante avec :
wget -r -np -k -E http://mathadoc.sesamath.net/site.php?site=1
/mathadoc.sesamath.net
/mathadoc.sesamath.net/Documents
/mathadoc.sesamath.net/Documents/college
/mathadoc.sesamath.net/Documents/mp
/mathadoc/mathadoc.sesamath.net/image
/mathadoc/mathadoc.sesamath.net/logo
/perso.orange.fr/gilles.costantini/TS
...

J'ai essayé avec :
wget -r -np -k -E -I *college*
http://mathadoc.sesamath.net/site.php?site=1 mais ca ne m'aspire qu'une
page

Comment faire ?

Olivier V
Je te conseille l'extension "scrapbook" de firefox qui te fait cela très

simplement et qui te permet ensuite de faire un tas d'opérations sur les
captures: classement et rangement, tri, annotation, fusion,
sauvegarde......
L'extension et une doc complète sont dispo en
http://amb.vis.ne.jp/mozilla/scrapbook/

Avatar
Jérémy JUST
Le Sat, 23 Sep 2006 14:04:13 +0200,

A partir de ce lien (http://mathadoc.sesamath.net/site.php?site=1) je
souhaiterais n'aspirer que ce qui se trouve
dans /mathadoc.sesamath.net/Documents/college


Mais il n'y a rien dans ce répertoire!
http://mathadoc.sesamath.net/Documents/college/



J'ai essayé avec :
wget -r -np -k -E -I *college*
http://mathadoc.sesamath.net/site.php?site=1 mais ca ne m'aspire
qu'une page


Ça me semble être le comportement attendu dans ton cas.



--
Jérémy JUST

Avatar
Jérémy JUST
Le Sun, 24 Sep 2006 23:20:10 +0200,

Mais il n'y a rien dans ce répertoire!
http://mathadoc.sesamath.net/Documents/college/


Non, en fait c'est un peu bizarre: le listing est vide, mais d'autres
pages y pointent des documents.

J'ai fait quelques essais avec wget et je n'ai pas eu plus de succès
pour attraper spécifiquement les documents qui sont dans ce répertoire.



--
Jérémy JUST

Avatar
Fabien LE LEZ
On Sat, 23 Sep 2006 14:04:13 +0200, Olivier V :

wget -r -np -k -E -I *college* http://mathadoc.sesamath.net/site.php?site=1
mais ca ne m'aspire qu'une page


Ben oui, c'est logique : la page en question ne contient aucun lien
vers des documents se trouvant dans /Documents/college.

En fait, tu devrais plutôt t'orienter vers des exclusions (-X).
Ou peut-être, vers un autre logiciel.

Ou bien, tout simplement :

| wget -r -np --level=2 "http://mathadoc.sesamath.net/site.php?site=1"

puis

| find mathadoc.sesamath.net|xargs grep --extended-regexp --ignore-case --no-filename --only-matching "http://mathadoc.sesamath.net/Documents/college/.+.PDF"|xargs wget -c

Avatar
Olivier V

Le Sun, 24 Sep 2006 23:20:10 +0200,

Mais il n'y a rien dans ce répertoire!
http://mathadoc.sesamath.net/Documents/college/


Non, en fait c'est un peu bizarre: le listing est vide, mais d'autres
pages y pointent des documents.

J'ai fait quelques essais avec wget et je n'ai pas eu plus de succès
pour attraper spécifiquement les documents qui sont dans ce répertoire.


J'ai encore fait un essai avec :
wget -r -l inf -k -E -N -np --dont-remove-listing
-domains=mathadoc.sesamath.net
--exclude-domains=perso.orange.fr,www.lycee-descartes.ac.ma
--exclude-directories=/Documents/mp,/gilles.costantini
http://mathadoc.sesamath.net

mais :
- il ne respecte pas les restrictions de domaine puisqu'il part dans
perso.orange.fr et www.lycee-descartes.ac.ma
- il ne se limite pas au répertoire indiqué puisqu'il me télécharge des
documents dans /Documents/mp...

Ou bien je ne lui donne vraiment pas les bonnes commandes, ou bien wget ne
fait pas du tout ce qu'il devrait !

Olivier V


Avatar
Olivier V

Je te conseille l'extension "scrapbook" de firefox qui te fait cela très
simplement et qui te permet ensuite de faire un tas d'opérations sur les
captures: classement et rangement, tri, annotation, fusion,
sauvegarde......
L'extension et une doc complète sont dispo en
http://amb.vis.ne.jp/mozilla/scrapbook/


C'est pas mal, effectivement.
Mais :
- on ne peut pas empêcher le chargement de certains sous-répertoires (ce que
je voulais faire avec wget)
- il ne recrée pas l'arborescence du site, même après exportation ; c'est
donc vraiment un grand fourre-tout.

Olivier V

Avatar
ll
Olivier V wrote:


Je te conseille l'extension "scrapbook" de firefox qui te fait cela très
simplement et qui te permet ensuite de faire un tas d'opérations sur les
captures: classement et rangement, tri, annotation, fusion,
sauvegarde......
L'extension et une doc complète sont dispo en
http://amb.vis.ne.jp/mozilla/scrapbook/


C'est pas mal, effectivement.
Mais :
- on ne peut pas empêcher le chargement de certains sous-répertoires (ce
que je voulais faire avec wget)
- il ne recrée pas l'arborescence du site, même après exportation ; c'est
donc vraiment un grand fourre-tout.

Olivier V


Normalement dans la fenètre de téléchargement, tu peux sélectionner le
filtre à appliquer en bas à gauche (il te propose les différents
répertoires en cours de téléchargement, et tu peux éditer toi-même le
filtre). Il est toujours possible en dernière extrémité de décocher/cocher
à la main les pages dans la file d'attente des pages à télécharger.

Pour le fourre-tout, il faut créer une arborescence de répertoire à
l'intérieur du scapbook dans laquelle on range/classe le site aspiré. Par
contre la consultation doit toujours se faire au travers de
firefox/scrapbook et non pas par un explorateur de fichier. C'est une
habitude facile à prendre losque l'on accède souvent à internet et que l'on
a toujours le navigateur ouvert.

Les fonctions particulièrement intérressantes concerne le surlignage,
l'annotation des documents enregistrés, ainsi que les fonctions d'édition
et de fusion de plusieurs pages.

Luc


Avatar
Olivier V

Normalement dans la fenètre de téléchargement, tu peux sélectionner le
filtre à appliquer en bas à gauche (il te propose les différents
répertoires en cours de téléchargement, et tu peux éditer toi-même le
filtre).


Oui, on peut limiter par nom de domaine. Par contre on ne peut pas filtrer
les sous-répertoires du domaine : si on met profondeur 3, il prend tout ce
qui est à 3 de profondeur dans le domaine, et on ne peut pas interdire de
télécharger ce qui se trouve dans /domaine/machin par exemple.

Il est toujours possible en dernière extrémité de décocher/cocher
à la main les pages dans la file d'attente des pages à télécharger.


OK, mais ca devient fastidieux.

Pour le fourre-tout, il faut créer une arborescence de répertoire à
l'intérieur du scapbook dans laquelle on range/classe le site aspiré.


Pas vraiment. Lorsque j'aspire le site "mathadoc" j'ai un seul répertoire
mathadoc dans l'arborescence et dans
$home/.mozilla/firefox/qvvutuxg.default/ScrapBook/data/20060926114014.

Alors qu'avec wget ou khttrack l'arborescence réelle du site est recrée.

Par
contre la consultation doit toujours se faire au travers de
firefox/scrapbook et non pas par un explorateur de fichier.


J'ai pourtant réussi à exporter le tout (avec l'option exporter) et à ouvrir
sous konqueror.

Merci pour toutes les infos.

Olivier V

Avatar
Olivier V
J'ai réussi à faire une copie tout à fait correcte, en éditant la page
initiale.

Encore merci pour cette info.

Olivier V