OVH Cloud OVH Cloud

wget : suivre certains liens

2 réponses
Avatar
professeur Méphisto (Christian)
Bonsoir,

j'ai un fichier texte avec une liste d'URL que je souhaite aspirer avec
wget. Je souhaite récupérer des pages exploitables en local, alors j'ai
essayé :

wget --html-extension --page-requisites --convert-links
--input-file=./fichiers

ce qui me donne bien mes pages, mais...

ces pages contiennent des liens vers des fichiers pdf, sxw et zip que je
veux aussi récupérer.
Par contre, je ne veux pas suivre les liens vers d'autres pages html, je
ne veux que les pages de mon fichier.

Que dois-je rajouter à la ligne de commande ?

Merci
Christian

2 réponses

Avatar
Fabien LE LEZ
On Thu, 01 Dec 2005 22:27:23 +0100, professeur Méphisto (Christian)

:

Le domaine "wanadouille.fr" n'existant pas, merci de rajouter
".invalid" à la fin.

ces pages contiennent des liens vers des fichiers pdf, sxw et zip que je
veux aussi récupérer.
Par contre, je ne veux pas suivre les liens vers d'autres pages html, je
ne veux que les pages de mon fichier.



J'avoue que je n'ai pas de solution miracle à te proposer.
Tu peux néanmoins tenter avec "--recursive --level=1".
Avatar
professeur Méphisto (Christian)
Fabien LE LEZ a écrit :

J'avoue que je n'ai pas de solution miracle à te proposer. Tu peux
néanmoins tenter avec "--recursive --level=1".



merci, mais dans ce cas, ça marche pas : --recursive --level=1 revient
à récupérer tout le site, a cause d'un menu très développé sur
chaque page.

Par contre ajouter dans le fichier texte à la main les adresses des
fichiers sxw, zip etc. fonctionne bien, même si c'était un peu long...

Méphisto