Sript bash, un peu d'aide... expressions réguliares?
3 réponses
tatane
bonjour,
J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.
Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.
si je fait :
grep -i ".pdf" * -R
je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?
Je pensais faire un pipe avec des expressions réguliaire mais je suis nul
avec les expressions réguliaires :(
C'est une bonne idée??
Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Sébastien Kirche
Le 11 novembre 2006 à 11:18, tatane vraute :
Merci de vos éventuelles solutions solutions (je ne veux pas tout le script)
Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait mieux s'y retrouver avec les documents appelés par du javascript (et même du java si je me souviens bien). En tout cas c'est un outil qui sert à ça. -- Sébastien Kirche
Le 11 novembre 2006 à 11:18, tatane vraute :
Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)
Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.
--
Sébastien Kirche
Merci de vos éventuelles solutions solutions (je ne veux pas tout le script)
Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait mieux s'y retrouver avec les documents appelés par du javascript (et même du java si je me souviens bien). En tout cas c'est un outil qui sert à ça. -- Sébastien Kirche
Michel Tatoute
tatane wrote:
bonjour,
J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site). Le problème c'est que je n'ai pas les resources du type pdf en local, car c'est du javascript.
Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages html du site préalablement aspiré contenant l'extention pdf pour me faire un script et aspirer ces resources manquantes.
si je fait : grep -i ".pdf" * -R
je retrouve toutes les lignes qui contiennent l'extention pdf. Comment extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande grep de ses lignes?
J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.
Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.
si je fait :
grep -i ".pdf" * -R
je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?
J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site). Le problème c'est que je n'ai pas les resources du type pdf en local, car c'est du javascript.
Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages html du site préalablement aspiré contenant l'extention pdf pour me faire un script et aspirer ces resources manquantes.
si je fait : grep -i ".pdf" * -R
je retrouve toutes les lignes qui contiennent l'extention pdf. Comment extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande grep de ses lignes?
Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:
Le 11 novembre 2006 à 11:18, tatane vraute :
Merci de vos éventuelles solutions solutions (je ne veux pas tout le script)
Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait mieux s'y retrouver avec les documents appelés par du javascript (et même du java si je me souviens bien). En tout cas c'est un outil qui sert à ça.
Merci, c'est génial comme logiciel je connaissais pas!
Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:
Le 11 novembre 2006 à 11:18, tatane vraute :
Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)
Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.
Merci, c'est génial comme logiciel je connaissais pas!
Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:
Le 11 novembre 2006 à 11:18, tatane vraute :
Merci de vos éventuelles solutions solutions (je ne veux pas tout le script)
Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait mieux s'y retrouver avec les documents appelés par du javascript (et même du java si je me souviens bien). En tout cas c'est un outil qui sert à ça.
Merci, c'est génial comme logiciel je connaissais pas!