OVH Cloud OVH Cloud

Sript bash, un peu d'aide... expressions réguliares?

3 réponses
Avatar
tatane
bonjour,

J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.

Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.

si je fait :
grep -i ".pdf" * -R

je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?

Je pensais faire un pipe avec des expressions réguliaire mais je suis nul
avec les expressions réguliaires :(
C'est une bonne idée??

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)

Stéphane

3 réponses

Avatar
Sébastien Kirche
Le 11 novembre 2006 à 11:18, tatane vraute :

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)


Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.
--
Sébastien Kirche

Avatar
Michel Tatoute
tatane wrote:

bonjour,

J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.

Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.

si je fait :
grep -i ".pdf" * -R

je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?


genre :
$ grep -i ".pdf" * -R | tr '"'' 'n' | grep -i '.pdf'

Michel.

Avatar
tatane
Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:

Le 11 novembre 2006 à 11:18, tatane vraute :

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)


Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.


Merci, c'est génial comme logiciel je connaissais pas!