Sript bash, un peu d'aide... expressions réguliares?

3 réponses

tatane

11/11/2006 à 11:18

bonjour,

J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.

Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.

si je fait :
grep -i ".pdf" * -R

je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?

Je pensais faire un pipe avec des expressions réguliaire mais je suis nul
avec les expressions réguliaires :(
C'est une bonne idée??

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)

Stéphane

3 réponses

Sébastien Kirche

11/11/2006 à 12:19

Le 11 novembre 2006 à 11:18, tatane vraute :

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)

Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.
--
Sébastien Kirche

Michel Tatoute

11/11/2006 à 15:04

tatane wrote:

bonjour,

J'ai aspiré un site de mon boulot avec wget(wget -r -k -np -E site).
Le problème c'est que je n'ai pas les resources du type pdf en local, car
c'est du javascript.

Je voudrais sortir tous les chemins relatifs, absolues etc.. des pages
html du site préalablement aspiré contenant l'extention pdf pour me faire
un script et aspirer ces resources manquantes.

si je fait :
grep -i ".pdf" * -R

je retrouve toutes les lignes qui contiennent l'extention pdf. Comment
extraire, le chemin vers le pdf entre "" ou '' de la sortie de la commande
grep de ses lignes?

genre :
$ grep -i ".pdf" * -R | tr '"'' 'n' | grep -i '.pdf'

Michel.

tatane

12/11/2006 à 13:27

Le Sat, 11 Nov 2006 12:19:17 +0100, Sébastien Kirche a écrit:

Le 11 novembre 2006 à 11:18, tatane vraute :

Merci de vos éventuelles solutions solutions (je ne veux pas tout le
script)

Tu devrais regarder du côté de httrack pour aspirer ton site. Il devrait
mieux s'y retrouver avec les documents appelés par du javascript (et
même du java si je me souviens bien). En tout cas c'est un outil qui
sert à ça.

Merci, c'est génial comme logiciel je connaissais pas!

Sript bash, un peu d'aide... expressions réguliares?

3 réponses

Veuillez sélectionner un problème