OVH Cloud OVH Cloud

patent fetcher: script pour télécharger des brevets

4 réponses
Avatar
Julien SCORDIA
Bonjour à tous,

Je cherche à savoir à quelles adresses http essaient d'accéder les
programmes tournant sur ma machine.
Voilà le pourquoi: il existe un site répertoriant un grand nombre de
brevets:

http://ep.espacenet.com/search97cgi/s97_cgi.exe?Action=FormGen&Template=ep/EN/home.hts

Après avoir fait une recherche sur un brevet, on obtient une liste. Chaque
brevet peut être consulté au format pdr, mais page par page. Par exemple,
accédez à l'adresse:

http://v3.espacenet.com/pdfdoc?DB=EPODOC&IDX=FR2764847&F=0&QPN=FR2764847&PGN=2

Quand il y a 50 pages, c'est lourd.
L'idée est d'automatiser la tâche, afin de rapatrier l'ensemble des pages et
en faire un seul document.
Un Danois a proposé des choses il y a quelque temps:

http://www.sslug.dk/emailarkiv/perl/2001_12/msg00007.html

Il y a également ceci que j'ai pu trouver:

http://www.imc.org/idn/mail-archive/msg05379.html

Le problème est que l'adresse web du pdf n'apparaît pas de façon
transparente. Je ne sais pas trop comment m'y prendre pour trouver son
adresse. Apparemment, celle-ci est générée par du Javascript dans la page
web appelante.
Le plus simple serait donc de connaître cette adresse en sniffant les trames
envoyées à l'extérieur.
Je suis un utilisateur de base des réseaux, mes connaissances ne vont pas
au-delà de ce qui est nécessaire pour résoudre des petits pb sur mon ordi.
J'ai essayé tcpdump, mais celui-ci ne donne pas les adresses http exactes.
Comment faire? Quel utilitaire utiliser?

Merci d'avance,

Julien
--
A world without walls needs neither Windows nor Gates.

4 réponses

Avatar
Thierry Boudet
On 2004-09-29, Julien SCORDIA wrote:

Merci d'avance,

quel rapport avec Linux ?



--
_/°< FOUTOU !!!

Avatar
Julien SCORDIA
Thierry Boudet wrote:

On 2004-09-29, Julien SCORDIA wrote:

Merci d'avance,

quel rapport avec Linux ?



Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me
permette de connaître à quelles adresses http essaient d'accéder des
programmes sur ma machine.
Et pas sous Windows ou autres... Bien sous Linux.
Peut-être aurais-je pu faire un post croisé vers un autre groupe plus
orienté réseau, c'est vrai. Mais en tout cas, il me semble que ce que je
demande est bien en rapport avec Linux.

Cordialement,
Julien
--
A world without walls needs neither Windows nor Gates.


Avatar
Thierry Boudet
On 2004-09-29, Julien SCORDIA wrote:

quel rapport avec Linux ?



Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me
permette de connaître à quelles adresses http essaient d'accéder des
programmes sur ma machine.


Bon, dans ce cas, ta demande est: quels sont les programmes
qui essayent d'accéder au web dans ma machine ? _ou_ comment
puis-je filtrer les accès web qui sortent de ma machine ? _ou_
"mon IE6 (ajour) se konnekt tou seul jé norton que fair ? lol ?"

Ben colle un squid, et 'tail -f' sur les logs...

Cordialement,


Ouah j'ai gagné un buzzword !


--
_/°< coin



Avatar
Greg
Julien SCORDIA wrote:

Bonjour à tous,

Je cherche à savoir à quelles adresses http essaient d'accéder les
programmes tournant sur ma machine.
Voilà le pourquoi: il existe un site répertoriant un grand nombre de
brevets:


http://ep.espacenet.com/search97cgi/s97_cgi.exe?Action=FormGen&Template=ep/EN/home.hts


Après avoir fait une recherche sur un brevet, on obtient une liste. Chaque
brevet peut être consulté au format pdr, mais page par page. Par exemple,
accédez à l'adresse:


http://v3.espacenet.com/pdfdoc?DB=EPODOC&IDX=FR2764847&F=0&QPN=FR2764847&PGN=2


Quand il y a 50 pages, c'est lourd.
L'idée est d'automatiser la tâche, afin de rapatrier l'ensemble des pages
et en faire un seul document.
Un Danois a proposé des choses il y a quelque temps:

http://www.sslug.dk/emailarkiv/perl/2001_12/msg00007.html

Il y a également ceci que j'ai pu trouver:

http://www.imc.org/idn/mail-archive/msg05379.html

Le problème est que l'adresse web du pdf n'apparaît pas de façon
transparente. Je ne sais pas trop comment m'y prendre pour trouver son
adresse. Apparemment, celle-ci est générée par du Javascript dans la page
web appelante.
Le plus simple serait donc de connaître cette adresse en sniffant les
trames envoyées à l'extérieur.
Je suis un utilisateur de base des réseaux, mes connaissances ne vont pas
au-delà de ce qui est nécessaire pour résoudre des petits pb sur mon ordi.
J'ai essayé tcpdump, mais celui-ci ne donne pas les adresses http exactes.
Comment faire? Quel utilitaire utiliser?

Merci d'avance,

Julien


Je ne connais pas trop perl, mais pourquoi ne pas utiliser un aspirateur de
site (genre httrack :
http://www.infos-du-net.com/modules/mydownloads/visit.php?lidX5 )

Ensuite tu peux filtrer les fichiers telechargés avec un shell (un grep bien
senti puisqu'on ne peut pas différencier les pdf par leur extension)

liste_pdf=`find . -name "*" -print`
for fic in $liste_pdf
do
test=`head -1 $fic | grep PDF`
...
si test = rien alors pas un pdf
sinon
mv $fic /home/user/...
finsi
done