patent fetcher: script pour télécharger des brevets
4 réponses
Julien SCORDIA
Bonjour à tous,
Je cherche à savoir à quelles adresses http essaient d'accéder les
programmes tournant sur ma machine.
Voilà le pourquoi: il existe un site répertoriant un grand nombre de
brevets:
Après avoir fait une recherche sur un brevet, on obtient une liste. Chaque
brevet peut être consulté au format pdr, mais page par page. Par exemple,
accédez à l'adresse:
Quand il y a 50 pages, c'est lourd.
L'idée est d'automatiser la tâche, afin de rapatrier l'ensemble des pages et
en faire un seul document.
Un Danois a proposé des choses il y a quelque temps:
Le problème est que l'adresse web du pdf n'apparaît pas de façon
transparente. Je ne sais pas trop comment m'y prendre pour trouver son
adresse. Apparemment, celle-ci est générée par du Javascript dans la page
web appelante.
Le plus simple serait donc de connaître cette adresse en sniffant les trames
envoyées à l'extérieur.
Je suis un utilisateur de base des réseaux, mes connaissances ne vont pas
au-delà de ce qui est nécessaire pour résoudre des petits pb sur mon ordi.
J'ai essayé tcpdump, mais celui-ci ne donne pas les adresses http exactes.
Comment faire? Quel utilitaire utiliser?
Merci d'avance,
Julien
--
A world without walls needs neither Windows nor Gates.
Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me permette de connaître à quelles adresses http essaient d'accéder des programmes sur ma machine. Et pas sous Windows ou autres... Bien sous Linux. Peut-être aurais-je pu faire un post croisé vers un autre groupe plus orienté réseau, c'est vrai. Mais en tout cas, il me semble que ce que je demande est bien en rapport avec Linux.
Cordialement, Julien -- A world without walls needs neither Windows nor Gates.
Thierry Boudet wrote:
On 2004-09-29, Julien SCORDIA <Nojulien_dot_scordia@free_._frspaM> wrote:
Merci d'avance,
quel rapport avec Linux ?
Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me
permette de connaître à quelles adresses http essaient d'accéder des
programmes sur ma machine.
Et pas sous Windows ou autres... Bien sous Linux.
Peut-être aurais-je pu faire un post croisé vers un autre groupe plus
orienté réseau, c'est vrai. Mais en tout cas, il me semble que ce que je
demande est bien en rapport avec Linux.
Cordialement,
Julien
--
A world without walls needs neither Windows nor Gates.
Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me permette de connaître à quelles adresses http essaient d'accéder des programmes sur ma machine. Et pas sous Windows ou autres... Bien sous Linux. Peut-être aurais-je pu faire un post croisé vers un autre groupe plus orienté réseau, c'est vrai. Mais en tout cas, il me semble que ce que je demande est bien en rapport avec Linux.
Cordialement, Julien -- A world without walls needs neither Windows nor Gates.
Thierry Boudet
On 2004-09-29, Julien SCORDIA wrote:
quel rapport avec Linux ?
Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me permette de connaître à quelles adresses http essaient d'accéder des programmes sur ma machine.
Bon, dans ce cas, ta demande est: quels sont les programmes qui essayent d'accéder au web dans ma machine ? _ou_ comment puis-je filtrer les accès web qui sortent de ma machine ? _ou_ "mon IE6 (ajour) se konnekt tou seul jé norton que fair ? lol ?"
Ben colle un squid, et 'tail -f' sur les logs...
Cordialement,
Ouah j'ai gagné un buzzword !
-- _/°< coin
On 2004-09-29, Julien SCORDIA <Nojulien_dot_scordia@free_._frspaM> wrote:
quel rapport avec Linux ?
Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me
permette de connaître à quelles adresses http essaient d'accéder des
programmes sur ma machine.
Bon, dans ce cas, ta demande est: quels sont les programmes
qui essayent d'accéder au web dans ma machine ? _ou_ comment
puis-je filtrer les accès web qui sortent de ma machine ? _ou_
"mon IE6 (ajour) se konnekt tou seul jé norton que fair ? lol ?"
Sauf erreur de ma part, le fait que je cherche un outil *sous Linux* qui me permette de connaître à quelles adresses http essaient d'accéder des programmes sur ma machine.
Bon, dans ce cas, ta demande est: quels sont les programmes qui essayent d'accéder au web dans ma machine ? _ou_ comment puis-je filtrer les accès web qui sortent de ma machine ? _ou_ "mon IE6 (ajour) se konnekt tou seul jé norton que fair ? lol ?"
Ben colle un squid, et 'tail -f' sur les logs...
Cordialement,
Ouah j'ai gagné un buzzword !
-- _/°< coin
Greg
Julien SCORDIA wrote:
Bonjour à tous,
Je cherche à savoir à quelles adresses http essaient d'accéder les programmes tournant sur ma machine. Voilà le pourquoi: il existe un site répertoriant un grand nombre de brevets:
Après avoir fait une recherche sur un brevet, on obtient une liste. Chaque brevet peut être consulté au format pdr, mais page par page. Par exemple, accédez à l'adresse:
Quand il y a 50 pages, c'est lourd. L'idée est d'automatiser la tâche, afin de rapatrier l'ensemble des pages et en faire un seul document. Un Danois a proposé des choses il y a quelque temps:
Le problème est que l'adresse web du pdf n'apparaît pas de façon transparente. Je ne sais pas trop comment m'y prendre pour trouver son adresse. Apparemment, celle-ci est générée par du Javascript dans la page web appelante. Le plus simple serait donc de connaître cette adresse en sniffant les trames envoyées à l'extérieur. Je suis un utilisateur de base des réseaux, mes connaissances ne vont pas au-delà de ce qui est nécessaire pour résoudre des petits pb sur mon ordi. J'ai essayé tcpdump, mais celui-ci ne donne pas les adresses http exactes. Comment faire? Quel utilitaire utiliser?
Merci d'avance,
Julien
Je ne connais pas trop perl, mais pourquoi ne pas utiliser un aspirateur de site (genre httrack : http://www.infos-du-net.com/modules/mydownloads/visit.php?lidX5 )
Ensuite tu peux filtrer les fichiers telechargés avec un shell (un grep bien senti puisqu'on ne peut pas différencier les pdf par leur extension)
liste_pdf=`find . -name "*" -print` for fic in $liste_pdf do test=`head -1 $fic | grep PDF` ... si test = rien alors pas un pdf sinon mv $fic /home/user/... finsi done
Julien SCORDIA wrote:
Bonjour à tous,
Je cherche à savoir à quelles adresses http essaient d'accéder les
programmes tournant sur ma machine.
Voilà le pourquoi: il existe un site répertoriant un grand nombre de
brevets:
Après avoir fait une recherche sur un brevet, on obtient une liste. Chaque
brevet peut être consulté au format pdr, mais page par page. Par exemple,
accédez à l'adresse:
Quand il y a 50 pages, c'est lourd.
L'idée est d'automatiser la tâche, afin de rapatrier l'ensemble des pages
et en faire un seul document.
Un Danois a proposé des choses il y a quelque temps:
Le problème est que l'adresse web du pdf n'apparaît pas de façon
transparente. Je ne sais pas trop comment m'y prendre pour trouver son
adresse. Apparemment, celle-ci est générée par du Javascript dans la page
web appelante.
Le plus simple serait donc de connaître cette adresse en sniffant les
trames envoyées à l'extérieur.
Je suis un utilisateur de base des réseaux, mes connaissances ne vont pas
au-delà de ce qui est nécessaire pour résoudre des petits pb sur mon ordi.
J'ai essayé tcpdump, mais celui-ci ne donne pas les adresses http exactes.
Comment faire? Quel utilitaire utiliser?
Merci d'avance,
Julien
Je ne connais pas trop perl, mais pourquoi ne pas utiliser un aspirateur de
site (genre httrack :
http://www.infos-du-net.com/modules/mydownloads/visit.php?lidX5 )
Ensuite tu peux filtrer les fichiers telechargés avec un shell (un grep bien
senti puisqu'on ne peut pas différencier les pdf par leur extension)
liste_pdf=`find . -name "*" -print`
for fic in $liste_pdf
do
test=`head -1 $fic | grep PDF`
...
si test = rien alors pas un pdf
sinon
mv $fic /home/user/...
finsi
done
Je cherche à savoir à quelles adresses http essaient d'accéder les programmes tournant sur ma machine. Voilà le pourquoi: il existe un site répertoriant un grand nombre de brevets:
Après avoir fait une recherche sur un brevet, on obtient une liste. Chaque brevet peut être consulté au format pdr, mais page par page. Par exemple, accédez à l'adresse:
Quand il y a 50 pages, c'est lourd. L'idée est d'automatiser la tâche, afin de rapatrier l'ensemble des pages et en faire un seul document. Un Danois a proposé des choses il y a quelque temps:
Le problème est que l'adresse web du pdf n'apparaît pas de façon transparente. Je ne sais pas trop comment m'y prendre pour trouver son adresse. Apparemment, celle-ci est générée par du Javascript dans la page web appelante. Le plus simple serait donc de connaître cette adresse en sniffant les trames envoyées à l'extérieur. Je suis un utilisateur de base des réseaux, mes connaissances ne vont pas au-delà de ce qui est nécessaire pour résoudre des petits pb sur mon ordi. J'ai essayé tcpdump, mais celui-ci ne donne pas les adresses http exactes. Comment faire? Quel utilitaire utiliser?
Merci d'avance,
Julien
Je ne connais pas trop perl, mais pourquoi ne pas utiliser un aspirateur de site (genre httrack : http://www.infos-du-net.com/modules/mydownloads/visit.php?lidX5 )
Ensuite tu peux filtrer les fichiers telechargés avec un shell (un grep bien senti puisqu'on ne peut pas différencier les pdf par leur extension)
liste_pdf=`find . -name "*" -print` for fic in $liste_pdf do test=`head -1 $fic | grep PDF` ... si test = rien alors pas un pdf sinon mv $fic /home/user/... finsi done