transformer du pdf en html ?

Le
unbewusst.sein
je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.

j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.

le document fait 706ko/188 pages

je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html>.
--
Une Bévue
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
h.sainct
Le #5540181
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...


--
Frédérique & Hervé Sainct, [fr,es,en,it]
Frédérique's initial is missing in front of the above address
l'initiale de Frédérique manque devant l'adresse email ci-dessus
unbewusst.sein
Le #5552071
Frédérique & Hervé Sainct
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...


ok, merci beaucoup, je peux me contenter d'un truc en ligne de commande.

pour l'instant, j'ai procédé à trois essais :

- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google
;

- Adobe, sur le convertisseur online ça n'a pas marché, par email si
mais il manque les images dans le résultat et la présentation est
nettement moins bonne que celle de Google ;

- deskUNPDF (version d'essai d'un produit commercial) semble correct
mais ne convertit qu'une page en "trial".

--
Une Bévue

Paul Gaborit
Le #5559751
À (at) Sun, 20 Apr 2008 15:40:49 +0200,
(Une Bévue) écrivait (wrote):
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google


Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).

--
Paul Gaborit -
unbewusst.sein
Le #5563811
Paul Gaborit

Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).


ok, merci pour l'info.

j'ai installé la v 4 de pdftohtml par MacPorts.

ça marche pas mal.
--
Une Bévue

Henripasdespammerci
Le #5563801
Une Bévue
je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.

j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.

le document fait 706ko/188 pages

je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :


On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html

Maintenant 188 pages ... pfou !

Henri


--
Henri Balmain
http://freenours.org

unbewusst.sein
Le #5570041
Henri Balmain

On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html

Maintenant 188 pages ... pfou !


effectivement "pfou !"

c'est fait (c'est la spec ECMA-262), c'est en ligne, "brut de fonderie"
donc simplement après :

$ sudo port install pdftohtml
blahblah...

puis :

$ pdftohtml -c -dev jpeg Ecma-262.pdf

ça donne :


je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
--
Une Bévue

laurent.pertois
Le #5775661
Une Bévue
je ne pige pas pourquoi il y a "Microsoft..." dans le titre...


Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.

--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.

unbewusst.sein
Le #5849371
Laurent Pertois

Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.


Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc

j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.

--
Une Bévue

Henripasdespammerci
Le #5849351
Une Bévue
Laurent Pertois

Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.


Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc

j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.


c'est facile à corriger ;-)

Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?

Henri

--
Henri Balmain
http://freenours.org


unbewusst.sein
Le #5868311
Henri Balmain
c'est facile à corriger ;-)

Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?


écoutes, le "man" est plutôt laconique...

je l'ai sous les yeux, non, il n'y a pas cette option, par contre tu
peux choisir, c'est ce que je suis en train de faire, de sortir le
document en xml, et là, ça doit-être manipulable avec xslt, amha...

c'est justement ce que je souhaite faire car la page d'index (enfin la
frame d'index) est bêbête, du genre :


etc

ce qui n'est pas très informatif ;-)

--
Une Bévue

Publicité
Poster une réponse
Anonyme