je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.
j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.
le document fait 706ko/188 pages
je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html>.
--
Une Bévue
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge; je ne sais pas s'il y a une version osx toute compilée...
-- Frédérique & Hervé Sainct, [fr,es,en,it] Frédérique's initial is missing in front of the above address l'initiale de Frédérique manque devant l'adresse email ci-dessus
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...
--
Frédérique & Hervé Sainct, h.sainct@laposte.net [fr,es,en,it]
Frédérique's initial is missing in front of the above address
l'initiale de Frédérique manque devant l'adresse email ci-dessus
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge; je ne sais pas s'il y a une version osx toute compilée...
-- Frédérique & Hervé Sainct, [fr,es,en,it] Frédérique's initial is missing in front of the above address l'initiale de Frédérique manque devant l'adresse email ci-dessus
unbewusst.sein
Frédérique & Hervé Sainct wrote:
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge; je ne sais pas s'il y a une version osx toute compilée...
ok, merci beaucoup, je peux me contenter d'un truc en ligne de commande.
pour l'instant, j'ai procédé à trois essais :
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier attaché d'un email et, à la réception, demander à la visualiser en html. manque de pot, celui que je voulait convertir est trop lourd pour Google ;
- Adobe, sur le convertisseur online ça n'a pas marché, par email si mais il manque les images dans le résultat et la présentation est nettement moins bonne que celle de Google ;
- deskUNPDF (version d'essai d'un produit commercial) semble correct mais ne convertit qu'une page en "trial".
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge;
je ne sais pas s'il y a une version osx toute compilée...
ok, merci beaucoup, je peux me contenter d'un truc en ligne de commande.
pour l'instant, j'ai procédé à trois essais :
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google
;
- Adobe, sur le convertisseur online ça n'a pas marché, par email si
mais il manque les images dans le résultat et la présentation est
nettement moins bonne que celle de Google ;
- deskUNPDF (version d'essai d'un produit commercial) semble correct
mais ne convertit qu'une page en "trial".
il y a un projet unix GNU nommé pdftohtml qui fait ça sur sourceforge; je ne sais pas s'il y a une version osx toute compilée...
ok, merci beaucoup, je peux me contenter d'un truc en ligne de commande.
pour l'instant, j'ai procédé à trois essais :
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier attaché d'un email et, à la réception, demander à la visualiser en html. manque de pot, celui que je voulait convertir est trop lourd pour Google ;
- Adobe, sur le convertisseur online ça n'a pas marché, par email si mais il manque les images dans le résultat et la présentation est nettement moins bonne que celle de Google ;
- deskUNPDF (version d'essai d'un produit commercial) semble correct mais ne convertit qu'une page en "trial".
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier attaché d'un email et, à la réception, demander à la visualiser en html. manque de pot, celui que je voulait convertir est trop lourd pour Google
Il existe des outils permettant d'extraire une ou plusieurs pages d'un fichier PDF (pdftk ou le package 'pdfpages' de TeX).
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier
attaché d'un email et, à la réception, demander à la visualiser en html.
manque de pot, celui que je voulait convertir est trop lourd pour Google
Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).
--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
- Google : il faut s'envoyer à soi-même le fichier pdf en fichier attaché d'un email et, à la réception, demander à la visualiser en html. manque de pot, celui que je voulait convertir est trop lourd pour Google
Il existe des outils permettant d'extraire une ou plusieurs pages d'un fichier PDF (pdftk ou le package 'pdfpages' de TeX).
-- Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
unbewusst.sein
Paul Gaborit wrote:
Il existe des outils permettant d'extraire une ou plusieurs pages d'un fichier PDF (pdftk ou le package 'pdfpages' de TeX).
ok, merci pour l'info.
j'ai installé la v 4 de pdftohtml par MacPorts.
ça marche pas mal. -- Une Bévue
Paul Gaborit <Paul.Gaborit@invalid.invalid> wrote:
Il existe des outils permettant d'extraire une ou plusieurs pages d'un
fichier PDF (pdftk ou le package 'pdfpages' de TeX).
Il existe des outils permettant d'extraire une ou plusieurs pages d'un fichier PDF (pdftk ou le package 'pdfpages' de TeX).
ok, merci pour l'info.
j'ai installé la v 4 de pdftohtml par MacPorts.
ça marche pas mal. -- Une Bévue
Henripasdespammerci
Une Bévue wrote:
je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien hypertexte en html.
j'ai essayé par google qui a jugé que : Impossible d'afficher l'intégralité de la pièce jointe, car le fichier est trop volumineux.
le document fait 706ko/188 pages
je cherche donc un outil pour le convertir en html, voire xml, le but étant d'en faire un "panel" pour firefox et/ou opera comme sur : <http://people.opera.com/rijk/panels/panelizer.html>.
On peut faire ça en deux temps - convertir le PDF en texte via n'importe quel logiciel d'OCR - convertir le fichier texte obtenu en fichier html
Maintenant 188 pages ... pfou !
Henri
-- Henri Balmain http://freenours.org
Une Bévue <unbewusst.sein@weltanschauung.com.invalid> wrote:
je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien
hypertexte en html.
j'ai essayé par google qui a jugé que :
Impossible d'afficher l'intégralité de la pièce jointe, car le fichier
est trop volumineux.
le document fait 706ko/188 pages
je cherche donc un outil pour le convertir en html, voire xml, le but
étant d'en faire un "panel" pour firefox et/ou opera comme sur :
<http://people.opera.com/rijk/panels/panelizer.html>.
On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html
je souhaite transformer le document "Ecma-262.pdf", qui n'a pas de lien hypertexte en html.
j'ai essayé par google qui a jugé que : Impossible d'afficher l'intégralité de la pièce jointe, car le fichier est trop volumineux.
le document fait 706ko/188 pages
je cherche donc un outil pour le convertir en html, voire xml, le but étant d'en faire un "panel" pour firefox et/ou opera comme sur : <http://people.opera.com/rijk/panels/panelizer.html>.
On peut faire ça en deux temps - convertir le PDF en texte via n'importe quel logiciel d'OCR - convertir le fichier texte obtenu en fichier html
Maintenant 188 pages ... pfou !
Henri
-- Henri Balmain http://freenours.org
unbewusst.sein
Henri Balmain wrote:
On peut faire ça en deux temps - convertir le PDF en texte via n'importe quel logiciel d'OCR - convertir le fichier texte obtenu en fichier html
Maintenant 188 pages ... pfou !
effectivement "pfou !"
c'est fait (c'est la spec ECMA-262), c'est en ligne, "brut de fonderie" donc simplement après :
$ sudo port install pdftohtml blahblah...
puis :
$ pdftohtml -c -dev jpeg Ecma-262.pdf
ça donne :
<http://thoraval.yvon.free.fr/ECMA-262/>
je ne pige pas pourquoi il y a "Microsoft..." dans le titre... -- Une Bévue
Henri Balmain <Henripasdespammerci@freenours.org> wrote:
On peut faire ça en deux temps
- convertir le PDF en texte via n'importe quel logiciel d'OCR
- convertir le fichier texte obtenu en fichier html
Maintenant 188 pages ... pfou !
effectivement "pfou !"
c'est fait (c'est la spec ECMA-262), c'est en ligne, "brut de fonderie"
donc simplement après :
$ sudo port install pdftohtml
blahblah...
puis :
$ pdftohtml -c -dev jpeg Ecma-262.pdf
ça donne :
<http://thoraval.yvon.free.fr/ECMA-262/>
je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
--
Une Bévue
On peut faire ça en deux temps - convertir le PDF en texte via n'importe quel logiciel d'OCR - convertir le fichier texte obtenu en fichier html
Maintenant 188 pages ... pfou !
effectivement "pfou !"
c'est fait (c'est la spec ECMA-262), c'est en ligne, "brut de fonderie" donc simplement après :
$ sudo port install pdftohtml blahblah...
puis :
$ pdftohtml -c -dev jpeg Ecma-262.pdf
ça donne :
<http://thoraval.yvon.free.fr/ECMA-262/>
je ne pige pas pourquoi il y a "Microsoft..." dans le titre... -- Une Bévue
laurent.pertois
Une Bévue wrote:
je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
Certainement que le document a été écrit dans Word et que lors de la transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
-- Politically Correct Unix - UTILITIES The "touch" command has been removed from the standard distribution due to its inappropriate use by high-level managers.
Une Bévue <unbewusst.sein@weltanschauung.com.invalid> wrote:
je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.
je ne pige pas pourquoi il y a "Microsoft..." dans le titre...
Certainement que le document a été écrit dans Word et que lors de la transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
-- Politically Correct Unix - UTILITIES The "touch" command has been removed from the standard distribution due to its inappropriate use by high-level managers.
unbewusst.sein
Laurent Pertois wrote:
Certainement que le document a été écrit dans Word et que lors de la transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
Oui effectivement, c'est exactement le même texte : Titre Microsoft Word - Ecma-262.doc
j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique) laisser microsoft dans un titre.
Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc
j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.
Certainement que le document a été écrit dans Word et que lors de la transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
Oui effectivement, c'est exactement le même texte : Titre Microsoft Word - Ecma-262.doc
j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique) laisser microsoft dans un titre.
-- Une Bévue
Henripasdespammerci
Une Bévue wrote:
Laurent Pertois wrote:
Certainement que le document a été écrit dans Word et que lors de la transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
Oui effectivement, c'est exactement le même texte : Titre Microsoft Word - Ecma-262.doc
j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique) laisser microsoft dans un titre.
c'est facile à corriger ;-)
Par contre il n'y aurait pas une petite option dans pdftohtml pour choisir un autre titre pour la page générée ?
Henri
-- Henri Balmain http://freenours.org
Une Bévue <unbewusst.sein@weltanschauung.com.invalid> wrote:
Certainement que le document a été écrit dans Word et que lors de la
transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview
et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
Oui effectivement, c'est exactement le même texte :
Titre Microsoft Word - Ecma-262.doc
j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique)
laisser microsoft dans un titre.
c'est facile à corriger ;-)
Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?
Certainement que le document a été écrit dans Word et que lors de la transformation en PDF l'info a été conservée. Ouvre le PDF dans Preview et affiche l'inspecteur, dans un des onglets tu auras ce genre d'infos.
Oui effectivement, c'est exactement le même texte : Titre Microsoft Word - Ecma-262.doc
j'avoue ne pas comprendre qu'on puisse (en dehors du détail technique) laisser microsoft dans un titre.
c'est facile à corriger ;-)
Par contre il n'y aurait pas une petite option dans pdftohtml pour choisir un autre titre pour la page générée ?
Henri
-- Henri Balmain http://freenours.org
unbewusst.sein
Henri Balmain wrote:
c'est facile à corriger ;-)
Par contre il n'y aurait pas une petite option dans pdftohtml pour choisir un autre titre pour la page générée ?
écoutes, le "man" est plutôt laconique...
je l'ai sous les yeux, non, il n'y a pas cette option, par contre tu peux choisir, c'est ce que je suis en train de faire, de sortir le document en xml, et là, ça doit-être manipulable avec xslt, amha...
c'est justement ce que je souhaite faire car la page d'index (enfin la frame d'index) est bêbête, du genre :
Henri Balmain <Henripasdespammerci@freenours.org> wrote:
c'est facile à corriger ;-)
Par contre il n'y aurait pas une petite option dans pdftohtml pour
choisir un autre titre pour la page générée ?
écoutes, le "man" est plutôt laconique...
je l'ai sous les yeux, non, il n'y a pas cette option, par contre tu
peux choisir, c'est ce que je suis en train de faire, de sortir le
document en xml, et là, ça doit-être manipulable avec xslt, amha...
c'est justement ce que je souhaite faire car la page d'index (enfin la
frame d'index) est bêbête, du genre :
Par contre il n'y aurait pas une petite option dans pdftohtml pour choisir un autre titre pour la page générée ?
écoutes, le "man" est plutôt laconique...
je l'ai sous les yeux, non, il n'y a pas cette option, par contre tu peux choisir, c'est ce que je suis en train de faire, de sortir le document en xml, et là, ça doit-être manipulable avec xslt, amha...
c'est justement ce que je souhaite faire car la page d'index (enfin la frame d'index) est bêbête, du genre :