Encodage d'une transcription de xpdf vers Libre-Office.
Le
capfree

Bonjour
Je me perds dans ce pb d'encodage pour la transcription d'un document de
xpdf vers Libre-Office.
Par quel bout prendre ce résultat?
«On dit que Léonard de Vinci, quand il sâapprêtait à peindre le»
Merci de votre aide
--
capfree
Je me perds dans ce pb d'encodage pour la transcription d'un document de
xpdf vers Libre-Office.
Par quel bout prendre ce résultat?
«On dit que Léonard de Vinci, quand il sâapprêtait à peindre le»
Merci de votre aide
--
capfree
Visiblement, c'est de l'UTF-8 affiché comme si c'était du Latin1.
Voyons sur
Léonard -> 4C C3 A9 6F 6E 61 72 64 -> Léonard
sâapprêtait -> 73 E2 80 99 61 70 70 72 C3 AA 74 61 69 74
-> s’apprêtait
à -> C3 -> (erreur)
Mais
à + espace insécable -> C3 A0 -> à
J'ai exploré les liens en bas de page, je comprends (presque) le
principe d’Unicode, c'est une impasse pour moi.
Je penserais que la clé de mon pb me serait plus accessible dans la
configuration des éditeurs - là, de xpdf -> kate, ou Libre-Office - pour
influer sur leur choix, ou bien comment exporter, toutes notions
desquelles je ne suis pas fortiche non plus.
Si l'on pouvait me diriger dans ces directions, ce serait sympa.
Sinon un autre recours je tenterais la fonction bourrin
rechercher/remplacer.
Merci
--
capfree
Je n'utilise pas ces logiciels, mais en effet c'est probablement par
là qu'il faudrait chercher.
Mais lorsque tu écris que cela donne Léonard par exemple, je ne peux
pas savoir si dans le fichier Libre Office il est écrit « Léonard »
en UTF-8 et le logiciel croit que c'est du Latin1, ou bien s'il est
déjà écrit « Léonard » en UTF-8 (c'est-à-dire que le texte serait
sur-encodé). Si tu veux, tu peux m'envoyer un fichier source et un
fichier résultat à mon adresse, qui est valide, et je te dirai ce
qu'il en est.
Si tu en as les moyens, merci d'envoyer des fichiers les plus petits
possibles, par exemple avec juste le mot « Léonard » ou « Léonard ».
Je crois que le format PDF est binaire, donc ça va être difficile
d'agir dessus. Mais si comme je le pense le format de Libre Office
est du XML, tu peux essayer un coup d'iconv ou de recode dessus.
Par exemple :
iconv -f UTF-8 -t ISO-8859-1 fichier_foo > fichier_bar
J'ai oublié de dire que j'ai essayé d'enregistrer avec l'extension txt
sans meilleur résultat.
--
capfree
Peux-tu mettre le pdf en téléchargement quelque part ? Cela permettrait
de tester.
Personnellement je n'ai jamais observé ce genre de problème en important
un pdf dans LibreOffice.
JBF
--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
OpenDocument est un format basé sur xml, en fait c'est une archive ZIP
contenant une arborescence de dossiers avec des fichiers xml et images.
https://fr.wikipedia.org/wiki/OpenDocument#Description_du_format
JBF
--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
Donc un fichier au format OpenDocument peut contenir du binaire, ce
qui rend dangereuse l'idée d'y appliquer iconv.
Bonjour
Voici le pdf d'origine, 1 MB, minable à imprimer :
http://tbf.me/a/6XBSo
Je viens de le recopier à l'aide de xpdf, à défaut je tenterais de
procéder par rechercher/remplacer.
Merci
--
capfree
Aucun problème d'encodage quand j'importe ce fichier avec LibreOffice
5.0 sous Ubuntu 15.04. Les seuls défauts que je vois concernent la
longueur des lignes qui sortent de la page mais ça provient d'une police
de caractères qui n'est pas installée sur ma machine (Franklin Gothic
Medium).
Quelle version de LibreOffice utilises-tu ?
Remarque : le nom de LibreOffice s'écrit en un seul mot.
JBF
--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
Tu ne nous as expliqué ni ce que tu souhaites faire, ni comment tu essaies
de le faire. Du coup tu cumules les syndromes « boule de cristal en
panne » et XYZ. Bref, pas facile de t'aider !
On peut vouloir transcrire un document d'un format à un autre. Mais tu
cites des logiciels au lieu de formats. De plus tu parles de recopier avec
xpdf, mais xpdf ne permet pas de « recopier » dans le sens où je comprends
ce verbe.
Malgré tout j'ai essayé les manips suivantes qui marchent toutes (pas de
problème d'encodage) :
1) ouverture du PDF dans xpdf, lancement de LO Writer, sélection
rectangulaire du premier paragraphe dans xpdf, clic milieu dans la page
Writer => le paragraphe est copié correctement
2) ouverture du PDF dans evince, sélection textuelle du premier
paragraphe, clic milieu dans LO => idem
3) ouverture du PDF avec LO => il s'ouvre sans problème dans Draw (mais
c'est long)
En bref, et pour rester dans la veine de ton doc : aide-toi et le ciel^W
groupe t'aidera !
--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)