Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Encodage d'une transcription de xpdf vers Libre-Office.

16 réponses
Avatar
capfree
Bonjour

Je me perds dans ce pb d'encodage pour la transcription d'un document de
xpdf vers Libre-Office.
Par quel bout prendre ce résultat?

«On dit que Léonard de Vinci, quand il s’apprêtait à peindre le»


Merci de votre aide

--
capfree

10 réponses

1 2
Avatar
Olivier Miakinen
On 14/10/2015 00:30, capfree wrote:
On dit que Léonard de Vinci, quand il s’apprêtait à peindre le



Visiblement, c'est de l'UTF-8 affiché comme si c'était du Latin1.

Voyons sur <http://hapax.qc.ca/conversion.fr.html>.

Léonard -> 4C C3 A9 6F 6E 61 72 64 -> Léonard

s’apprêtait -> 73 E2 80 99 61 70 70 72 C3 AA 74 61 69 74
-> s’apprêtait

à -> C3 -> (erreur)

Mais

à + espace insécable -> C3 A0 -> à
Avatar
capfree
Le 14/10/2015 01:28, Olivier Miakinen a écrit :
On 14/10/2015 00:30, capfree wrote:
On dit que Léonard de Vinci, quand il s’apprêtait à peindre le



Visiblement, c'est de l'UTF-8 affiché comme si c'était du Latin1.

Voyons sur <http://hapax.qc.ca/conversion.fr.html>.



J'ai exploré les liens en bas de page, je comprends (presque) le
principe d’Unicode, c'est une impasse pour moi.

Je penserais que la clé de mon pb me serait plus accessible dans la
configuration des éditeurs - là, de xpdf -> kate, ou Libre-Office - pour
influer sur leur choix, ou bien comment exporter, toutes notions
desquelles je ne suis pas fortiche non plus.
Si l'on pouvait me diriger dans ces directions, ce serait sympa.

Sinon un autre recours je tenterais la fonction bourrin
rechercher/remplacer.

Merci


Léonard -> 4C C3 A9 6F 6E 61 72 64 -> Léonard

s’apprêtait -> 73 E2 80 99 61 70 70 72 C3 AA 74 61 69 74
-> s’apprêtait

à -> C3 -> (erreur)

Mais

à + espace insécable -> C3 A0 -> à






--
capfree
Avatar
Olivier Miakinen
On 14/10/2015 10:54, capfree wrote:

Je penserais que la clé de mon pb me serait plus accessible dans la
configuration des éditeurs - là, de xpdf -> kate, ou Libre-Office - pour
influer sur leur choix, ou bien comment exporter, toutes notions
desquelles je ne suis pas fortiche non plus.
Si l'on pouvait me diriger dans ces directions, ce serait sympa.



Je n'utilise pas ces logiciels, mais en effet c'est probablement par
là qu'il faudrait chercher.

Mais lorsque tu écris que cela donne Léonard par exemple, je ne peux
pas savoir si dans le fichier Libre Office il est écrit « Léonard »
en UTF-8 et le logiciel croit que c'est du Latin1, ou bien s'il est
déjà écrit « Léonard » en UTF-8 (c'est-à-dire que le texte serait
sur-encodé). Si tu veux, tu peux m'envoyer un fichier source et un
fichier résultat à mon adresse, qui est valide, et je te dirai ce
qu'il en est.

Si tu en as les moyens, merci d'envoyer des fichiers les plus petits
possibles, par exemple avec juste le mot « Léonard » ou « Léonard ».

Sinon un autre recours je tenterais la fonction bourrin
rechercher/remplacer.



Je crois que le format PDF est binaire, donc ça va être difficile
d'agir dessus. Mais si comme je le pense le format de Libre Office
est du XML, tu peux essayer un coup d'iconv ou de recode dessus.
Par exemple :
iconv -f UTF-8 -t ISO-8859-1 fichier_foo > fichier_bar
Avatar
capfree
Le 14/10/2015 10:54, capfree a écrit :

J'ai exploré les liens en bas de page, je comprends (presque) le
principe d’Unicode, c'est une impasse pour moi.

Je penserais que la clé de mon pb me serait plus accessible dans la
configuration des éditeurs - là, de xpdf -> kate, ou Libre-Office - pour
influer sur leur choix, ou bien comment exporter, toutes notions
desquelles je ne suis pas fortiche non plus.
Si l'on pouvait me diriger dans ces directions, ce serait sympa.

Sinon un autre recours je tenterais la fonction bourrin
rechercher/remplacer.

Merci



J'ai oublié de dire que j'ai essayé d'enregistrer avec l'extension txt
sans meilleur résultat.

--
capfree
Avatar
Jean-Baptiste Faure
Le 14/10/2015 00:30, capfree a écrit :
Bonjour

Je me perds dans ce pb d'encodage pour la transcription d'un document de
xpdf vers Libre-Office.
Par quel bout prendre ce résultat?

«On dit que Léonard de Vinci, quand il s’apprêtait à peindre le»



Peux-tu mettre le pdf en téléchargement quelque part ? Cela permettrait
de tester.

Personnellement je n'ai jamais observé ce genre de problème en important
un pdf dans LibreOffice.

JBF


--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
Avatar
Jean-Baptiste Faure
Le 14/10/2015 11:22, Olivier Miakinen a écrit :
[...]
Je crois que le format PDF est binaire, donc ça va être difficile
d'agir dessus. Mais si comme je le pense le format de Libre Office
est du XML, tu peux essayer un coup d'iconv ou de recode dessus.



OpenDocument est un format basé sur xml, en fait c'est une archive ZIP
contenant une arborescence de dossiers avec des fichiers xml et images.

https://fr.wikipedia.org/wiki/OpenDocument#Description_du_format

JBF

--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
Avatar
Olivier Miakinen
Le 15/10/2015 09:55, Jean-Baptiste Faure m'a répondu :

Je crois que le format PDF est binaire, donc ça va être difficile
d'agir dessus. Mais si comme je le pense le format de Libre Office
est du XML, tu peux essayer un coup d'iconv ou de recode dessus.



OpenDocument est un format basé sur xml, en fait c'est une archive ZIP
contenant une arborescence de dossiers avec des fichiers xml et images.

https://fr.wikipedia.org/wiki/OpenDocument#Description_du_format



Donc un fichier au format OpenDocument peut contenir du binaire, ce
qui rend dangereuse l'idée d'y appliquer iconv.
Avatar
capfree
Le 15/10/2015 09:52, Jean-Baptiste Faure a écrit :
Le 14/10/2015 00:30, capfree a écrit :
Bonjour

Je me perds dans ce pb d'encodage pour la transcription d'un document de
xpdf vers Libre-Office.
Par quel bout prendre ce résultat?

«On dit que Léonard de Vinci, quand il s’apprêtait à peindre le»



Peux-tu mettre le pdf en téléchargement quelque part ? Cela permettrait
de tester.

Personnellement je n'ai jamais observé ce genre de problème en important
un pdf dans LibreOffice.

JBF





Bonjour

Voici le pdf d'origine, 1 MB, minable à imprimer :

http://tbf.me/a/6XBSo

Je viens de le recopier à l'aide de xpdf, à défaut je tenterais de
procéder par rechercher/remplacer.

Merci

--
capfree
Avatar
Jean-Baptiste Faure
Le 16/10/2015 04:08, capfree a écrit :
Le 15/10/2015 09:52, Jean-Baptiste Faure a écrit :
Le 14/10/2015 00:30, capfree a écrit :
Bonjour

Je me perds dans ce pb d'encodage pour la transcription d'un document de
xpdf vers Libre-Office.
Par quel bout prendre ce résultat?

«On dit que Léonard de Vinci, quand il s’apprêtait à peindre le»



Peux-tu mettre le pdf en téléchargement quelque part ? Cela permettrait
de tester.

Personnellement je n'ai jamais observé ce genre de problème en important
un pdf dans LibreOffice.

JBF





Bonjour

Voici le pdf d'origine, 1 MB, minable à imprimer :

http://tbf.me/a/6XBSo



Aucun problème d'encodage quand j'importe ce fichier avec LibreOffice
5.0 sous Ubuntu 15.04. Les seuls défauts que je vois concernent la
longueur des lignes qui sortent de la page mais ça provient d'une police
de caractères qui n'est pas installée sur ma machine (Franklin Gothic
Medium).

Quelle version de LibreOffice utilises-tu ?

Remarque : le nom de LibreOffice s'écrit en un seul mot.

JBF

--
Seuls des formats ouverts peuvent assurer la pérennité de vos documents
Avatar
Lucas Levrel
Le 16 octobre 2015, capfree a écrit :
Le 14/10/2015 00:30, capfree a écrit :
>
> Je me perds dans ce pb d'encodage pour la transcription d'un document de
> xpdf vers Libre-Office.
> Par quel bout prendre ce résultat?
>
> «On dit que Léonard de Vinci, quand il sâ??apprêtait à peindre le»



Voici le pdf d'origine, 1 MB, minable à imprimer :

http://tbf.me/a/6XBSo

Je viens de le recopier à l'aide de xpdf, à défaut je tenterais de procéder
par rechercher/remplacer.



Tu ne nous as expliqué ni ce que tu souhaites faire, ni comment tu essaies
de le faire. Du coup tu cumules les syndromes « boule de cristal en
panne » et XYZ. Bref, pas facile de t'aider !

On peut vouloir transcrire un document d'un format à un autre. Mais tu
cites des logiciels au lieu de formats. De plus tu parles de recopier avec
xpdf, mais xpdf ne permet pas de « recopier » dans le sens où je comprends
ce verbe.

Malgré tout j'ai essayé les manips suivantes qui marchent toutes (pas de
problème d'encodage) :
1) ouverture du PDF dans xpdf, lancement de LO Writer, sélection
rectangulaire du premier paragraphe dans xpdf, clic milieu dans la page
Writer => le paragraphe est copié correctement
2) ouverture du PDF dans evince, sélection textuelle du premier
paragraphe, clic milieu dans LO => idem
3) ouverture du PDF avec LO => il s'ouvre sans problème dans Draw (mais
c'est long)

En bref, et pour rester dans la veine de ton doc : aide-toi et le ciel^W
groupe t'aidera !

--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)
1 2