Problème d'encodage

4 réponses

JJ. Rétorré

09/11/2011 à 16:36

Bonjour,

Encore de nouvelles aventures.
Je récupère une assez grande quantité de documents composés
vraisemblablement sous Word ou équivalent en mode texte. Seulement les
caractères accentués apparaissent sous la forme "\350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrais-je convertir
le document pour que les caractères accentués apparaissent classiquement
?

--
JJR

4 réponses

Alain Ketterlin

09/11/2011 à 16:53

JJ. RÃ©torrÃ© <jj.r&torr&@gmail.com> writes:

Je rÃ©cupÃ¨re une assez grande quantitÃ© de documents compos Ã©s
vraisemblablement sous Word ou Ã©quivalent en mode texte. Seulement l es
caractÃ¨res accentuÃ©s apparaissent sous la forme "350" pour un "Ã¨" et
tous les caractÃ¨res accentuÃ©s Ã l'avenant. Comment pourrai s-je
convertir le document pour que les caractÃ¨res accentuÃ©s apparai ssent
classiquement ?

Si tu veux convertir le document, je te suggÃ¨re iconv plutÃ´t qu'e macs.

Si tu veux lire dans emacs avec le bon codage, alors

C-x RET r <le nom du codage> RET

(tu peux ensuite utiliser C-x RET f <le nom du codage> RET et la
prochaine sauvegarde utilisera le codage). Dans ce cas, le codage Ã
utiliser est sÃ»rement cp1252-dos.

-- Alain.

JJ. Rétorré

09/11/2011 à 17:50

Alain Ketterlin disait le 11/09/11 que :

JJ. Rétorré <jj.r&torr&@gmail.com> writes:

Je récupère une assez grande quantité de documents composés
vraisemblablement sous Word ou équivalent en mode texte. Seulement les
caractères accentués apparaissent sous la forme "350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrais-je
convertir le document pour que les caractères accentués apparaissent
classiquement ?

Si tu veux convertir le document, je te suggère iconv plutôt qu'emacs.

Si tu veux lire dans emacs avec le bon codage, alors

C-x RET r <le nom du codage> RET

(tu peux ensuite utiliser C-x RET f <le nom du codage> RET et la
prochaine sauvegarde utilisera le codage). Dans ce cas, le codage à
utiliser est sûrement cp1252-dos.

-- Alain.

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.
Je viens de voir que dans les documents initiaux, la commande
file -i
m'indique que certains sont charset=iso-8859-1 et d'autres
charset=unknown-8bit.
Si je fais un iconv -t iso-8859-1 sur un de mes fichiers unknown-8bit,
ça ne change rien, ils restent avec cet attribut.

Je vais essayer d'agir sur la source, et de persuader d'utiliser un vrai
éditeur.
En attendant, je fais une recherche et remplacement sur les caractères
qui m'ennuient, c'est un peu bourrin, mais il n'y a pas tant de
caractères accentués que ça en français.

--
JJR.

Lucas Levrel

10/11/2011 à 11:19

Le 9 novembre 2011, JJ. Rétorré a écrit :

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.

L'horreur. Grosse galère quand on a un mélange d'encodages ! Si tu peux,
découpe en tranches de source commune. Puis charge les tranches dans des
buffers séparés (emacs devrait deviner le bon encodage), et copie-recolle
les morceaux.

Je viens de voir que dans les documents initiaux, la commande
file -i
m'indique que certains sont charset=iso-8859-1 et d'autres
charset=unknown-8bit.
Si je fais un iconv -t iso-8859-1 sur un de mes fichiers unknown-8bit,
ça ne change rien, ils restent avec cet attribut.

Je suppose qu'iconv fait comme file, il ne reconnaît pas l'encodage de
départ (et pour cause), du coup il ne peut pas convertir.

Je vais essayer d'agir sur la source, et de persuader d'utiliser un vrai
éditeur.

À mon avis le problème est dans le mélange. Il faut surtout que la source
ne sauve pas son fichier s'il contient des caractères bizarres (genre l'È
à la place de l'é dû au mac-roman).

En attendant, je fais une recherche et remplacement sur les caractères
qui m'ennuient, c'est un peu bourrin, mais il n'y a pas tant de
caractères accentués que ça en français.

Peut-être qu'un spell-check ferait l'affaire ? (J'ignore comment il traite
les caractères non alphabétiques.)

--
LL

JJ. Rétorré

10/11/2011 à 14:04

Lucas Levrel disait le 11/10/11 que :

Le 9 novembre 2011, JJ. Rétorré a écrit :

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.

L'horreur. Grosse galère quand on a un mélange d'encodages ! Si tu
peux, découpe en tranches de source commune. Puis charge les tranches
dans des buffers séparés (emacs devrait deviner le bon encodage), et
copie-recolle les morceaux.

J'ai réglé l'affaire en perdant pas mal de temps, j'espère ne pas avoir
à régler un tel problème.

--
JJR.

Problème d'encodage

4 réponses

Veuillez sélectionner un problème