Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Problème d'encodage

4 réponses
Avatar
JJ. Rétorré
Bonjour,

Encore de nouvelles aventures.
Je récupère une assez grande quantité de documents composés
vraisemblablement sous Word ou équivalent en mode texte. Seulement les
caractères accentués apparaissent sous la forme "\350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrais-je convertir
le document pour que les caractères accentués apparaissent classiquement
?

--
JJR

4 réponses

Avatar
Alain Ketterlin
JJ. Rétorré <jj.r&torr&@gmail.com> writes:

Je récupère une assez grande quantité de documents compos és
vraisemblablement sous Word ou équivalent en mode texte. Seulement l es
caractères accentués apparaissent sous la forme "350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrai s-je
convertir le document pour que les caractères accentués apparai ssent
classiquement ?



Si tu veux convertir le document, je te suggère iconv plutôt qu'e macs.

Si tu veux lire dans emacs avec le bon codage, alors

C-x RET r <le nom du codage> RET

(tu peux ensuite utiliser C-x RET f <le nom du codage> RET et la
prochaine sauvegarde utilisera le codage). Dans ce cas, le codage à
utiliser est sûrement cp1252-dos.

-- Alain.
Avatar
JJ. Rétorré
Alain Ketterlin disait le 11/09/11 que :

JJ. Rétorré <jj.r&torr&@gmail.com> writes:

Je récupère une assez grande quantité de documents composés
vraisemblablement sous Word ou équivalent en mode texte. Seulement les
caractères accentués apparaissent sous la forme "350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrais-je
convertir le document pour que les caractères accentués apparaissent
classiquement ?



Si tu veux convertir le document, je te suggère iconv plutôt qu'emacs.

Si tu veux lire dans emacs avec le bon codage, alors

C-x RET r <le nom du codage> RET

(tu peux ensuite utiliser C-x RET f <le nom du codage> RET et la
prochaine sauvegarde utilisera le codage). Dans ce cas, le codage à
utiliser est sûrement cp1252-dos.

-- Alain.



Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.
Je viens de voir que dans les documents initiaux, la commande
file -i
m'indique que certains sont charset=iso-8859-1 et d'autres
charset=unknown-8bit.
Si je fais un iconv -t iso-8859-1 sur un de mes fichiers unknown-8bit,
ça ne change rien, ils restent avec cet attribut.

Je vais essayer d'agir sur la source, et de persuader d'utiliser un vrai
éditeur.
En attendant, je fais une recherche et remplacement sur les caractères
qui m'ennuient, c'est un peu bourrin, mais il n'y a pas tant de
caractères accentués que ça en français.


--
JJR.
Avatar
Lucas Levrel
Le 9 novembre 2011, JJ. Rétorré a écrit :

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.



L'horreur. Grosse galère quand on a un mélange d'encodages ! Si tu peux,
découpe en tranches de source commune. Puis charge les tranches dans des
buffers séparés (emacs devrait deviner le bon encodage), et copie-recolle
les morceaux.

Je viens de voir que dans les documents initiaux, la commande
file -i
m'indique que certains sont charset=iso-8859-1 et d'autres
charset=unknown-8bit.
Si je fais un iconv -t iso-8859-1 sur un de mes fichiers unknown-8bit,
ça ne change rien, ils restent avec cet attribut.



Je suppose qu'iconv fait comme file, il ne reconnaît pas l'encodage de
départ (et pour cause), du coup il ne peut pas convertir.

Je vais essayer d'agir sur la source, et de persuader d'utiliser un vrai
éditeur.



À mon avis le problème est dans le mélange. Il faut surtout que la source
ne sauve pas son fichier s'il contient des caractères bizarres (genre l'È
à la place de l'é dû au mac-roman).

En attendant, je fais une recherche et remplacement sur les caractères
qui m'ennuient, c'est un peu bourrin, mais il n'y a pas tant de
caractères accentués que ça en français.



Peut-être qu'un spell-check ferait l'affaire ? (J'ignore comment il traite
les caractères non alphabétiques.)

--
LL
Avatar
JJ. Rétorré
Lucas Levrel disait le 11/10/11 que :

Le 9 novembre 2011, JJ. Rétorré a écrit :

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.



L'horreur. Grosse galère quand on a un mélange d'encodages ! Si tu
peux, découpe en tranches de source commune. Puis charge les tranches
dans des buffers séparés (emacs devrait deviner le bon encodage), et
copie-recolle les morceaux.



J'ai réglé l'affaire en perdant pas mal de temps, j'espère ne pas avoir
à régler un tel problème.


--
JJR.