Problème d'encodage

Le
JJ. Rétorré
Bonjour,

Encore de nouvelles aventures.
Je récupère une assez grande quantité de documents composés
vraisemblablement sous Word ou équivalent en mode texte. Seulement les
caractères accentués apparaissent sous la forme "350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrais-je convertir
le document pour que les caractères accentués apparaissent classiquement
?

--
JJR
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Alain Ketterlin
Le #23948871
JJ. Rétorré
Je récupère une assez grande quantité de documents compos és
vraisemblablement sous Word ou équivalent en mode texte. Seulement l es
caractères accentués apparaissent sous la forme "350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrai s-je
convertir le document pour que les caractères accentués apparai ssent
classiquement ?



Si tu veux convertir le document, je te suggère iconv plutôt qu'e macs.

Si tu veux lire dans emacs avec le bon codage, alors

C-x RET r <le nom du codage> RET

(tu peux ensuite utiliser C-x RET f <le nom du codage> RET et la
prochaine sauvegarde utilisera le codage). Dans ce cas, le codage à
utiliser est sûrement cp1252-dos.

-- Alain.
JJ. Rétorré
Le #23949021
Alain Ketterlin
JJ. Rétorré
Je récupère une assez grande quantité de documents composés
vraisemblablement sous Word ou équivalent en mode texte. Seulement les
caractères accentués apparaissent sous la forme "350" pour un "è" et
tous les caractères accentués à l'avenant. Comment pourrais-je
convertir le document pour que les caractères accentués apparaissent
classiquement ?



Si tu veux convertir le document, je te suggère iconv plutôt qu'emacs.

Si tu veux lire dans emacs avec le bon codage, alors

C-x RET r <le nom du codage> RET

(tu peux ensuite utiliser C-x RET f <le nom du codage> RET et la
prochaine sauvegarde utilisera le codage). Dans ce cas, le codage à
utiliser est sûrement cp1252-dos.

-- Alain.



Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.
Je viens de voir que dans les documents initiaux, la commande
file -i
m'indique que certains sont charset=iso-8859-1 et d'autres
charset=unknown-8bit.
Si je fais un iconv -t iso-8859-1 sur un de mes fichiers unknown-8bit,
ça ne change rien, ils restent avec cet attribut.

Je vais essayer d'agir sur la source, et de persuader d'utiliser un vrai
éditeur.
En attendant, je fais une recherche et remplacement sur les caractères
qui m'ennuient, c'est un peu bourrin, mais il n'y a pas tant de
caractères accentués que ça en français.


--
JJR.
Lucas Levrel
Le #23951181
Le 9 novembre 2011, JJ. Rétorré a écrit :

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.



L'horreur. Grosse galère quand on a un mélange d'encodages ! Si tu peux,
découpe en tranches de source commune. Puis charge les tranches dans des
buffers séparés (emacs devrait deviner le bon encodage), et copie-recolle
les morceaux.

Je viens de voir que dans les documents initiaux, la commande
file -i
m'indique que certains sont charset=iso-8859-1 et d'autres
charset=unknown-8bit.
Si je fais un iconv -t iso-8859-1 sur un de mes fichiers unknown-8bit,
ça ne change rien, ils restent avec cet attribut.



Je suppose qu'iconv fait comme file, il ne reconnaît pas l'encodage de
départ (et pour cause), du coup il ne peut pas convertir.

Je vais essayer d'agir sur la source, et de persuader d'utiliser un vrai
éditeur.



À mon avis le problème est dans le mélange. Il faut surtout que la source
ne sauve pas son fichier s'il contient des caractères bizarres (genre l'È
à la place de l'é dû au mac-roman).

En attendant, je fais une recherche et remplacement sur les caractères
qui m'ennuient, c'est un peu bourrin, mais il n'y a pas tant de
caractères accentués que ça en français.



Peut-être qu'un spell-check ferait l'affaire ? (J'ignore comment il traite
les caractères non alphabétiques.)

--
LL
JJ. Rétorré
Le #23951621
Lucas Levrel
Le 9 novembre 2011, JJ. Rétorré a écrit :

Je n'y arrive pas. Mon document, c'est une concaténation de différents
documents, qui ne proviennent peut-être pas tous de la même source.



L'horreur. Grosse galère quand on a un mélange d'encodages ! Si tu
peux, découpe en tranches de source commune. Puis charge les tranches
dans des buffers séparés (emacs devrait deviner le bon encodage), et
copie-recolle les morceaux.



J'ai réglé l'affaire en perdant pas mal de temps, j'espère ne pas avoir
à régler un tel problème.


--
JJR.
Publicité
Poster une réponse
Anonyme