Caract

22 réponses

Lucas Levrel

02/10/2018 à 17:36

Bonjour,

Depuis quelques temps je reçois des fichiers – probablement produits sous
Windows ou Office online – où les lettres accentuées sont encodées
bizarrement, par exemple deux octets D0 92 pour é, ou D0 9A pour è. En
utf-8, D0 92 c'est « B majuscule cyrillique », mon système affiche B. En
point de code Unicode, c'est un idéogramme (syllabes Hangul)... Avez-vous
une idée du codage utilisé ?

--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)

2 réponses

1 2 3

Jo Engo

15/10/2018 à 10:33

Le Tue, 02 Oct 2018 17:36:42 +0200, Lucas Levrel a écrit :

Avez-vous une idée du codage utilisé ?

Un «petit» script avec iconv ?
à supposer que tu as la liste des codages possible, sinon il faudra te la
procurer :
while read codage do
if
echo accentu??|iconv -f $codage -t utf8|grep accentué # selon ta machine,
peut-être latin1 ou 9
then echo c'est $codage
endif
done
--
Le poids est un argument de poids.
-+- Noëlle, sur fr.rec.photo -+-

Olivier Miakinen

15/10/2018 à 11:08

Le 15/10/2018 10:33, Jo Engo a écrit :

Un «petit» script avec iconv ?

Lucas avait déjà essayé ça le 4 octobre dernier :
<news:
encguess donne utf-8. L'option -S m'a donné une idée : l'attaque
brute-force.
for enc in $(iconv -l) ; do iconv -f $enc -c -t utf-8 f.txt ; done |less
Rien trouvé...
</>
--
Olivier Miakinen

1 2 3

Caract

2 réponses

Veuillez sélectionner un problème