Depuis quelques temps je reçois des fichiers – probablement produits sous
Windows ou Office online – où les lettres accentuées sont encodées
bizarrement, par exemple deux octets D0 92 pour é, ou D0 9A pour è. En
utf-8, D0 92 c'est « B majuscule cyrillique », mon système affiche B. En
point de code Unicode, c'est un idéogramme (syllabes Hangul)... Avez-vous
une idée du codage utilisé ?
--
LL
Ἕν οἶδα ὅτι οὐδὲν οἶδα (Σωκράτης)
C'est mieux avé les accents (F. Patte)
Le Tue, 02 Oct 2018 17:36:42 +0200, Lucas Levrel a écrit :
Avez-vous une idée du codage utilisé ?
Un «petit» script avec iconv ? à supposer que tu as la liste des codages possible, sinon il faudra te la procurer : while read codage do if echo accentu??|iconv -f $codage -t utf8|grep accentué # selon ta machine, peut-être latin1 ou 9 then echo c'est $codage endif done -- Le poids est un argument de poids. -+- Noëlle, sur fr.rec.photo -+-
Le Tue, 02 Oct 2018 17:36:42 +0200, Lucas Levrel a écrit :
Avez-vous une idée du codage utilisé ?
Un «petit» script avec iconv ?
à supposer que tu as la liste des codages possible, sinon il faudra te la
procurer :
while read codage do
if
echo accentu??|iconv -f $codage -t utf8|grep accentué # selon ta machine,
peut-être latin1 ou 9
then echo c'est $codage
endif
done
--
Le poids est un argument de poids.
-+- Noëlle, sur fr.rec.photo -+-
Le Tue, 02 Oct 2018 17:36:42 +0200, Lucas Levrel a écrit :
Avez-vous une idée du codage utilisé ?
Un «petit» script avec iconv ? à supposer que tu as la liste des codages possible, sinon il faudra te la procurer : while read codage do if echo accentu??|iconv -f $codage -t utf8|grep accentué # selon ta machine, peut-être latin1 ou 9 then echo c'est $codage endif done -- Le poids est un argument de poids. -+- Noëlle, sur fr.rec.photo -+-
Olivier Miakinen
Le 15/10/2018 10:33, Jo Engo a écrit :
Un «petit» script avec iconv ?
Lucas avait déjà essayé ça le 4 octobre dernier : <news: encguess donne utf-8. L'option -S m'a donné une idée : l'attaque brute-force. for enc in $(iconv -l) ; do iconv -f $enc -c -t utf-8 f.txt ; done |less Rien trouvé... </> -- Olivier Miakinen
Lucas avait déjà essayé ça le 4 octobre dernier : <news: encguess donne utf-8. L'option -S m'a donné une idée : l'attaque brute-force. for enc in $(iconv -l) ; do iconv -f $enc -c -t utf-8 f.txt ; done |less Rien trouvé... </> -- Olivier Miakinen