panachage d'unicode et iso

Xavier Roche

06/06/2011 à 20:05

Le 06/06/2011 18:04, Herve Autret a écrit :

Avant de me pencher sur le code de la libiconv, pour voir si l'ajout de
l'option "verbatim" est réalisable sans y passer trop de temps,
j'aimerais savoir si quelqu'un connaît une solution pratique au problème
du mélange d'encodages ?

Ce problème se résout assez bien en décodant le fichier en UTF-8, et, en
cas d'erreur de décodage, en crachant les caractères en erreur en
effectuant une conversion ISO-8859-1 vers UTF-8 (en fait je dirais même
plus: du "dérivé" WINDOWS-1252 vers UTF-8; car on rencontre pas mal de
cochonneries venant de texte produit par Word et ses amis, notamment sur
le Web, mais ce n'est peut être pas utile dans votre cas)

Expérimentalement, je n'ai jamais rencontré de cas où existerait une
ambigüité (càd. plusieurs caractères Latin-1 qui serait pris pour un
caractère UTF-8) ; le standard UTF-8 est là encore remarquablement bien
foutu.

Après, je pense que cette fonction n'est en effet pas disponible en
standard dans icon et ses amis.. cela vaut presque le coup de réécrire
50 lignes de C pour ça, plutôt que d'essayer de patcher une
fonctionnalité exotique amha.

Yannick Duchêne (Hibou57)

07/06/2011 à 06:41

Bonjour,

Le Mon, 06 Jun 2011 18:04:38 +0200, Herve Autret a
Ã©crit:

Avant de me pencher sur le code de la libiconv, pour voir si l'ajout d e
l'option "verbatim" est rÃ©alisable sans y passer trop de temps,
j'aimerais savoir si quelqu'un connaÃ®t une solution pratique au p roblÃ¨me
du mÃ©lange d'encodages ?

La solution que jâimaginerais, serait de traiter le flux Ã la recherche
dâoctets de la forme 10xxxxxx, et ainsi de dÃ©tecter les car actÃ¨res encodÃ©s
en UTF-8 (le dÃ©but du caractÃ¨re se trouve alors au prÃ©cÃ ©dent 0xxxxxxx ou
110xxxxx ou 1110xxxx ou 11110xxx); les autres seraient soit en ASCII 7
bits (qui de toute maniÃ¨re ne peut pas Ãªtre distinguer de lâ UTF-8 ni de
lâISO 8859-1), et les autres encore enfin â ni ASCII ni UTF-8, seraient
des caractÃ¨res ISO 8859-1 (ou supposÃ© lâÃªtreâ ¦ une petite heuristique basÃ©
sur les pages de code probables pourrait Ãªtre utile dans le pire de s cas).

Sinon Ã part Ã§a, je ne connais pas les sources de âlib iconvâ, je ne peux
donc pas me prononcer Ã ce sujet.

Bonne journÃ©e

-- Yannick DuchÃªne

--
âSyntactic sugar causes cancer of the semi-colons.â [Ep igrams on
Programming â Alan J. â P. Yale University]
âStructured Programming supports the law of the excluded muddle. â [Idem]
âc++; /* this makes c bigger but returns the old value */â [Anonymous]

Yannick Duchêne (Hibou57)

07/06/2011 à 06:44

Bonjour,

Le Mon, 06 Jun 2011 18:04:38 +0200, Herve Autret a
Ã©crit:

Avant de me pencher sur le code de la libiconv, pour voir si l'ajout d e
l'option "verbatim" est rÃ©alisable sans y passer trop de temps,
j'aimerais savoir si quelqu'un connaÃ®t une solution pratique au p roblÃ¨me
du mÃ©lange d'encodages ?

La solution que jâimaginerais, serait de traiter le flux Ã la recherche
dâoctets de la forme 10xxxxxx, et ainsi de dÃ©tecter les car actÃ¨res encodÃ©s
en UTF-8 (le dÃ©but du caractÃ¨re se trouve alors au prÃ©cÃ ©dent 0xxxxxxx ou
110xxxxx ou 1110xxxx ou 11110xxx); les autres seraient soit en ASCII 7
bits (qui de toute maniÃ¨re ne peut pas Ãªtre distinguer de lâ UTF-8 ni de
lâISO 8859-1), et les autres encore enfin â ni ASCII ni UTF-8, seraient
des caractÃ¨res ISO 8859-1 (ou supposÃ© lâÃªtreâ ¦ une petite heuristique basÃ©
sur les pages de code probables pourrait Ãªtre utile dans le pire de s cas).

Sinon Ã part Ã§a, je ne connais pas les sources de âlib iconvâ, je ne peux
donc pas me prononcer Ã ce sujet.

Bonne journÃ©e

-- Yannick DuchÃªne

--
âSyntactic sugar causes cancer of the semi-colons.â [Ep igrams on
Programming â Alan J. â P. Yale University]
âStructured Programming supports the law of the excluded muddle. â [Idem]
âc++; /* this makes c bigger but returns the old value */â [Anonymous]

Herve Autret

07/06/2011 à 11:16

Bonjour

Le Mon, 06 Jun 2011 20:05:45 +0200, Xavier Roche a écrit:

cela vaut presque le coup de réécrire 50 lignes de C pour ça,

Merci pour les réponses, je crois que je vais finalement me laiser tenter
par ce côté-là. 50 lignes, je ne sais pas : j'ai dessiné un automate à 6
états et 12 transisions (11 si on considère qu'une conversion forcée du
non-utf vers l'utf est réussie par nature ;-).
Mais de cette manière je vois où je vais.

plutôt que d'essayer de patcher une fonctionnalité exotique amha.

De plus, la pérennité du truc n'est pas garantie de cette manière...
--
Hervé

Herve Autret

07/06/2011 à 11:19

Bonjour,

Le Tue, 07 Jun 2011 06:41:09 +0200, Yannick Duchêne (Hibou57) a écrit:

(le début du caractère se trouve alors au précédent 0xxxxxxx

Non, ça c'est justement un ASCII ;-). Mais le principe me plaît, comme je
disais à Xavier : je vais faire un truc comme ça.

à +
--
Hervé

Yannick Duchêne (Hibou57)

07/06/2011 à 11:52

Le Tue, 07 Jun 2011 11:19:16 +0200, Herve Autret a
Ã©crit:

Bonjour,

Le Tue, 07 Jun 2011 06:41:09 +0200, Yannick DuchÃªne (Hibou57) a Ã ©crit:

(le dÃ©but du caractÃ¨re se trouve alors au prÃ©cÃ©de nt 0xxxxxxx

Non, Ã§a c'est justement un ASCII ;-).

Sauf sâil est suivi dâun 10xxxxxx : je parlais bien de r etrouver un
0xxxxxxx en remontant en arriÃ¨re aprÃ¨s avoir rencontrÃ© un 10xxxxxxâ¦ la
nuance est importante.

P.S. Je ne sais pas comme Ã§a a Ã©tÃ© redirigÃ©, mais jâ ai Ã lâorigine reÃ§u ce
sujet sur âfr.comp.norme.unicodeâ auquel je suis abonnÃ ©, et quand jâai
voulu y rÃ©pondre, Ã§a a automatiquement sur âfr.comp.di versâ auquel je
nâÃ©tais pas abonnÃ© (mâenfin, pas grave, mainte nant je mây suis abonnÃ©)

--
âSyntactic sugar causes cancer of the semi-colons.â [Ep igrams on
Programming â Alan J. â P. Yale University]
âStructured Programming supports the law of the excluded muddle. â [Idem]
âc++; /* this makes c bigger but returns the old value */â [Anonymous]

Yannick Duchêne (Hibou57)

07/06/2011 à 11:58

Le Mon, 06 Jun 2011 20:05:45 +0200, Xavier Roche
a Ã©crit:

ExpÃ©rimentalement, je n'ai jamais rencontrÃ© de cas oÃ¹ e xisterait une
ambigÃ¼itÃ© (cÃ d. plusieurs caractÃ¨res Latin-1 qui s erait pris pour un
caractÃ¨re UTF-8) ; le standard UTF-8 est lÃ encore remarquab lement bien
foutu.

Seulement Ã la lecture aux yeux dâun Ãªtre humain, parc e quâÃ part Ã§a,
lâambiguÃ¯tÃ© est totale aux yeux dâun programme informatique. Ce qui
indique dâailleurs quâune petite relecture, mÃªme en diagonale, des
fichiers traitÃ©s par des yeux humains, sera sÃ»rement recommand Ã©e.

--
âSyntactic sugar causes cancer of the semi-colons.â [Ep igrams on
Programming â Alan J. â P. Yale University]
âStructured Programming supports the law of the excluded muddle. â [Idem]
âc++; /* this makes c bigger but returns the old value */â [Anonymous]

Yannick Duchêne (Hibou57)

07/06/2011 à 12:01

Le Tue, 07 Jun 2011 11:58:39 +0200, Yannick DuchÃªne (Hibou57)
a Ã©crit:

Le Mon, 06 Jun 2011 20:05:45 +0200, Xavier Roche
a Ã©crit:
ExpÃ©rimentalement, je n'ai jamais rencontrÃ© de cas oÃ¹ existerait une
ambigÃ¼itÃ© (cÃ d. plusieurs caractÃ¨res Latin-1 qui serait pris pour un
caractÃ¨re UTF-8) ; le standard UTF-8 est lÃ encore remarqua blement bien
foutu.

Seulement Ã la lecture aux yeux dâun Ãªtre humain, pa rce quâÃ part Ã§a,
lâambiguÃ¯tÃ© est totale aux yeux dâun program me informatique. Ce qui
indique dâailleurs quâune petite relecture, mÃªme en diagonale, des
fichiers traitÃ©s par des yeux humains, sera sÃ»rement recomma ndÃ©e.

Oops, pardon, je mâaperÃ§ois que jâai compris le sen s Ã lâenvers
(tant-pis). Dans lâautre sens, oui, vrai que cette ambiguÃ¯t Ã© lÃ est rare,
mais ce nâest pas Ã mettre au compte de la conception dâ UTF-8, mais plutÃ´t
au compte des statistiques.

--
âSyntactic sugar causes cancer of the semi-colons.â [Ep igrams on
Programming â Alan J. â P. Yale University]
âStructured Programming supports the law of the excluded muddle. â [Idem]
âc++; /* this makes c bigger but returns the old value */â [Anonymous]

Herve Autret

07/06/2011 à 13:59

Bonjour

Le Tue, 07 Jun 2011 11:52:17 +0200, Yannick Duchêne (Hibou57) a écrit:

(le début du caractère se trouve alors au précédent 0xxxxxxx

Non, ça c'est justement un ASCII ;-).

Sauf s’il est suivi d’un 10xxxxxx : je parlais bien de retrouver un
0xxxxxxx en remontant en arrière après avoir rencontré un 10xxxxxx…
la nuance est importante.

Au cas où la RFC suivante serait d'actualité :
http://www.rfc-editor.org/rfc/rfc3629.txt
On y lit, ligne 200 et avoisinantes, les 4 cas possibles de caractères
UTF-8 :

Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Les caractères 0000 0000-0000 007F, c'est aussi de 0 à 127 : c'est
l'ascii standard sur 7 bits. Le caractère "en soi" qu'il n'y a pas
besoin d'interpréter en fonction des précédents ni des suivants.

D'ailleurs, vous l'aurez remarqué les premiers bits d'un caractère UTF
servent à compter le nombre d'octets de ce caractère, sauf s'il s'agit
d'un caractère ascii, auquel cas ce premier bit est zéro.

Voilà pour ce que je comprends, et je commencerai en fonction de ce que
j'ai compris. En fait, je vais m'occuper d'abord de projets plus
pressants, de celui-ci ensuite.

P.S. Je ne sais pas comme ça a été redirigé, mais j’ai à l’origine
reçu ce sujet sur “fr.comp.norme.unicode” auquel je suis abonné, et
quand j’ai voulu y répondre, ça a automatiquement sur “fr.comp.divers”
auquel je n’étais pas abonné (m’enfin, pas grave, maintenant je m’y
suis abonné)

C'était annoncé en effet à la fin de mon premier message :

[Xpost f.c.divers, f.c.application.libre, f.c.normes.unicode,
Suivi proposé sur sur f.c.divers]

Un petit coup d'oeil ici ?
http://www.usenet-fr.net/fr.usenet.reponses/minis-faqs/crosspost.html

Cordialement,
--
Hervé

Bonjour

Le Tue, 07 Jun 2011 11:52:17 +0200, Yannick Duchêne (Hibou57) a écrit:

(le début du caractère se trouve alors au précédent 0xxxxxxx

Non, ça c'est justement un ASCII ;-).

Sauf s’il est suivi d’un 10xxxxxx : je parlais bien de retrouver un
0xxxxxxx en remontant en arrière après avoir rencontré un 10xxxxxx…
la nuance est importante.

Au cas où la RFC suivante serait d'actualité :
http://www.rfc-editor.org/rfc/rfc3629.txt
On y lit, ligne 200 et avoisinantes, les 4 cas possibles de caractères
UTF-8 :

Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Les caractères 0000 0000-0000 007F, c'est aussi de 0 à 127 : c'est
l'ascii standard sur 7 bits. Le caractère "en soi" qu'il n'y a pas
besoin d'interpréter en fonction des précédents ni des suivants.

D'ailleurs, vous l'aurez remarqué les premiers bits d'un caractère UTF
servent à compter le nombre d'octets de ce caractère, sauf s'il s'agit
d'un caractère ascii, auquel cas ce premier bit est zéro.

Voilà pour ce que je comprends, et je commencerai en fonction de ce que
j'ai compris. En fait, je vais m'occuper d'abord de projets plus
pressants, de celui-ci ensuite.

P.S. Je ne sais pas comme ça a été redirigé, mais j’ai à l’origine
reçu ce sujet sur “fr.comp.norme.unicode” auquel je suis abonné, et
quand j’ai voulu y répondre, ça a automatiquement sur “fr.comp.divers”
auquel je n’étais pas abonné (m’enfin, pas grave, maintenant je m’y
suis abonné)

C'était annoncé en effet à la fin de mon premier message :

[Xpost f.c.divers, f.c.application.libre, f.c.normes.unicode,
Suivi proposé sur sur f.c.divers]

Un petit coup d'oeil ici ?
http://www.usenet-fr.net/fr.usenet.reponses/minis-faqs/crosspost.html

Cordialement,
--
Hervé

Vous avez filtré cet utilisateur ! Consultez son message

Bonjour

Le Tue, 07 Jun 2011 11:52:17 +0200, Yannick Duchêne (Hibou57) a écrit:

(le début du caractère se trouve alors au précédent 0xxxxxxx

Non, ça c'est justement un ASCII ;-).

Sauf s’il est suivi d’un 10xxxxxx : je parlais bien de retrouver un
0xxxxxxx en remontant en arrière après avoir rencontré un 10xxxxxx…
la nuance est importante.

Au cas où la RFC suivante serait d'actualité :
http://www.rfc-editor.org/rfc/rfc3629.txt
On y lit, ligne 200 et avoisinantes, les 4 cas possibles de caractères
UTF-8 :

Char. number range | UTF-8 octet sequence
(hexadecimal) | (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Les caractères 0000 0000-0000 007F, c'est aussi de 0 à 127 : c'est
l'ascii standard sur 7 bits. Le caractère "en soi" qu'il n'y a pas
besoin d'interpréter en fonction des précédents ni des suivants.

D'ailleurs, vous l'aurez remarqué les premiers bits d'un caractère UTF
servent à compter le nombre d'octets de ce caractère, sauf s'il s'agit
d'un caractère ascii, auquel cas ce premier bit est zéro.

Voilà pour ce que je comprends, et je commencerai en fonction de ce que
j'ai compris. En fait, je vais m'occuper d'abord de projets plus
pressants, de celui-ci ensuite.

P.S. Je ne sais pas comme ça a été redirigé, mais j’ai à l’origine
reçu ce sujet sur “fr.comp.norme.unicode” auquel je suis abonné, et
quand j’ai voulu y répondre, ça a automatiquement sur “fr.comp.divers”
auquel je n’étais pas abonné (m’enfin, pas grave, maintenant je m’y
suis abonné)

C'était annoncé en effet à la fin de mon premier message :

[Xpost f.c.divers, f.c.application.libre, f.c.normes.unicode,
Suivi proposé sur sur f.c.divers]

Un petit coup d'oeil ici ?
http://www.usenet-fr.net/fr.usenet.reponses/minis-faqs/crosspost.html

Cordialement,
--
Hervé

Yannick Duchêne (Hibou57)

10/06/2011 à 04:06

effectuant une conversion ISO-8859-1 vers UTF-8 (en fait je dirais mÃ ªme
plus: du "dÃ©rivÃ©" WINDOWS-1252 vers UTF-8; car on rencontre pas mal de
cochonneries venant de texte produit par Word et ses amis, notamment s ur
le Web, mais ce n'est peut Ãªtre pas utile dans votre cas)

Pour la diffÃ©rence entre la page de code Windows-1252 et ISO 8859-1 (sous
ensemble dâUnicode), du dÃ©tail ici :
http://fr.wikipedia.org/wiki/Windows-1252#Support_en_HTML

La diffÃ©rence nâest pas catastrophique, elle ne concerne qu e des
caractÃ¨res peut courants. Et de plus, dâaprÃ¨s les expl ications donnÃ©es sur
la page, il devrait Ãªtre facile discerner 1252 et 8859-1, par le fa it que
1252 dÃ©fini les codes 128 Ã 159 comme reprÃ©sentant des ca ractÃ¨res, alors
que Unicode dÃ©fini cet intervalle comme reprÃ©sentant les code de contrÃ´le
C1 (ce sont des codes de contrÃ´le sâajoutant Ã ceux pl us classique de 0 Ã
31), et que ces codes de contrÃ´le C1 ne devraient normalement pas
apparaitre dans du texte humainement lisible.

Pour savoir ce que sont ces codes de contrÃ´le, voir ici :
http://en.wikipedia.org/wiki/C0_and_C1_control_codes#C1_.28ISO_8859_and_ Unicode.29
â¦ quand on voit le genre des codes, sÃ»r que sâils a pparaissent quelque
part, on peut Ãªtre certain(e) de ne pas avoir Ã faire Ã d e lâISO 8859-1.

--
âSyntactic sugar causes cancer of the semi-colons.â [Ep igrams on
Programming â Alan J. â P. Yale University]
âStructured Programming supports the law of the excluded muddle. â [Idem]
âc++; /* this makes c bigger but returns the old value */â [Anonymous]

panachage d'unicode et iso

10 réponses

Veuillez sélectionner un problème