Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Re: bash et UTF-8

1 réponse
Avatar
denis31.barbier
[Encore d=E9sol=E9 pour le cassage de fil, il faudra qu'un jour je
me d=E9cide =E0 cjanger de webmail]

[Laurent Giroud]
> > Si tout ce qui t'int=E9resse est de fournir un bon support
> > pour l'UTF-8, la solution la plus simple est de conserver
> > des char et de changer les routines de calcul de
> > longueur de cha=EEnes, recherche d'expressions, etc. C'est
> > ce que fait la majorit=E9 des programmeurs, avec
> > =E9ventuellement conversion du codage si l'utilisateur
> > n'est pas en UTF-8.
>
> Effectivement, c'est mieux qu'utiliser les wchar car
> ceux-ci sont de taille fixe et donc moins souples

D'habitude on pr=E9f=E8re au contraire un codage de taille fixe,
mais les probl=E8mes li=E9s =E0 la taille variable sont b=E9nins.

> et surtout imposent un encodage unicode

Faux.

> alors que conserver des char permet de g=E9rer n'importe
> quel type d'encodage support=E9 par la locale (via la libc).
> La quantit=E9 de travail est =E9quivalente en revanche.

Non, manipuler les wide chars n'est pas trivial, il est plus
simple d'utiliser de l'UTF-8 pour g=E9rer les cha=EEnes de
caract=E8res.

[...]
> Mais n=E9anmoins, la libc et gettext g=E8rent d=E9j=E0
> automatiquement l'encodage en fonction de la locale, si la
> lib de recherche d'expressions le g=E8re =E9galement, c'est
> autant de travail en moins (j'ose esp=E9rer que tout le
> monde ne r=E9=E9crit pas ses propres routines de gestion de
> cha=EEnes dans son coin).

Puisque tu parles de la recherche d'expression, regarde
http://mail.nl.linux.org/linux-utf8/2003-11/msg00027.html
ainsi que les premiers bogues de http://bugs.debian.org/grep
Le d=E9veloppeur de grep a d=FB utiliser une routine de
conversion automatique de ses sources, sans r=E9fl=E9chur ;)

L'affichage du texte dans le bon codage n'est qu'une partie
du probl=E8me, il faut penser aux formats de dates, aux
caract=E8res occupant 0 ou 2 colonnes (quand il y a une
justification, comme dans dselect), aux langues s'=E9crivant
de droite =E0 gauche ou n'utilisant pas d'espaces comme
s=E9parateur de mots, comment l'utilisateur va entrer du
texte, changer les messages s'ils sont saucissonn=E9s comme
dans apt ou dpkg, etc.
Il faut en m=EAme temps tr=E8s bien conna=EEtre le code qu'on
modifie, et comprendre les probl=E8mes de l10n, ce n'est pas
toujours aussi =E9vident qu'un simple =AB Hello, world! =BB.

--
Denis=0A=0AAcc=E9dez au courrier =E9lectronique de La Poste : www.laposte=
.net ; =0A3615 LAPOSTENET (0,34=80/mn) ; t=E9l : 08 92 68 13 50 (0,34=80/=
mn)=0A=0A

1 réponse

Avatar
Vincent Lefevre
On 2004-08-03 15:51:47 +0200, denis31.barbier wrote:
Non, manipuler les wide chars n'est pas trivial, il est plus
simple d'utiliser de l'UTF-8 pour gérer les chaînes de
caractères.



Pourquoi?

L'affichage du texte dans le bon codage n'est qu'une partie
du problème, il faut penser aux formats de dates, aux
caractères occupant 0 ou 2 colonnes (quand il y a une
justification, comme dans dselect), aux langues s'écrivant
de droite à gauche ou n'utilisant pas d'espaces comme
séparateur de mots, comment l'utilisateur va entrer du
texte, changer les messages s'ils sont saucissonnés comme
dans apt ou dpkg, etc.



Tout ça n'est pas lié à Unicode spécifiquement. Le "oe" d'Unicode
et ISO-8859-15 devrait être affiché sur 2 colonnes, non?

Accédez au courrier électronique de La Poste : www.laposte.net ;
3615 LAPOSTENET (0,34200/mn) ; tél : 08 92 68 13 50 (0,34200/mn)


^^^^ ^^^^

En plus de casser les fils, ton webmail envoie de la pub et des
caractères invalides. D'autre part, ton séparateur de signature
est incorrect (aussi dû à ton webmail?).

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact