OVH Cloud OVH Cloud

utf-8 : cauchemard, désolation, désespoir....

38 réponses
Avatar
Charles Plessy
Bonjour à tous,

Afin d'afficher des caractères japonais (je bosse au japon), je suis
passé à UTF-8. Première impression : ça marche. Deuxième impression : il
y a une foultitude de programmes qui déconnent, et ça commence à me
faire perdre beaucoup de temps. En fait, ça me rapelle le temps où
installer une debian qui accepte les accents français était une
aventure...

Parmis ce qui ne marche pas : des chose pas grave: par exemple, la
playlist de xmms n'affiche plus un seul caractère. Un coup de LC_ALL=C
xmms&, et ça repart.

Juste pour un prog, ça irait, et encore... Mais il y a pire :

aspell ne marche plus. Il bute sur les accents français, et les
considère comme des coupures de mots.

emacs n'accepte plus la saisie des accents et autres cédilles. J'ai viré
mon .emacs, rien n'y fait => Je suis passé à vi.

man et less n'acceptent plus que je fasse de recherche en tapant sur
slash. (=> LC_ALL=C man toto)

centericq pète les plombs.


Mais le fond du problème n'est pas là ; voici l'objet premier de mon
mail :

Les fichiers texte que je créé sont en utf8, avec un encodage différent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.

D'où deux questions :

1) Le support utf8 est-il encore inutilisable et expérimental ?

2) Si non, qu'ai-je fait d'incorrect pour en arriver là ?

Question subsidiaire : n'y a-t-il pas un unligne qui me permettrait de
récupérer le fruit de mon travail.txt en iso? Ou un moyen de n'utiliser
utf8 que quand s'imisce un caractère oriental ?

voici une illustration du problème:

lidlpenguin|charles|$ cat > toto
skljgfklsdg

lidlpenguin|charles|$ file toto
toto: ASCII text

lidlpenguin|charles|$ cat > toto
ljlfqskjémljsf

lidlpenguin|charles|$ file toto
toto: UTF-8 Unicode text

lidlpenguin|charles|$ env | grep FR
LANG=fr_FR.UTF-8@euro
GDM_LANG=fr_FR.UTF-8@euro

En éspérant qu'il y ait «un médecin dans la salle»,

--
Charles


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

8 réponses

1 2 3 4
Avatar
Jean-Luc Coulon (f5ibh)
--=-Hp6Ii25MH6/wXr+NPWJU
Content-Type: text/plain; charset=ISO-8859-1; DelSp=Yes; Format=Flowed
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

Le 21.07.2004 13:49:58, Vincent Lefevre a écrit :
« On 2004-07-21 08:34:54 +0000, Jean-Luc Coulon (f5ibh) wrote:
« > Ca, c'est préjuger (favorablemet) de la manière dont le navigate ur
« du
« > *client* va interpréter les choses. Si on veut pouvoir être lu p ar
« les
« > divers navigateurs du marché, c'est quand même préférable
« d'utiliser
« > les entités HTML.
«
« Non, un navigateur doit savoir suivre les recommandations pour
« déterminer l'encodage utillisé.

Je te propose d'expliquer ça à tous ceux qui on Internet Explorer 5
(qui en plus d'être une passoire ne sait pas non plus gérer la
transparence sur les fichiers .png..)

Je ne partage pas ton opinion : le développeur de site web n'a pas pour
cible une catégorie particulière d'utilisateurs (utilisateurs de
Mozilla, d'Opera ou d4internet Explorer). Si je développe un site web,
c'est pour que la majorité de ceux qui le visitent le voient tel que je
l'ai réalisé. Et pour ça, je n'ai pas le choix, il faut faire des
concessions.

Essayer, par exemple, la différence de comportement entre les
différents navigateurs en mode natif et en mode conforme...

---
- Jean-Luc
«
« --
« Vincent Lefèvre - Web: <http://www.vinc17.org/>


--=-Hp6Ii25MH6/wXr+NPWJU
Content-Type: application/pgp-signature; name=signature.asc
Content-Disposition: attachment; filename=signature.asc

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQBA/othUdGGXzzGnNARAhROAJoD1D2PLFuV/ByOF5owCnPJ1nff6wCgjrEN
yGDAGNNGENKcpV8NvUnZyXs =boyh
-----END PGP SIGNATURE-----

--=-Hp6Ii25MH6/wXr+NPWJU--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 17:00:41 +0200, Frederic Bothamy wrote:
Ah oui, exact. Alors cette "UTF-8 and Unicode FAQ for Unix/Linux"
(proposée dans le HOWTO anglais) :

http://www.cl.cam.ac.uk/~mgk25/unicode.html

qui semble assez à jour (date de dernière modification le 13/06/2004).



Cette FAQ est peut-être à jour, mais ce n'est pas un HOWTO.
En particulier, il y a rien concernant l'utilisation d'Unicode
avec les diverses applications...

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 15:27:26 +0000, Jean-Luc Coulon (f5ibh) wrote:
Je te propose d'expliquer ça à tous ceux qui on Internet Explorer 5



Je me f... complètement de ces utilisateurs. Ils ont choisi un
navigateur buggé. Qu'ils assument les conséquences.

Je ne partage pas ton opinion : le développeur de site web n'a pas pour
cible une catégorie particulière d'utilisateurs (utilisateurs de
Mozilla, d'Opera ou d4internet Explorer).



Dans ce cas, il ne faut pas utiliser de caractères accentués (sous
forme d'entités ou autre), car ils ne passent pas avec certains
terminaux (configurés en US-ASCII, etc.).

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Jean-Luc Coulon (f5ibh)
--X1bOJ3K7DJ5YkBrT
Content-Type: text/plain; charset=iso-8859-15
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

On Wed, Jul 21, 2004 at 05:56:12PM +0200, Vincent Lefevre wrote:
On 2004-07-21 15:27:26 +0000, Jean-Luc Coulon (f5ibh) wrote:
> Je te propose d'expliquer ça à tous ceux qui on Internet Explorer 5

Je me f... complètement de ces utilisateurs. Ils ont choisi un
navigateur buggé. Qu'ils assument les conséquences.



Je pense que si tu avais à t'occuper d'un site commerçant ou simplement d'un
site « sérieux » tu ne te ficherais pas des utilisateurs.

1 - quand on a un site commerçant, tout utilisateur est un cient potentie l.
2 - quand on publie quelque chose de sérieux sur le web, on a le *respect * des
utilisateurs quelqu'ils soient, ils n'ont peut être pas fait le choix de leurs
outils.
3 - si on rend des données publiques, c'est qu'ojn juge qu'elle on un cer tain
intérêt et le *respect* de l'utilisateur fait aussi partie des règles de bonne
conduite.


> Je ne partage pas ton opinion : le développeur de site web n'a pas po ur
> cible une catégorie particulière d'utilisateurs (utilisateurs de
> Mozilla, d'Opera ou d4internet Explorer).

Dans ce cas, il ne faut pas utiliser de caractères accentués (sous
forme d'entités ou autre), car ils ne passent pas avec certains
terminaux (configurés en US-ASCII, etc.).



Lorsqu'on travaille en français, on *doit* utilsier des caractères acce ntués.
Sinon, ce n'est pas du français et dans ce cas, ce débat n'a pas lieu d 'être.

Si le terminal est configuré en US-ASCII c'est que l'utilisateur en
question n'avait pas à utiliser du français, ne le voulait pas ou ne le
désirait pas.

---
- Jean-Luc

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>



--X1bOJ3K7DJ5YkBrT
Content-Type: application/pgp-signature; name="signature.asc"
Content-Description: Digital signature
Content-Disposition: inline

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQFA/q2dUdGGXzzGnNARAoF4AKCWWbho1P+x1YViQOgeK792RfX+QgCfZkqu
AsUbWeJu0j1AL3p98P74+Js =6oow
-----END PGP SIGNATURE-----

--X1bOJ3K7DJ5YkBrT--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Frederic Bothamy
* Vincent Lefevre [2004-07-21 17:48] :
On 2004-07-21 17:00:41 +0200, Frederic Bothamy wrote:
> Ah oui, exact. Alors cette "UTF-8 and Unicode FAQ for Unix/Linux"
> (proposée dans le HOWTO anglais) :
>
> http://www.cl.cam.ac.uk/~mgk25/unicode.html
>
> qui semble assez à jour (date de dernière modification le 13/06/2004).

Cette FAQ est peut-être à jour, mais ce n'est pas un HOWTO.
En particulier, il y a rien concernant l'utilisation d'Unicode
avec les diverses applications...



La section "What UTF-8 enabled applications are available?" ne te
convient pas ? Elle est marquée comme de moins en moins complète depuis
mi-2003. Ce doit être tout de même assez à jour (ça parle d'Emacs 21 et
du futur Emacs 22).


Fred

--
Comment poser les questions de manière intelligente ?
http://www.gnurou.org/documents/smart-questions-fr.html
Comment signaler efficacement un bug ?
http://www.chiark.greenend.org.uk/~sgtatham/bugs-fr.html


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 19:53:33 +0200, Jean-Luc Coulon wrote:
On Wed, Jul 21, 2004 at 05:56:12PM +0200, Vincent Lefevre wrote:
> On 2004-07-21 15:27:26 +0000, Jean-Luc Coulon (f5ibh) wrote:
> > Je te propose d'expliquer ça à tous ceux qui on Internet Explorer 5
>
> Je me f... complètement de ces utilisateurs. Ils ont choisi un
> navigateur buggé. Qu'ils assument les conséquences.

Je pense que si tu avais à t'occuper d'un site commerçant ou
simplement d'un site « sérieux » tu ne te ficherais pas des
utilisateurs.



Mon site est sérieux. Mais il y a des bornes à ne pas dépasser.
Si IE5 est buggé au point de ne pas comprendre les caractères
directement encodés en 8 bits, ce n'est plus mon problème.

1 - quand on a un site commerçant, tout utilisateur est un cient potentiel.
2 - quand on publie quelque chose de sérieux sur le web, on a le
*respect* des utilisateurs quelqu'ils soient, ils n'ont peut être
pas fait le choix de leurs outils.
3 - si on rend des données publiques, c'est qu'ojn juge qu'elle on
un certain intérêt et le *respect* de l'utilisateur fait aussi
partie des règles de bonne conduite.



Si c'est pour revenir 10 ans en arrière, non merci.

> > Je ne partage pas ton opinion : le développeur de site web n'a
> > pas pour cible une catégorie particulière d'utilisateurs
> > (utilisateurs de Mozilla, d'Opera ou d4internet Explorer).
>
> Dans ce cas, il ne faut pas utiliser de caractères accentués (sous
> forme d'entités ou autre), car ils ne passent pas avec certains
> terminaux (configurés en US-ASCII, etc.).

Lorsqu'on travaille en français, on *doit* utilsier des caractères
accentués.



Le monde ne s'est pas arrêté de tourner parce qu'il y avait des
logiciels incompatibles avec les caractères accentués. On doit
utiliser des caractères accentués *quand ça ne pose pas de problème*.

Si le terminal est configuré en US-ASCII c'est que l'utilisateur en
question n'avait pas à utiliser du français, ne le voulait pas ou ne
le désirait pas.



Si l'utilisateur utilise IE5, c'est qu'il n'est pas intéressé de
voir des pages respectant les standards.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Gaëtan PERRIER
Le Wed, 21 Jul 2004 23:23:07 +0200
Vincent Lefevre a écrit:


Mon site est sérieux. Mais il y a des bornes à ne pas dépasser.
Si IE5 est buggé au point de ne pas comprendre les caractères
directement encodés en 8 bits, ce n'est plus mon problème.

> 1 - quand on a un site commerçant, tout utilisateur est un cient
> potentiel. 2 - quand on publie quelque chose de sérieux sur le
> web, on a le*respect* des utilisateurs quelqu'ils soient, ils
> n'ont peut être pas fait le choix de leurs outils.
> 3 - si on rend des données publiques, c'est qu'ojn juge qu'elle on
> un certain intérêt et le *respect* de l'utilisateur fait aussi
> partie des règles de bonne conduite.

Si c'est pour revenir 10 ans en arrière, non merci.

> > > Je ne partage pas ton opinion : le développeur de site web n'a
> > > pas pour cible une catégorie particulière d'utilisateurs
> > > (utilisateurs de Mozilla, d'Opera ou d4internet Explorer).
> >
> > Dans ce cas, il ne faut pas utiliser de caractères accentués
> > (sous forme d'entités ou autre), car ils ne passent pas avec
> > certains terminaux (configurés en US-ASCII, etc.).
>
> Lorsqu'on travaille en français, on *doit* utilsier des caractères
> accentués.

Le monde ne s'est pas arrêté de tourner parce qu'il y avait des
logiciels incompatibles avec les caractères accentués. On doit
utiliser des caractères accentués *quand ça ne pose pas de
problème*.



On utilise les caractères français parce que l'on est français, c'est
tout. Je te retourne ce que tu dis au-dessus ("Si c'est pour revenir
10 ans en arrière, non merci.")


> Si le terminal est configuré en US-ASCII c'est que l'utilisateur
> en question n'avait pas à utiliser du français, ne le voulait pas
> ou ne le désirait pas.

Si l'utilisateur utilise IE5, c'est qu'il n'est pas intéressé de
voir des pages respectant les standards.



L'utilisateur n'est bien souvent pas au courant que IE ne respecte pas
les standards...
Avatar
Vincent Lefevre
On 2004-07-21 20:09:44 +0200, Frederic Bothamy wrote:
La section "What UTF-8 enabled applications are available?" ne te
convient pas ? Elle est marquée comme de moins en moins complète depuis
mi-2003. Ce doit être tout de même assez à jour (ça parle d'Emacs 21 et
du futur Emacs 22).



Elle n'explique pas comment faire fonctionner les applications en
question en UTF-8. Et puisque certaines applications ne sont pas
compatibles UTF-8, il faut garder l'interopérabilité avec ISO-8859-1
par exemple, et donc expliquer comment configurer pour que ça
fonctionne avec les deux types de locales simultanément.

Concernant Mutt, il ne supporte pas complètement UTF-8. Par exemple,
en locale UTF-8, les recherches de mots avec caractères accentués dans
le corps depuis l'index échouent.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
1 2 3 4