Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

utf-8 : cauchemard, désolation, désespoir....

38 réponses
Avatar
Charles Plessy
Bonjour à tous,

Afin d'afficher des caractères japonais (je bosse au japon), je suis
passé à UTF-8. Première impression : ça marche. Deuxième impression : il
y a une foultitude de programmes qui déconnent, et ça commence à me
faire perdre beaucoup de temps. En fait, ça me rapelle le temps où
installer une debian qui accepte les accents français était une
aventure...

Parmis ce qui ne marche pas : des chose pas grave: par exemple, la
playlist de xmms n'affiche plus un seul caractère. Un coup de LC_ALL=C
xmms&, et ça repart.

Juste pour un prog, ça irait, et encore... Mais il y a pire :

aspell ne marche plus. Il bute sur les accents français, et les
considère comme des coupures de mots.

emacs n'accepte plus la saisie des accents et autres cédilles. J'ai viré
mon .emacs, rien n'y fait => Je suis passé à vi.

man et less n'acceptent plus que je fasse de recherche en tapant sur
slash. (=> LC_ALL=C man toto)

centericq pète les plombs.


Mais le fond du problème n'est pas là ; voici l'objet premier de mon
mail :

Les fichiers texte que je créé sont en utf8, avec un encodage différent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.

D'où deux questions :

1) Le support utf8 est-il encore inutilisable et expérimental ?

2) Si non, qu'ai-je fait d'incorrect pour en arriver là ?

Question subsidiaire : n'y a-t-il pas un unligne qui me permettrait de
récupérer le fruit de mon travail.txt en iso? Ou un moyen de n'utiliser
utf8 que quand s'imisce un caractère oriental ?

voici une illustration du problème:

lidlpenguin|charles|$ cat > toto
skljgfklsdg

lidlpenguin|charles|$ file toto
toto: ASCII text

lidlpenguin|charles|$ cat > toto
ljlfqskjémljsf

lidlpenguin|charles|$ file toto
toto: UTF-8 Unicode text

lidlpenguin|charles|$ env | grep FR
LANG=fr_FR.UTF-8@euro
GDM_LANG=fr_FR.UTF-8@euro

En éspérant qu'il y ait «un médecin dans la salle»,

--
Charles


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

10 réponses

1 2 3 4
Avatar
nicolas
Tu n'as vraiment pas de bol, chez moi tout roule.

:~$ locale
LANG=
LC_CTYPE=""
LC_NUMERIC=""
LC_TIME=""
LC_COLLATE=""
LC_MONETARY=""
LC_MESSAGES=""
LC_PAPER=""
LC_NAME=""
LC_ADDRESS=""
LC_TELEPHONE=""
LC_MEASUREMENT=""
LC_IDENTIFICATION=""
LC_ALL
Ce choix est donné dès la connection sous gdm. Je peux même avoir tout
en utf-8, les noms de fichiers, leur contenu, l'affichage, le clavier,
tout.

n.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Gaëtan PERRIER
Le Tue, 20 Jul 2004 18:22:16 +0200
nicolas a écrit:

Tu n'as vraiment pas de bol, chez moi tout roule.

:~$ locale
LANG=
LC_CTYPE=""
LC_NUMERIC=""
LC_TIME=""
LC_COLLATE=""
LC_MONETARY=""
LC_MESSAGES=""
LC_PAPER=""
LC_NAME=""
LC_ADDRESS=""
LC_TELEPHONE=""
LC_MEASUREMENT=""
LC_IDENTIFICATION=""
LC_ALL=

Ce choix est donné dès la connection sous gdm. Je peux même avoir
tout en utf-8, les noms de fichiers, leur contenu, l'affichage, le
clavier, tout.

n.




Comment fait-on pour passer d'iso en utf8 ? Il suffit juste de changer
les locales?
Avatar
Jean-Luc Coulon (f5ibh)
--=-EIl51RB5Q1TcRPJOr3Fo
Content-Type: text/plain; charset=ISO-8859-15; DelSp=Yes; Format=Flowed
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable


Le 20.07.2004 18:22:16, nicolas a écrit :
« Tu n'as vraiment pas de bol, chez moi tout roule.
«
« :~$ locale
« LANG=
« LC_CTYPE=""
« LC_NUMERIC=""
« LC_TIME=""
« LC_COLLATE=""
« LC_MONETARY=""
« LC_MESSAGES=""
« LC_PAPER=""
« LC_NAME=""
« LC_ADDRESS=""
« LC_TELEPHONE=""
« LC_MEASUREMENT=""
« LC_IDENTIFICATION=""
« LC_ALL=
«
« Ce choix est donné dès la connection sous gdm. Je peux même avoi r
« tout
« en utf-8, les noms de fichiers, leur contenu, l'affichage, le
« clavier,
« tout.

Même aspell et acheck ?

--
J-L
«
« n.
«
«
« --
« Pensez à lire la FAQ de la liste avant de poser une question :
« http://wiki.debian.net/?DebianFrench
«
« Pensez à rajouter le mot ``spam'' dans vos champs "From" et
« "Reply-To:"
«
« To UNSUBSCRIBE, email to
« with a subject of "unsubscribe". Trouble? Contact
«
«
«
«

--
-------------------------------------------------------------------
____ __ _
Jean-Luc Coulon (f5ibh) / __ ___ / /_ (_)____ _ ____
28 rue d'Evette / / / // _ / __ / // __ `// __
90350 Evette-Salbert / /_/ // __// /_/ // // /_/ // / / /
France /_____/ ___//_.___//_/ __,_//_/ /_/



--=-EIl51RB5Q1TcRPJOr3Fo
Content-Type: application/pgp-signature; name=signature.asc
Content-Disposition: attachment; filename=signature.asc

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQBA/U/RUdGGXzzGnNARAlfRAKCk6mNatfS0WW3h+IVF2Hdl1XBelgCfXiaD
FL+H9xIV31ZLydKbLvdozE8 =Tfwd
-----END PGP SIGNATURE-----

--=-EIl51RB5Q1TcRPJOr3Fo--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Julien Louis
On Tue, Jul 20, 2004 at 05:01:00PM +0000, Jean-Luc Coulon (f5ibh) wrote:

Même aspell et acheck ?



Non malheureusement, et cela m'embète beaucoup :'(

--
Il est plus difficile de bien faire l'amour que de bien faire la guerre.
-+- Anne, dite Ninon de Lenclos -+-


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Arnaud CALVO
Charles Plessy a écrit, Le 20.07.2004 16:10 :
Afin d'afficher des caractères japonais (je bosse au japon), je suis
passé à UTF-8. Première impression : ça marche. Deuxième impression : il



Parmis ce qui ne marche pas : des chose pas grave: par exemple, la
playlist de xmms n'affiche plus un seul caractère. Un coup de LC_ALL=C
xmms&, et ça repart.



Il faut sélectionner une police qui propose de l'utf8.
Moi j'ai ça pour xmms et pour la liste de lecture :
-adobe-helvetica-medium-r-normal-*-*-80-*-*-p-*-iso10646-1

Juste pour un prog, ça irait, et encore... Mais il y a pire :
aspell ne marche plus. Il bute sur les accents français, et les
considère comme des coupures de mots.



Joker. Je n'utilise pas ça.

emacs n'accepte plus la saisie des accents et autres cédilles. J'ai viré
mon .emacs, rien n'y fait => Je suis passé à vi.



J'utilise aussi vi, pas de problème de ce côté-là...

man et less n'acceptent plus que je fasse de recherche en tapant sur
slash. (=> LC_ALL=C man toto)



Pas de pb non plus.

Les fichiers texte que je créé sont en utf8, avec un encodage différent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.



Je crée mes fichiers en utf8 (merci vi, rox et rox-edit) et je n'ai pas
de pb pour les (re)lire.

D'où deux questions :
1) Le support utf8 est-il encore inutilisable et expérimental ?



Je le trouve tout à fait utilisable, mais j'attends avec impatience les
versions gtk2 de mes softs, car quasi aucun de mes softs en gtk1.2 ne
gère correctement l'utf8...

--
La citation du jour :
J'ai lu un truc sur les méfaits de la boisson : du coup, j'ai arrêté de
lire.


:::::::::::::::::::::::::::::: Arnaud ::::


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Leopold BAILLY
Julien Louis writes:

On Tue, Jul 20, 2004 at 05:01:00PM +0000, Jean-Luc Coulon (f5ibh)


wrote:

Même aspell et acheck ?



Non malheureusement, et cela m'embète beaucoup :'(



Peut-être qu'un coup de recode sur les sources du dictionnaire suivi
d'une reconstruction du paquet ferait l'affaire ?


--
Il est plus difficile de bien faire l'amour que de bien faire la


guerre.

C'est sûrement en cela que l'histoire reconnaitra la supériorité de
Clinton sur Bush :-).


Léo.
Avatar
Leopold BAILLY
Charles Plessy writes:

Les fichiers texte que je créé sont en utf8, avec un encodage diffé rent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages w eb.



Pour transformer un fichier ISO-* en UTF-8 : recode.

Pour les pages html, le navigateur doit comprendre que la page est encodé e UTF-8.
Il y a deux précautions à prendre :
- au niveau du contenu de la page html, spécifier
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
...
- au niveau de la réponse http, dans le cas d'une page dynamique, il faut insérer l'entête
Content-Type: text/html; charset=UTF-8


Léo.
Avatar
Jean-Luc Coulon (f5ibh)
--=-5u0wI4ofBOow0J3V/pJX
Content-Type: text/plain; charset=ISO-8859-15; DelSp=Yes; Format=Flowed
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

Le 20.07.2004 21:21:05, Leopold BAILLY a écrit :
« Charles Plessy writes:
«
« > Les fichiers texte que je créé sont en utf8, avec un encodage
« différent
« > pour les accents. Ça signifie que mon monde est coupé en deux
« parties
« > qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
« > de facto inutilisable, à moins d'aimer avoir des é sur ses pa ges
« web.

Un « é » (par exemple) se code &eacute; pour éviter ce genre de
problème. Ensuite, il faudra, comme le dit Léo, préciser le charset
utilisé dans l'en-tête. Dans ce cas, ça ne pose aucun problèmes aux
navigateurs.

---
-Jean-Luc

«
« Pour transformer un fichier ISO-* en UTF-8 : recode.
«
« Pour les pages html, le navigateur doit comprendre que la page est
« encodée UTF-8.
« Il y a deux précautions à prendre :
« - au niveau du contenu de la page html, spécifier
« <HEAD>
« <META http-equiv="Content-Type" content="text/html;
« charset=UTF-8">
« ...
« - au niveau de la réponse http, dans le cas d'une page dynamique, il
« faut insérer l'entête
« Content-Type: text/html; charset=UTF-8
«
«
« Léo.
«
«
«


--=-5u0wI4ofBOow0J3V/pJX
Content-Type: application/pgp-signature; name=signature.asc
Content-Disposition: attachment; filename=signature.asc

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQBA/X/LUdGGXzzGnNARAtb3AJ9Wruu3W/xtlG1tuVtaQrYiTKDbNwCgi5XJ
WWsi3tJo1pOlg7jrV5kRSco =2riE
-----END PGP SIGNATURE-----

--=-5u0wI4ofBOow0J3V/pJX--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Damien Raude-Morvan
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Le mardi 20 Juillet 2004 22:25, Jean-Luc Coulon (f5ibh) a écrit :
Le 20.07.2004 21:21:05, Leopold BAILLY a écrit :
« Charles Plessy writes:
«
« > Les fichiers texte que je créé sont en utf8, avec un encodage
« différent
« > pour les accents. Ça signifie que mon monde est coupé en deux
« parties
« > qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
« > de facto inutilisable, à moins d'aimer avoir des é sur ses pages
« web.

Un « é » (par exemple) se code &eacute; pour éviter ce genre de
problème. Ensuite, il faudra, comme le dit Léo, préciser le charset
utilisé dans l'en-tête. Dans ce cas, ça ne pose aucun problèmes a ux
navigateurs.



Si on utilise les entités HTML, un charset UTF-8 ne présente plus beauc oup
d'intéret.
UTF-8 sert justement à éliminer la présence des entités dans les pa ges HTML
pour les remplacer par leur « vrai » codage.

- --
Damien Raude-Morvan - DrazziB
GPG : 0x337C7EBB
WWW : www.drazzib.com
ICQ : 68119943
TEL : (+33) 06 08 80 36 98
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQFA/Ymo927daDN8frsRAnzzAKCZtlFDq+Qfka2ktAJXq8CpDfiWTQCfUvyZ
uDQzYzrbRi1/IACCpCOU+Aw=
=Jepi
-----END PGP SIGNATURE-----
Avatar
Iznogood
--Signature=_Wed__21_Jul_2004_01_07_36_+0200_yZToMwN=ULtML.PM
Content-Type: text/plain; charset=ISO-8859-15
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

Le Tue, 20 Jul 2004 19:18:46 +0200
Julien Louis a écrit :

On Tue, Jul 20, 2004 at 05:01:00PM +0000, Jean-Luc Coulon (f5ibh)
wrote:
>
> Même aspell et acheck ?

Non malheureusement, et cela m'embète beaucoup :'(



avec un xterm unicode et --encoding=utf-8, ça passe normalement.


--
Il est plus difficile de bien faire l'amour que de bien faire la
guerre.
-+- Anne, dite Ninon de Lenclos -+-


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact







--
Sur http://www.iznogood-factory.org, vous avez des
cinglés qui font un processeur 64 bits : un F-CPU.

--Signature=_Wed__21_Jul_2004_01_07_36_+0200_yZToMwN=ULtML.PM
Content-Type: application/pgp-signature

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQFA/aW8oxtAN8K2aLgRApxEAJoCDXbKcAC/vPaL4s61FPjtTURMWgCffIy/
EiLXPIlivBpDLUCVQvgGAQw =JB8Y
-----END PGP SIGNATURE-----

--Signature=_Wed__21_Jul_2004_01_07_36_+0200_yZToMwN=ULtML.PM--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
1 2 3 4