OVH Cloud OVH Cloud

utf-8 : cauchemard, désolation, désespoir....

38 réponses
Avatar
Charles Plessy
Bonjour à tous,

Afin d'afficher des caractères japonais (je bosse au japon), je suis
passé à UTF-8. Première impression : ça marche. Deuxième impression : il
y a une foultitude de programmes qui déconnent, et ça commence à me
faire perdre beaucoup de temps. En fait, ça me rapelle le temps où
installer une debian qui accepte les accents français était une
aventure...

Parmis ce qui ne marche pas : des chose pas grave: par exemple, la
playlist de xmms n'affiche plus un seul caractère. Un coup de LC_ALL=C
xmms&, et ça repart.

Juste pour un prog, ça irait, et encore... Mais il y a pire :

aspell ne marche plus. Il bute sur les accents français, et les
considère comme des coupures de mots.

emacs n'accepte plus la saisie des accents et autres cédilles. J'ai viré
mon .emacs, rien n'y fait => Je suis passé à vi.

man et less n'acceptent plus que je fasse de recherche en tapant sur
slash. (=> LC_ALL=C man toto)

centericq pète les plombs.


Mais le fond du problème n'est pas là ; voici l'objet premier de mon
mail :

Les fichiers texte que je créé sont en utf8, avec un encodage différent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.

D'où deux questions :

1) Le support utf8 est-il encore inutilisable et expérimental ?

2) Si non, qu'ai-je fait d'incorrect pour en arriver là ?

Question subsidiaire : n'y a-t-il pas un unligne qui me permettrait de
récupérer le fruit de mon travail.txt en iso? Ou un moyen de n'utiliser
utf8 que quand s'imisce un caractère oriental ?

voici une illustration du problème:

lidlpenguin|charles|$ cat > toto
skljgfklsdg

lidlpenguin|charles|$ file toto
toto: ASCII text

lidlpenguin|charles|$ cat > toto
ljlfqskjémljsf

lidlpenguin|charles|$ file toto
toto: UTF-8 Unicode text

lidlpenguin|charles|$ env | grep FR
LANG=fr_FR.UTF-8@euro
GDM_LANG=fr_FR.UTF-8@euro

En éspérant qu'il y ait «un médecin dans la salle»,

--
Charles


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

10 réponses

1 2 3 4
Avatar
nicolas
Le Wed, 21 Jul 2004 11:10:06 +0200, Gaëtan PERRIER a écrit :

non pas passer en iso j'y suis actuellement et je me demandais comment
se passer la migration d'un système complet en utf8.



Euh oui, c'est ça.
Les fichiers en format texte poseront problème, il faudra les
convertir avec konwert ou recode. Attention aussi aux noms des fichiers,
qui sont au départ en iso (je pense aux accents), nautilus signale le
problème quand il se présente et tu peux corriger les noms manuellement
ou le faire via un petit script.

Par contre une fois en utf8 tous mes fichiers seront créés en utf8,
c'est bien ça?



Oui.

n.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-20 23:10:01 +0900, Charles Plessy wrote:
emacs n'accepte plus la saisie des accents et autres cédilles. J'ai viré
mon .emacs, rien n'y fait => Je suis passé à vi.



Je trouve qu'emacs est un des programmes qui supporte le mieux UTF-8.
Tu as probablement un problème de config.

man et less n'acceptent plus que je fasse de recherche en tapant sur
slash. (=> LC_ALL=C man toto)



man utilise un pager externe et n'est donc pas directement en cause.
Oui, less bugge complètement (mais fonctionnait dans le passé!).

zsh n'est pas non plus compatible UTF-8.

Les fichiers texte que je créé sont en utf8, avec un encodage différent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.



Pour l'édition, emacs sait reconnaître l'encodage (sauf quand c'est
trop ambigu, mais aucun problème entre UTF-8 et ISO-8859-1 par
exemple). Pour le HTML, XML, etc. il y a des méthodes pour déclarer
l'encodage, donc aucun problème quand on fait correctement...

1) Le support utf8 est-il encore inutilisable et expérimental ?



La seule raison pour laquelle je ne suis pas passé à UTF-8 complètement
est zsh.

2) Si non, qu'ai-je fait d'incorrect pour en arriver là ?



Il faudrait voir les logiciels un par un. Au fait, y a-t-il un howto
complet quelque part?

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 07:51:59 +0200, nicolas wrote:
Le Wed, 21 Jul 2004 07:20:04 +0200, Erwan David a écrit :

> Le Tue 20/07/2004, Leopold BAILLY disait
>> Charles Plessy writes:

>> Pour transformer un fichier ISO-* en UTF-8 : recode.

> Avec un bémol : la doc est incompréhensible...

Alors utilise konwert.



Il y a aussi iconv.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Frederic Bothamy
* Vincent Lefevre [2004-07-21 12:03] :
On 2004-07-20 23:10:01 +0900, Charles Plessy wrote:



[...]

> 2) Si non, qu'ai-je fait d'incorrect pour en arriver là ?

Il faudrait voir les logiciels un par un. Au fait, y a-t-il un howto
complet quelque part?



Quelque chose comme l'Unicode HOWTO ?
(http://www.tldp.org/HOWTO/Unicode-HOWTO.html, la traduction en français
n'est pas à jour mais peut donner tout de même des informations
intéressantes : http://www.traduc.org/docs/HOWTO/vf/Unicode-HOWTO.html)


Fred

--
Comment poser les questions de manière intelligente ?
http://www.gnurou.org/documents/smart-questions-fr.html
Comment signaler efficacement un bug ?
http://www.chiark.greenend.org.uk/~sgtatham/bugs-fr.html


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-20 19:33:14 +0200, Arnaud CALVO wrote:
Il faut sélectionner une police qui propose de l'utf8.
Moi j'ai ça pour xmms et pour la liste de lecture :
-adobe-helvetica-medium-r-normal-*-*-80-*-*-p-*-iso10646-1



Pas capable de le faire automatiquement? C'est nul!

>man et less n'acceptent plus que je fasse de recherche en tapant sur
>slash. (=> LC_ALL=C man toto)

Pas de pb non plus.



Tu as essayé, avec la dernière version de less, de lire un fichier
ISO-8859-1 avec des locales en UTF-8 et un LESSCHARSET mis à latin1?

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 11:04:40 +0200, Gaëtan PERRIER wrote:
Par contre une fois en utf8 tous mes fichiers seront créés en utf8,
c'est bien ça?



Pas forcément. On peut toujours dire à l'éditeur ou générateur du
fichier de créer le fichier dans un autre encodage. Ce n'est pas
forcément gênant (notamment pour les fichiers XML, les mails...).

Au fait, ce mail est écrit depuis un terminal en ISO-8859-1, via
une session ssh en ISO-8859-1, où est lancé un screen avec Mutt en
UTF-8 (screen s'occupe de faire toutes les conversions nécessaires)
et l'éditeur est Emacs, travaillant en UTF-8 en entrée et en sortie.
Vous recevrez ce mail en ISO-8859-1, car j'ai configuré Mutt pour
envoyer de l'ISO-8859-1 si tous les caractères du mail peuvent être
représentés sous cet encodage. Bref, avec des conversions effectuées
de manière transparente, il n'y a pas de problème d'encodage.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 08:34:54 +0000, Jean-Luc Coulon (f5ibh) wrote:
Ca, c'est préjuger (favorablemet) de la manière dont le navigateur du
*client* va interpréter les choses. Si on veut pouvoir être lu par les
divers navigateurs du marché, c'est quand même préférable d'utiliser
les entités HTML.



Non, un navigateur doit savoir suivre les recommandations pour
déterminer l'encodage utillisé.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2004-07-21 13:21:05 +0200, Frederic Bothamy wrote:
Quelque chose comme l'Unicode HOWTO ?
(http://www.tldp.org/HOWTO/Unicode-HOWTO.html, la traduction en français
n'est pas à jour mais peut donner tout de même des informations
intéressantes : http://www.traduc.org/docs/HOWTO/vf/Unicode-HOWTO.html)



La version anglaise n'est pas non plus à jour (elle a plus de 3 ans!).
C'est quelque chose de ce genre que je cherche, mais à jour. :)

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% validated (X)HTML - Acorn / RISC OS / ARM, free software, YP17,
Championnat International des Jeux Mathématiques et Logiques, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Frederic Bothamy
* Vincent Lefevre [2004-07-21 14:27] :
On 2004-07-21 13:21:05 +0200, Frederic Bothamy wrote:
> Quelque chose comme l'Unicode HOWTO ?
> (http://www.tldp.org/HOWTO/Unicode-HOWTO.html, la traduction en français
> n'est pas à jour mais peut donner tout de même des informations
> intéressantes : http://www.traduc.org/docs/HOWTO/vf/Unicode-HOWTO.html)

La version anglaise n'est pas non plus à jour (elle a plus de 3 ans!).
C'est quelque chose de ce genre que je cherche, mais à jour. :)



Ah oui, exact. Alors cette "UTF-8 and Unicode FAQ for Unix/Linux"
(proposée dans le HOWTO anglais) :

http://www.cl.cam.ac.uk/~mgk25/unicode.html

qui semble assez à jour (date de dernière modification le 13/06/2004).


Fred

--
Comment poser les questions de manière intelligente ?
http://www.gnurou.org/documents/smart-questions-fr.html
Comment signaler efficacement un bug ?
http://www.chiark.greenend.org.uk/~sgtatham/bugs-fr.html


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Charles Plessy
Salut à tous,

Voici un résumé des conseils que j'ai reçu sur utf8.

<http://charles.plessy.org/utf8.html>

--
Charles


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
1 2 3 4