Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

utf-8 : cauchemard, désolation, désespoir....

38 réponses
Avatar
Charles Plessy
Bonjour à tous,

Afin d'afficher des caractères japonais (je bosse au japon), je suis
passé à UTF-8. Première impression : ça marche. Deuxième impression : il
y a une foultitude de programmes qui déconnent, et ça commence à me
faire perdre beaucoup de temps. En fait, ça me rapelle le temps où
installer une debian qui accepte les accents français était une
aventure...

Parmis ce qui ne marche pas : des chose pas grave: par exemple, la
playlist de xmms n'affiche plus un seul caractère. Un coup de LC_ALL=C
xmms&, et ça repart.

Juste pour un prog, ça irait, et encore... Mais il y a pire :

aspell ne marche plus. Il bute sur les accents français, et les
considère comme des coupures de mots.

emacs n'accepte plus la saisie des accents et autres cédilles. J'ai viré
mon .emacs, rien n'y fait => Je suis passé à vi.

man et less n'acceptent plus que je fasse de recherche en tapant sur
slash. (=> LC_ALL=C man toto)

centericq pète les plombs.


Mais le fond du problème n'est pas là ; voici l'objet premier de mon
mail :

Les fichiers texte que je créé sont en utf8, avec un encodage différent
pour les accents. Ça signifie que mon monde est coupé en deux parties
qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.

D'où deux questions :

1) Le support utf8 est-il encore inutilisable et expérimental ?

2) Si non, qu'ai-je fait d'incorrect pour en arriver là ?

Question subsidiaire : n'y a-t-il pas un unligne qui me permettrait de
récupérer le fruit de mon travail.txt en iso? Ou un moyen de n'utiliser
utf8 que quand s'imisce un caractère oriental ?

voici une illustration du problème:

lidlpenguin|charles|$ cat > toto
skljgfklsdg

lidlpenguin|charles|$ file toto
toto: ASCII text

lidlpenguin|charles|$ cat > toto
ljlfqskjémljsf

lidlpenguin|charles|$ file toto
toto: UTF-8 Unicode text

lidlpenguin|charles|$ env | grep FR
LANG=fr_FR.UTF-8@euro
GDM_LANG=fr_FR.UTF-8@euro

En éspérant qu'il y ait «un médecin dans la salle»,

--
Charles


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

10 réponses

1 2 3 4
Avatar
Charles Plessy
On Wed, Jul 21, 2004 at 01:07:36AM +0200, Iznogood wrote :
Le Tue, 20 Jul 2004 19:18:46 +0200
Julien Louis a écrit :

> On Tue, Jul 20, 2004 at 05:01:00PM +0000, Jean-Luc Coulon (f5ibh)
> wrote:
> >
> > Même aspell et acheck ?
>
> Non malheureusement, et cela m'embète beaucoup :'(

avec un xterm unicode et --encoding=utf-8, ça passe normalement.



Et pour un aspell lancé depuis mutt à travers une connexion ssh?

J'ai l'impression que je touche un problème : l'interaction entre le
terminal d'où est lancé ssh, et le shell distant. Par exemple, je suis
co-administrateur d'une machine. Donc on va mélanger les fichiers iso et
utf, car :

shadow:~# cat > toto
lldkjfqçà

shadow:~# file toto
toto: UTF-8 Unicode text

shadow:~# locale
LANG=fr_FR.ISO-8859-15
LC_CTYPE=""
LC_NUMERIC=""
LC_TIME=""
LC_COLLATE=""
LC_MONETARY=""
LC_MESSAGES=""
LC_PAPER=""
LC_NAME=""
LC_ADDRESS=""
LC_TELEPHONE=""
LC_MEASUREMENT=""
LC_IDENTIFICATION=""
LC_ALL=

=> j'ai beau faire tout mon possible, pas moyen d'éviter l'utf8 là o ù je
n'en veux pas!

(PS : merci à toutes les réponse, qui m'ont rendu un peu de courage)

--
Charles
Avatar
Erwan David
Le Tue 20/07/2004, Leopold BAILLY disait
Charles Plessy writes:

> Les fichiers texte que je créé sont en utf8, avec un encodage différent
> pour les accents. Ça signifie que mon monde est coupé en deux parties
> qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
> de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.

Pour transformer un fichier ISO-* en UTF-8 : recode.



Avec un bémol : la doc est incompréhensible...
...

--
Erwan


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
nicolas
Le Tue, 20 Jul 2004 19:10:04 +0200, Gaëtan PERRIER a écrit :

Comment fait-on pour passer d'iso en utf8 ? Il suffit juste de changer
les locales?



Pour passer en iso ? C'est-à-dire ?
Avoir ton bureau en utf-8 ? Oui, et choisis la bonne locale lors de la
connexion.
Avoir tes fichiers en utf-8 ? Non, il faut recoder tes fichiers texte
avec recode ou konwert.

n.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
nicolas
Le Tue, 20 Jul 2004 19:10:08 +0200, Jean-Luc Coulon (f5ibh) a écrit :

Même aspell et acheck ?



Je n'utilise ni l'un ni l'autre...

n.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
nicolas
Le Wed, 21 Jul 2004 07:20:04 +0200, Erwan David a écrit :

Le Tue 20/07/2004, Leopold BAILLY disait
Charles Plessy writes:





Pour transformer un fichier ISO-* en UTF-8 : recode.





Avec un bémol : la doc est incompréhensible...



Alors utilise konwert.

n.


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Charles Plessy
On Wed, Jul 21, 2004 at 07:18:28AM +0200, Erwan David wrote :
Le Tue 20/07/2004, Leopold BAILLY disait
> Charles Plessy writes:
>
> > Les fichiers texte que je créé sont en utf8, avec un encodage différent
> > pour les accents. Ça signifie que mon monde est coupé en deux parties
> > qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
> > de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.
>
> Pour transformer un fichier ISO-* en UTF-8 : recode.

Avec un bémol : la doc est incompréhensible...



Pas 100% à jour, on dirait :

lidlpenguin|charles|$ cat > toto
é

lidlpenguin|charles|$ recode |grep AVANT
dites selon la syntaxe « AVANT1:APRÈS1,AVANT2:APRÈS2,... »; chaque code AVANT
CODAGE est [CHARSET][/[SURFACE]]...; DEMANDE ressemble souvent à AVANT..APRÈs,
AVANT et APRÈS étant des charsets. Un CHARSET omis sous-entend le charset

lidlpenguin|charles|$ recode UTF-8:ISO-8859-15 toto
recode: Syntaxe désuète, veuillez préférer « UTF-8..ISO-8859-15 »

lidlpenguin|charles|$ file toto
toto: ISO-8859 text


Néanmoins, ça marche :)

lidlpenguin|charles|$ alias unutf='recode UTF-8..ISO-8859-15'

lidlpenguin|charles|$ cat > toto
é

lidlpenguin|charles|$ unutf toto

lidlpenguin|charles|$ file toto
toto: ISO-8859 text

--
Charles


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Erwan David
Le Wed 21/07/2004, Charles Plessy disait
On Wed, Jul 21, 2004 at 07:18:28AM +0200, Erwan David wrote :
> Le Tue 20/07/2004, Leopold BAILLY disait
> > Charles Plessy writes:
> >
> > > Les fichiers texte que je créé sont en utf8, avec un encodage différent
> > > pour les accents. Ça signifie que mon monde est coupé en deux parties
> > > qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8 est
> > > de facto inutilisable, à moins d'aimer avoir des é sur ses pages web.
> >
> > Pour transformer un fichier ISO-* en UTF-8 : recode.
>
> Avec un bémol : la doc est incompréhensible...

Pas 100% à jour, on dirait :

lidlpenguin|charles|$ cat > toto
é

lidlpenguin|charles|$ recode |grep AVANT
dites selon la syntaxe « AVANT1:APRÈS1,AVANT2:APRÈS2,... »; chaque code AVANT
CODAGE est [CHARSET][/[SURFACE]]...; DEMANDE ressemble souvent à AVANT..APRÈs,
AVANT et APRÈS étant des charsets. Un CHARSET omis sous-entend le charset



Si quelqu'un est capable d'expliquer à un béotien ce que sont les
charsets et les surfaces. Et comment on gère les fins de ligne en
plus...


--
Erwan


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
François Boisson
On Tue, 20 Jul 2004 23:10:01 +0900
Charles Plessy wrote:

Bonjour à tous,




Erwan David a évoqué il y a un ou deux mois gnu-recode (paquet recode d ans
Debian):

Character set conversion utility

Free `recode' converts files between character sets and usages. When exact
transliterations are not possible, it may get rid of the offending
characters or fall back on approximations. This program recognizes or
produces nearly 300 different character sets and is able to transliterate
files between almost any pair. Most RFC 1345 character sets, and all
`libiconv' character sets, are supported.


A mon avis, ça te sera utile


François Boisson
Avatar
Jean-Luc Coulon (f5ibh)
--=-MXv/28O5KjLm6t8P4abB
Content-Type: text/plain; charset=ISO-8859-15; DelSp=Yes; Format=Flowed
Content-Disposition: inline
Content-Transfer-Encoding: quoted-printable

Le 20.07.2004 23:07:47, Damien Raude-Morvan a écrit :
« -----BEGIN PGP SIGNED MESSAGE-----
« Hash: SHA1
«
« Le mardi 20 Juillet 2004 22:25, Jean-Luc Coulon (f5ibh) a écrit :
« > Le 20.07.2004 21:21:05, Leopold BAILLY a écrit :
« > « Charles Plessy writes:
« > «
« > « > Les fichiers texte que je créé sont en utf8, avec un enco dage
« > « différent
« > « > pour les accents. Ça signifie que mon monde est coupé en deux
« > « parties
« > « > qui s'ignorent : iso, et utf8. Tout ce que je fais en utf8
« est
« > « > de facto inutilisable, à moins d'aimer avoir des é sur ses
« pages
« > « web.
« >
« > Un « é » (par exemple) se code é pour éviter ce genre de
« > problème. Ensuite, il faudra, comme le dit Léo, préciser le
« charset
« > utilisé dans l'en-tête. Dans ce cas, ça ne pose aucun problè mes
« aux
« > navigateurs.
«
« Si on utilise les entités HTML, un charset UTF-8 ne présente plus
« beaucoup
« d'intéret.
« UTF-8 sert justement à éliminer la présence des entités dans l es
« pages HTML
« pour les remplacer par leur « vrai » codage.

Ca, c'est préjuger (favorablemet) de la manière dont le navigateur du
*client* va interpréter les choses. Si on veut pouvoir être lu par les
divers navigateurs du marché, c'est quand même préférable d'utilise r
les entités HTML.

--
- Jean-Luc
«
« - --
« Damien Raude-Morvan - DrazziB


--=-MXv/28O5KjLm6t8P4abB
Content-Type: application/pgp-signature; name=signature.asc
Content-Disposition: attachment; filename=signature.asc

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.2.4 (GNU/Linux)

iD8DBQBA/iqyUdGGXzzGnNARAuwQAJ9zh+Yz1Z/Lt4n+gv1fm5YnAtTE0wCff0IC
yEimXHAj6Cxfo+0UroQp4j4 =Zfb0
-----END PGP SIGNATURE-----

--=-MXv/28O5KjLm6t8P4abB--


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Gaëtan PERRIER
Le Wed, 21 Jul 2004 07:49:39 +0200
nicolas a écrit:

Le Tue, 20 Jul 2004 19:10:04 +0200, Gaëtan PERRIER a écrit :

> Comment fait-on pour passer d'iso en utf8 ? Il suffit juste de
> changer les locales?

Pour passer en iso ? C'est-à-dire ?



non pas passer en iso j'y suis actuellement et je me demandais comment
se passer la migration d'un système complet en utf8.

Avoir ton bureau en utf-8 ? Oui, et choisis la bonne locale lors de
la connexion.
Avoir tes fichiers en utf-8 ? Non, il faut recoder tes fichiers
texte avec recode ou konwert.



Par contre une fois en utf8 tous mes fichiers seront créés en utf8,
c'est bien ça?
1 2 3 4