OVH Cloud OVH Cloud

passer à UTF8

39 réponses
Avatar
Gaëtan PERRIER
Bonjour,

Quelle est la m=E9thode "propre" (fa=E7on Debian) pour passer de
fr_Fr@euro en UTF8?

Merci.

Ga=EBtan

10 réponses

1 2 3 4
Avatar
Gaëtan PERRIER
Le Tue, 13 Dec 2005 21:21:38 +0100
Gaëtan PERRIER a écrit:


Bon et bien je vais me lancer dès que j'aurais un moment...

Merci.

Gaëtan





Donc je me suis lancé et bien évidement j'ai des problèmes.
Pour l'instant je bloque sur Gnucash qui semble avoir très mal vécu
le passage en utf8... Les polices pour les menus passent mal, j'ai
modifié les polices pour l'affichage dans les registres mais le
résultat n'est pas satisfaisant... J'ai regardé dans le fichier xml
mais je ne sais pas comment sont encodés les caractères accentués
dedans.

Gaëtan
Avatar
Vincent Lefevre
On 2005-12-17 22:26:23 +0100, Gaëtan PERRIER wrote:
Pour l'instant je bloque sur Gnucash qui semble avoir très mal vécu
le passage en utf8... Les polices pour les menus passent mal, j'ai
modifié les polices pour l'affichage dans les registres mais le
résultat n'est pas satisfaisant... J'ai regardé dans le fichier xml
mais je ne sais pas comment sont encodés les caractères accentués
dedans.



L'encodage est indiqué au début de tout fichier XML, dans le prologue
(par défaut, c'est UTF8) et est complètement indépendant des locales;
et le jeu de caractères est toujours Unicode. Par conséquent, un
changement des locales ne devraient avoir aucun effet à ce niveau.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% accessible validated (X)HTML - Blog: <http://www.vinc17.org/blog/>
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
steve
Bonsoir,

le unicode n'a pas que du bon ; à lire :

http://www.schneier.com/blog/archives/2005/02/unicode_url_hac_1.html


a+

--
steve
jabber :
Avatar
RTyler
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

steve a écrit :
Bonsoir,

le unicode n'a pas que du bon ; à lire :

http://www.schneier.com/blog/archives/2005/02/unicode_url_hac_1.html



C'est le problème du pishing si je ne m'abuse. Il est pris en compte par
les navigateurs (même le futur IE) maintenant, cela ne devrait pas trop
poser de problème. Ceci dit je ne sais pas trop comment ils identifient
le pishing (quelqu'un pour développer ?) et donc peut-être que la
méthode n'est pas infaillible.

Quoiqu'il en soit (le cas particulier) UTF-8 (et non unicode) présente
un petit désagrément : les textes prennent plus de place. Autre
désagrément : autant il est rétro-compatible avec ascii autant pour tous
les autres alphabets non dérivés de l'ascii (le chinois, l'arabe, ...)
c'est plus ennuyant et la place que prends le texte devient bien plus
grande (30% je crois environ).



a+



Idem.

RTyler


- --



- ---------------------------------------------------------------------
Ma clé GPG est disponible sur http://www.keyserver.net (0x2B8BE385)
- ---------------------------------------------------------------------
_____________________________________________________
| Protégez votre vie privée: |
|||/ | - Signez/chiffrez vos messages. __|
q o - p | Respectez celle des autres: | /
__mn___^_/_nm__| - Masquez les destinataires de vos mailings |/
|__________________________________________________/
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.2 (GNU/Linux)

iD8DBQFDpIjPXBAlpiuL44URAo/EAJ9TEXmfK/345zcjeg4p30Qn06Pl6QCgnWMK
uCgStBonnQt66oitE8pwBxI =vVEp
-----END PGP SIGNATURE-----


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Stephane Bortzmeyer
On Sat, Dec 17, 2005 at 10:39:29PM +0100,
steve wrote
a message of 12 lines which said:

http://www.schneier.com/blog/archives/2005/02/unicode_url_hac_1.html



D'habitude, j'apprécie beaucoup tous les articles de Schneier mais
celui-ci est vraiment idiot. La même attaque est possible sans Unicode
(www.goog1e.com, par exemple).

Et, de toute façon, Schneier ne propose aucune alternative (à part
rester en US-ASCII, ce qui ne convient qu'aux anglophones et
néérlandophones).


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Stephane Bortzmeyer
On Sat, Dec 17, 2005 at 10:53:19PM +0100,
RTyler wrote
a message of 62 lines which said:

les textes prennent plus de place.


...
la place que prends le texte devient bien plus grande (30% je crois
environ).



C'est vraiment un argument absurde. Se préoccuper de la place du texte
à l'époque où on transmet des vidéos par le réseau et s'inquiéter de
30 % d'augmentation alors que, depuis l'invention de l'ASCII, la
taille de la mémoire physique d'un ordinateur bas de gamme a été
multipliée par mille.



--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2005-12-17 22:39:29 +0100, steve wrote:
le unicode n'a pas que du bon ; à lire :

http://www.schneier.com/blog/archives/2005/02/unicode_url_hac_1.html



Ce n'est pas spécifique à Unicode; il y a le même genre de problèmes
en ASCII, suivant les fontes (1 vs l vs I, et 0 vs O). Et passer à
UTF8 ne change pas grand chose: les navigateurs web graphiques
affichent de l'Unicode, quelles que soient les locales. Et pour les
navigateurs texte, rester dans un jeu de caractères limité, comme
ISO-8859-1, peut présenter un risque plus grand qu'UTF8, puisque les
caractères non représentables doivent être convertis en caractères
du jeu cible; dans certains cas, de faibles différences entre deux
caractères différents peuvent même disparaître.

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% accessible validated (X)HTML - Blog: <http://www.vinc17.org/blog/>
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Vincent Lefevre
On 2005-12-17 22:53:19 +0100, RTyler wrote:
C'est le problème du pishing si je ne m'abuse. Il est pris en compte par
les navigateurs (même le futur IE) maintenant, cela ne devrait pas trop
poser de problème.



Pas par Firefox 1.5, qui tente d'ouvrir l'exemple de Stéphane sans
rien signaler.

Quoiqu'il en soit (le cas particulier) UTF-8 (et non unicode) présente
un petit désagrément : les textes prennent plus de place.



La différence est faible, et de toute façon, ce qui prend de la place
aujourd'hui, ce ne sont pas les textes, mais surtout les vidéos, et
dans une moindre mesure les images et les fichiers audio, ou d'autres
types de données. Si tu tiens une bibliothèque textuelle, alors il
faut considérer la compression des textes, qui peuvent faire gagner
environ 70%, et entre un texte ISO-8859-1 (ou 15) compressé et un
texte UTF8 compressé, il n'y a aucune différence.

Autre désagrément : autant il est rétro-compatible avec ascii autant
pour tous les autres alphabets non dérivés de l'ascii (le chinois,
l'arabe, ...) c'est plus ennuyant et la place que prends le texte
devient bien plus grande (30% je crois environ).



Après compression, il me semble qu'il doit y avoir peu de différence
(et pourquoi pas considérer UTF-16 directement...).

--
Vincent Lefèvre - Web: <http://www.vinc17.org/>
100% accessible validated (X)HTML - Blog: <http://www.vinc17.org/blog/>
Work: CR INRIA - computer arithmetic / SPACES project at LORIA


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
RTyler
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Vincent Lefevre a écrit :
On 2005-12-17 22:53:19 +0100, RTyler wrote:

C'est le problème du pishing si je ne m'abuse. Il est pris en compte par
les navigateurs (même le futur IE) maintenant, cela ne devrait pas trop
poser de problème.




Pas par Firefox 1.5, qui tente d'ouvrir l'exemple de Stéphane sans
rien signaler.



Ah oui ? Il me semblait que Firefox intégrait le pishing depuis Firefox
1.0.jesaispluscombien. Normalement il l'ouvre mais indique quelque chose
dans la barre d'état (après tout il ne peut pas savoir si le site est le
bon ou pas).



Quoiqu'il en soit (le cas particulier) UTF-8 (et non unicode) présente
un petit désagrément : les textes prennent plus de place.




La différence est faible, et de toute façon, ce qui prend de la place
aujourd'hui, ce ne sont pas les textes, mais surtout les vidéos, et
dans une moindre mesure les images et les fichiers audio, ou d'autres
types de données. Si tu tiens une bibliothèque textuelle, alors il
faut considérer la compression des textes, qui peuvent faire gagner
environ 70%, et entre un texte ISO-8859-1 (ou 15) compressé et un
texte UTF8 compressé, il n'y a aucune différence.



Oui bien entendu, je cherche juste à montrer les vrais inconvénients de
UTF-8. Ce que je cherchais à dire c'est que ce qui est reproché à
unicode (et donc en particulier UTF-8, pour recentrer le débat) n'est
pas un inconvénient à proprement parler (la preuve avec le pishing en
ascii auquel je n'avais pas pensé) d'autant qu'il peut être contourné.



Autre désagrément : autant il est rétro-compatible avec ascii autant
pour tous les autres alphabets non dérivés de l'ascii (le chinois,
l'arabe, ...) c'est plus ennuyant et la place que prends le texte
devient bien plus grande (30% je crois environ).




Après compression, il me semble qu'il doit y avoir peu de différence
(et pourquoi pas considérer UTF-16 directement...).



En effet je dirais même aucune il me semble, puisque ne sont représenté
que les caractères rencontrés et avec un jeu d'encodage s'adaptant au
nombre de caractères rencontrés.


- --



- ---------------------------------------------------------------------
Ma clé GPG est disponible sur http://www.keyserver.net (0x2B8BE385)
- ---------------------------------------------------------------------
_____________________________________________________
| Protégez votre vie privée: |
|||/ | - Signez/chiffrez vos messages. __|
q o - p | Respectez celle des autres: | /
__mn___^_/_nm__| - Masquez les destinataires de vos mailings |/
|__________________________________________________/
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.2 (GNU/Linux)

iD8DBQFDpKLYXBAlpiuL44URAqrpAJ0bW02jGYMwxOllG/ud2Krwx5QFFgCfRB0J
gw7PKJsU1jPFsBN2bstFDxQ =qqmK
-----END PGP SIGNATURE-----


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Sylvain Sauvage
Samedi 17 décembre 2005, 22:48:10 CET, Stephane Bortzmeyer a écrit :

On Sat, Dec 17, 2005 at 10:39:29PM +0100,
steve wrote
a message of 12 lines which said:

> http://www.schneier.com/blog/archives/2005/02/unicode_url_hac_1.html

D'habitude, j'apprécie beaucoup tous les articles de Schneier mais
celui-ci est vraiment idiot. La même attaque est possible sans Unicode
(www.goog1e.com, par exemple).

Et, de toute façon, Schneier ne propose aucune alternative (à part
rester en US-ASCII, ce qui ne convient qu'aux anglophones et
néérlandophones).



Et même pas tous les anglophones : au moins « café » et, pour les
éditeurs/typographes américains, « Münster »¹.

¹ : oui, je sais, c'est « Munster », mais lire le TeXBook ;o)

--
Sylvain Sauvage
1 2 3 4