Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

conversion UTF-8 vers ISO-8859-1

20 réponses
Avatar
Dominique Asselineau
Bonjour,

En éditant un fichier avec Emacs, le texte a été sauvé en UTF-8, ce
qui ne me convient pas. Je ne trouve pas le moyen de le repasser en
ISO-8859-1 (Latin1).

Auriez-vous une solution simple pour faire cette conversion ?

Merci.

Dominique
--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

10 réponses

1 2
Avatar
antoine
> > > recode u8..h fichier.html # de UTF-8 à HTML 4.0
> > recode l1..h3 fichier.html # de latin-1 à HTML 3.2
> > recode ..h4 fichier.html # de « locale » vers HTML 4.0
> Comment savoir si on doit recoder avec :
> "u8..h" , "l1..h3" , "..h4" ?
> ça dépend de l'en-tête du fichier.HTML ?
Si le charset y est indiqué, oui.
Sinon, il faut le retrouver soi-même.


--------------------------------------------------
Dans ce type de page .HTML :

========================= =====
<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859- 1" />
========================= =====

Quelle ligne doit être tapée ?
----------------
J'ai vu aussi cette ligne :
recode -d -x l8 ..h4/ fichier.html

antoine

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Sylvain Sauvage
antoine, lundi 12 mai 2008, 16:26:33 CEST

> > > recode u8..h fichier.html # de UTF-8 à HTML 4.0
> > > recode l1..h3 fichier.html # de latin-1 à HTML 3.2
> > > recode ..h4 fichier.html # de « locale » ve rs HTML
> > > 4.0
> > Comment savoir si on doit recoder avec :
> > "u8..h" , "l1..h3" , "..h4" ?
> > ça dépend de l'en-tête du fichier.HTML ?
> Si le charset y est indiqué, oui.
> Sinon, il faut le retrouver soi-même.
--------------------------------------------------
Dans ce type de page .HTML :

======================== ======
<?xml version="1.0" encoding="iso-8859-1"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"
lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html;
charset=iso-8859-1" />
======================== ======

Quelle ligne doit être tapée ?



Ça dépend.

Le morceau cité est :
— du xml en latin1 (= iso-8859-1) (1re ligne) ;
— du xhtml (lignes 2 et 3), en latin1 (ligne 4).

Ça tombe bien, les déclarations sont cohérentes.

Mais ce ne sont que des déclarations. Le fichier peut utiliser
un autre jeu de caractères. Dans ce cas, il faut le retrouver.
file peut aider. emacs aussi (le jeu est indiqué en bas, dans la
barre d’état). Ou alors il faut tenter d’autres jeux q ue l1 avec
recode.

Les déclarations indiquent que tous les caractères du charset
latin1 sont valides. Si le fichier n’utilise pas d’autre je u de
caractères, il n’y a pas vraiment de raison de les transformer en
entités HTML. Toutefois, si on veut le faire, on ferait

recode l1..h4 fichier.html

pour avoir &eacute; et ses copains, et

recode l1..h0 fichier.html

pour les avoir en numérique.

----------------
J'ai vu aussi cette ligne :
recode -d -x l8 ..h4/ fichier.html



Cette commande :
— recode (recode)
— les caractères accentués (-d)
— de fichier.html   (fichier.html)
— en entités HTML 4.0 (..h4/)
— depuis le jeu de caractères local ()
— sans utiliser le jeu celtic (-x l8)

Lorsque recode cherche un chemin de recodage, il doit parfois
passer par des jeux de caractères intermédiaires. Le '-x l8' lui
indique de ne pas passer par le jeu de caractères celtique
(latin8). Je ne sais pas pourquoi ton exemple évite
particulièrement l8.

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
antoine
> > <?xml version="1.0" encoding="iso-8859-1"?>
> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0
> Strict//EN"
> "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"
> lang="en">
> <head>
> <meta http-equiv="Content-Type" content="text/html;
> charset=iso-8859-1" />
> ======================= =======
> Quelle ligne doit être tapée ?
Ça dépend.
Le morceau cité est :
— du xml en latin1 (= iso-8859-1) (1re ligne) ;
— du xhtml (lignes 2 et 3), en latin1 (ligne 4).
Ça tombe bien, les déclarations sont cohérentes.
Mais ce ne sont que des déclarations. Le fichier peut utiliser
un autre jeu de caractères. Dans ce cas, il faut le retrouver.
file peut aider. emacs aussi (le jeu est indiqué en bas, dans la
barre d’état). Ou alors il faut tenter d’autres jeux que l1 avec
recode.
recode l1..h4 fichier.html
pour avoir &eacute; et ses copains, et
recode l1..h0 fichier.html
pour les avoir en numérique.
> recode -d -x l8 ..h4/ fichier.html
— recode (recode)
— les caractères accentués (-d)
— de fichier.html   (fichier.html)
— en entités HTML 4.0 (..h4/)
— depuis le jeu de caractères local ()
— sans utiliser le jeu celtic (-x l8)
Lorsque recode cherche un chemin de recodage, il doit parfois
passer par des jeux de caractères intermédiaires. Le '-x l8' lui
indique de ne pas passer par le jeu de caractères celtique
(latin8). Je ne sais pas pourquoi ton exemple évite
particulièrement l8.
Sylvain Sauvage


-------------------------------------
Merci et très intéressant.
----------
Mais ce que je ressens est une bien trop grande complexité pour pas gr and
chose càd juste transformer des caractères accentués en leur code html.
Et de plus, à quoi servent ces "latin de 1 à 9 ..."
Pourquoi faire simple, si on peut faire compliqué !

antoine

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Sylvain Sauvage
antoine, lundi 12 mai 2008, 20:35:16 CEST
[…]
Mais ce que je ressens est une bien trop grande complexité
pour pas grand chose càd juste transformer des caractères
accentués en leur code html.



Rien n’est jamais aussi simple qu’il le paraît. Et p lus on
creuse, moins c’est simple.

Et de plus, à quoi servent ces "latin de 1 à 9 ..."



http://fr.wikipedia.org/wiki/Charset

Pourquoi faire simple, si on peut faire compliqué !



C’est justement parce que ça été fait trop simple au début
(US-ASCII) que c’est très vite devenu très compliqué.

L’informatique est une discipline très jeune et pourtant
extrêmement conservatrice (la compatibilité ça pue, des fois ).

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Stephane Bortzmeyer
On Mon, May 12, 2008 at 08:35:16PM +0200,
antoine wrote
a message of 60 lines which said:

Mais ce que je ressens est une bien trop grande complexité



N'hésitez pas, convainquez tout le monde de passer à Unicode et tout
sera plus simple. Je vous préviens toutefois qu'il faudra un certain
charisme...

pour pas grand chose càd juste transformer des caractères accentués
en leur code html.



En effet, c'est la vraie question, pourquoi diable vouloir convertir
en entités numériques ? Pourquoi ne pas laisser le é être un é et
pourquoi tenir à le transformer en &eacute; ?

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
fra-duf-no-spam
Le 14011ième jour après Epoch,
écrivait:

— sans utiliser le jeu celtic (-x l8)
Lorsque recode cherche un chemin de recodage, il doit parfois
passer par des jeux de caractères intermédiaires. Le '-x l8' l ui
indique de ne pas passer par le jeu de caractères celtique
(latin8). Je ne sais pas pourquoi ton exemple évite
particulièrement l8.
Sylvain Sauvage





A mon avis, c'est un exemple Écossais... Ils aiment pas tous les celtes
:)

Pourquoi faire simple, si on peut faire compliqué !



Parce que si tu sors un peu de ton contexte franco-français, tu te dis
qu'il y a plein de gens qui utilisent des accents qui sont pas les
mêmes que les tiens, et avant l'avènement de l'UTF-8, ben tous ne
tenaien pas en 256 cases...

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Dominique Asselineau
François TOURDE wrote on Sun, May 11, 2008 at 01:48:32PM +0200
Le 14010ième jour après Epoch,
Dominique Asselineau écrivait:

> Bonjour,
>
> En éditant un fichier avec Emacs, le texte a été sauvé en UTF-8, ce
> qui ne me convient pas. Je ne trouve pas le moyen de le repasser en
> ISO-8859-1 (Latin1).

Tu fais un "C-x RET f" sous emacs, et tu choisis ton encodage, puis tu
sauves le fichier.



Merci, ça marche parfaitement. Au passage, j'ai été impressionné par
la liste des standards. Je ne serais pas étonné qu'il y ait des
alphabets anciens comme celui de l'Araméen par ex...

Dominique


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact




--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
antoine
> > Pourquoi faire simple, si on peut faire compliqué !


--------
Parce que si tu sors un peu de ton contexte franco-français, tu te d is
qu'il y a plein de gens qui utilisent des accents qui sont pas les
mêmes que les tiens, et avant l'avènement de l'UTF-8, ben tous ne
tenaien pas en 256 cases...


----------------
Il n'y a pas de caractères accentués tant que ça entre le fr anco-français et
les autres langues à base latines.

Et puis on en est plus au microprocesseur 8 bits => (256 caractères).

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
fra-duf-no-spam
Le 14011ième jour après Epoch,
écrivait:

> Pourquoi faire simple, si on peut faire compliqué !


--------
Parce que si tu sors un peu de ton contexte franco-français, tu te dis
qu'il y a plein de gens qui utilisent des accents qui sont pas les
mêmes que les tiens, et avant l'avènement de l'UTF-8, ben tous ne
tenaien pas en 256 cases...


----------------
Il n'y a pas de caractères accentués tant que ça entre le franco-français et
les autres langues à base latines.



Non, mais il y a plein d'autres symboles, glyphes, dessins, etc... que
tout le monde voulait mettre, et du coup tout ne tenait pas.

Et puis on en est plus au microprocesseur 8 bits => (256
caractères).



Oui, mais on y était, à un moment, non? Du coup pour préserv er la
sacro-sainte compatibilité, on a toujours un peu de mal à passer à
l'UTF-8 de façon radicale et immédiate.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Stephane Bortzmeyer
On Mon, May 12, 2008 at 10:18:28AM +0200,
Dominique Asselineau wrote
a message of 40 lines which said:

Au passage, j'ai été impressionné par la liste des standards. Je ne
serais pas étonné qu'il y ait des alphabets anciens comme celui de
l'Araméen par ex...



Dans Unicode ? Oui, mais l'araméen ancien a suscité bien des
polémiques (en gros, est-il distinct de l'alphabet hébreu ou
pas). Unicode 5.0 a introduit l'alphabet phénicien, que la majorité
des sémitistes considèrent comme équivalent à l'araméen ancien.

http://www.unicode.org/charts/PDF/U10900.pdf

Par contre, il n'existait à ma connaissance aucune norme pour cette
écriture avant Unicode, comme c'est le cas de la plupart des écritures
mortes.

Pour s'instruire :

http://www.unicode.org/charts/

Pour s'amuser :

http://www.bortzmeyer.org/unicode-5.1.html

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/DebFrFrenchLists
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
1 2