OVH Cloud OVH Cloud

[charset iso] codage ou non des accents?

26 réponses
Avatar
DN
Bonjour,

Notre site Internet est en langue francaise avec parfois de l'espagnol,
allemand et angla

Nous déclarons notre site en ISO-8859-15, mais nous continuons à coder en
entité symbolique (exemple avec é = é)

Ma question est : est ce inutile? peut on saisir directement les accents,
apostrophe etc?

J'ai essayé de passer en UFT-8, mais cela est desastreux. Pourquoi? parce
qu'il faut convertir les entité symbolique en UFT-8? ex : é => C389 ?
si oui, je suppose qu'il y a des moulinettes specialisées dans la
conversion?

l'uft-8 est il le futur?

il y a un tableau des caracteres http://www.miakinen.net/vrac/c10/charsets
dont l'auteur fait partie de ce forum. Tres bien mais complexe a comprendre.
Dommage qu'il n'y ai pas de mode operatoire pour comprendre les laisons.etc.

Merci de votre eclaircissement
--
Denis

10 réponses

1 2 3
Avatar
DN
"Pierre Goiffon" a écrit dans le message de
news:436f3f8b$0$10500$

DN wrote:

> Nous déclarons notre site en ISO-8859-15, mais nous continuons à coder


en
> entité symbolique (exemple avec é = é)

Que sous-entend ce "déclarer" ? Entêtes HTTP ? Meta ?



ex : http://www.cramif.fr/assures/connaitre_vosdroits/invalidite_accueil.asp

entete serveur :
-----------------------------------------
HTTP/1.1 200 OK
Date: Wed, 21 Sep 2005 11:56:36 GMT
Server: Apache
Content-Length: 35689
Content-Type: text/html
Set-Cookie: ASPSESSIONIDSQQBQCQR=JGBLJHNCFFHDAANIL
BCBHPPI; path=/
Cache-control: private
Via: 1.1 www.cramif.fr
X-Cache: MISS from www.cramif.fr
Connection: close
-----------------------------------------
remarque : le charset est absent coté serveur. J'essaye de voir ca avec
l'administrateur reseaux.

entete code xhtml :
-----------------------------------------
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
<head>
<title>Pension d'invalidité-Cramif-Sécurité sociale</title>
<meta name="Description" content="La Cramif : bénéficier d'une pension
d'invalidité, connaître ses droits et obligation en matière d'invalidité,
compléter sa pension avec l'allocation du FSI." />
<meta name="Keywords" content="Cramif, invalidité, pension, Sécurité
sociale,invalide, pension d'invalidité, revenu, prestations, allocation,
contrôle médical, contrôle administratif." />
<meta http-equiv="content-type" content="text/html;charset=iso-8859-15" />
-----------------------------------------
la balise meta est laissé pour compatibilité : cas où le XHTML est lu comme
du HTML invalide.

JE PASSE MAINTENANT EN UFT-8
ex : ex :
http://www.cramif.fr/assures/connaitre_vosdroits/essai_utf8/invalidite_accueil_uft8.asp
a vrai dire, j'ai laissé les accents en brut. Mais tout de meme, ca detruit
la structure de la page.

Je pense finalement rester en iso-8859-1 ou iso-8859-15 car nous avons plus
de 1 000 pages.. et j'ai peur d'avoir a gerer des consequences non
negligeable en matiere de modification. De plus, nous travaillons avec
Homesite qui semble ne pas gerer l'UTF-8

merci.
Denis
Avatar
loufoque
DN a écrit :

ex : http://www.cramif.fr/assures/connaitre_vosdroits/invalidite_accueil.asp

remarque : le charset est absent coté serveur. J'essaye de voir ca avec
l'administrateur reseaux.



Tu peux (dois) choisir le charset que tu envoies avec ASP.
Tout ce que l'administrateur réseau peut faire c'est demander à ASP
d'envoyer un certain charset par défaut.
Avatar
Patrick Mevzek
Le Mon, 07 Nov 2005 14:15:53 +0100, DN a écrit :
Je pense finalement rester en iso-8859-1 ou iso-8859-15 car nous avons plus
de 1 000 pages.. et j'ai peur d'avoir a gerer des consequences non
negligeable en matiere de modification. De plus, nous travaillons avec
Homesite qui semble ne pas gerer l'UTF-8



iconv -f ISO8859-15 -t UTF8
permet de convertir un document d'un jeu de caractères à un autre
(parmi des milliers d'autres paires de jeux de caractères autorisant une
convertion)

Cela peut être automatisé avant passage sur le serveur web :
personnellement j'édite mes pages en ISOLATIN1 (plus pratique pour les
éditeurs et les terminaux), et lors de la publication sur le web, parmi
différentes choses, il y a passage automatique en UTF8 (et remplacement
de l'apostrophe par la vraie élision française qui a un code à part en
UNICODE, mais ca ce n'est pas iconv qui le fait).

--
Patrick Mevzek . . . . . . Dot and Co (Paris, France)
<http://www.dotandco.net/> <http://www.dotandco.com/>
Dépêches sur le nommage <news://news.dotandco.net/dotandco.info.news>
Avatar
loufoque
Pierre Goiffon a écrit :

Quelle norme ??



ISO-8859-15, a priori, si l'on suit la discussion.


Il faudrait vraiment détailler ce qui te permet de lancer ces 2
affirmations ! Dans l'absolu je ne vois aucune raison censée qui
pourrait les soutenir, mais je ne demande qu'à changer d'avis...



Je suppose qu'il veut dire par là qu'ISO-8859-15 permet plus de
caractères que ISO-8859-1 mais moins que windows-1252.
Avatar
loufoque
DN a écrit :

l'uft-8 est il le futur?



Oui, moi je n'utilise plus qu'Unicode pour coder toutes mes chaînes de
caractères.
Ça permet de travailler avec n'importe quel caractère au monde d'une
façon unique.
Avatar
Pierre Goiffon
Patrick Mevzek wrote:
iconv -f ISO8859-15 -t UTF8



Oui, ou sous Windows on peut utiliser Recode :
http://recode.progiciels-bpi.ca/
Avatar
Pierre Goiffon
DN wrote:
ex : http://www.cramif.fr/assures/connaitre_vosdroits/invalidite_accueil.asp


(...)
remarque : le charset est absent coté serveur. J'essaye de voir ca avec
l'administrateur reseaux.



En ASP vous pouvez préciser le codage utilisé

Dans la page dont je vous donnais l'adresse, il est fait référence à un
document du W3C (chapitre "paramétrer le serveur"). Ce document décrit
par exemple comment indiquer un codage en ASP (propriété
Response.ContentEncoding)

JE PASSE MAINTENANT EN UFT-8
ex : ex :
http://www.cramif.fr/assures/connaitre_vosdroits/essai_utf8/invalidite_accueil_uft8.asp



Vous n'avez pas modifié la page mais juste l'information de codage qui
est envoyée : le contenu reçu par le navigateur est bien toujours codé
en Latin-1 ou 9, mais on lui dit qu'il faut le lire en UTF-8, d'où les
prb... Un moyen simple de le constater, dans Firefox par exemple vous
pouvez repasser manuellement en Latin-1 dans le menu View / Character
encoding (dans MSIE, c'est Affichage / Codage)

Je pense finalement rester en iso-8859-1 ou iso-8859-15 car nous avons plus
de 1 000 pages.. et j'ai peur d'avoir a gerer des consequences non
negligeable en matiere de modification. De plus, nous travaillons avec
Homesite qui semble ne pas gerer l'UTF-8



On doit pouvoir enregistrer, mais ça ne semble pas très bien supporté :
http://www.macromedia.com/support/documentation/en/homesite/55/releasenotes.html
(1ere "known issues")
Avatar
Olivier Miakinen
Le 07/11/2005 11:05, DN a écrit :

Notre site Internet est en langue francaise avec parfois de l'espagnol,
allemand et anglais

Nous déclarons notre site en ISO-8859-15, mais nous continuons à coder en
entité symbolique (exemple avec é = &eacute;)

Ma question est : est ce inutile? peut on saisir directement les accents,
apostrophe etc?



Oui, tu peux saisir directement les accents en ISO-8859-15. Il est
d'ailleurs généralement recommandé d'utiliser plutôt ISO-8859-1, ou
(mieux) UTF-8.

J'ai essayé de passer en UFT-8, mais cela est desastreux. Pourquoi? parce
qu'il faut convertir les entité symbolique en UFT-8? ex : &eacute; => C389 ?
si oui, je suppose qu'il y a des moulinettes specialisées dans la
conversion?



Rassure-moi : c'est bien UTF-8 que tu as déclaré et pas UFT-8 ? Parce
que dans le dernier cas c'est normal si ça ne marche pas.

En UTF-8, comme en ISO-8859-1 ou ISO-8859-15, tu peux aussi bien
utiliser les entités symboliques que saisir directement les caractères
accentués. Mais bien sûr, pour saisir les caractères directement, il
faut que ton éditeur de texte sauvegarde le résultat dans l'encodage
déclaré.

l'uft-8 est il le futur?



L'UTF-8, certainement. C'est même le présent : il te permet de ne pas
avoir besoin de changer de table de caractères quand tu passes du
français au russe ou au japonais (cela dit, tant que tu n'as que les
quatre langues citées ci-dessus, ISO-8859-1 suffit).

il y a un tableau des caracteres http://www.miakinen.net/vrac/c10/charsets
dont l'auteur fait partie de ce forum. Tres bien mais complexe a comprendre.
Dommage qu'il n'y ai pas de mode operatoire pour comprendre les laisons.etc.



La version finale est là (cette url ne changera pas, contrairement aux
différentes versions c01, c02, ..., c10, etc.) :
http://www.miakinen.net/vrac/charsets/

Il y a une mini-doc ici :
http://www.miakinen.net/vrac/charsets/doc
mais il faudrait que je prenne le temps de développer un peu.

Merci de votre eclaircissement



Je vois qu'il y a eu de nombreuses réponses à ton article, que je vais
lire maintenant.

--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)
Avatar
Olivier Miakinen
Le 07/11/2005 12:00, DN a écrit :

Sinon, utilisez les tables de caractères du sémillant Olivier Miakinen
sur http://www.miakinen.net/vrac/charsets/ pour savoir ce à quoi vous
avez le droit dans ce codage (largement l'essentiel).



Justement, je ne comprends pas grand chose entre "À la même position dans
toutes les tables " et "Le même glyphe dans toutes les tables ". difficile a
interpreter les deux tableaux. une petite explication sur un exemple concret
aurai été la bienvenue sur ce site tres pratique.



Prenons comme exemple l'¤ dans ISO-8859-15. Il a comme numéro 164 dans
cette table, ce qui signifie que si ta page contient un octet composé
des bits 10100100 (A4 en hexa, 164 en décimal), et que tu déclares comme
encodage ISO-8859-15, cela affichera un ¤ chez le visiteur.

Le premier tableau t'indique ce qui se passe si tu continues d'envoyer
cette valeur 164, mais que tu indiques un autre encodage. Par exemple,
si ta page déclare envoyer de l'ISO-8859-1 ou du CP1252, le navigateur
doit afficher un symbole monétaire (le petit rond à 4 pointes) à la
place. Si ta page déclare envoyer du CP850 ou du CP437, le même octet
164 sera affiché comme un ñ minuscule. Et si tu déclares envoyer de
l'ASCII, le navigateur peut afficher n'importe quoi (par exemple un
point d'interrogation) puisque un tel caractère n'existe pas.

Le second tableau t'indique quelle valeur tu dois envoyer à la place de
164 pour faire afficher le même ¤ dans une autre table. Par exemple,
avec CP1252, c'est la chaîne de bits 10000000 (80 hexa ou 128 décimal)
qui sera affichée comme un ¤.

Enfin, que le caractère existe ou non dans la table déclarée par ta
page, tu peux toujours l'envoyer sous forme d'entité numérique (&#8364;
pour ¤) ou symbolique (&euro;). Ceci fonctionne pour toutes les tables
pour lesquelles l'ASCII est préservé, donc pour les 6 tables 8 bits de
ma page, mais aussi l'UTF-8.

--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)
Avatar
Olivier Miakinen
Le 07/11/2005 14:15, DN a écrit :

JE PASSE MAINTENANT EN UFT-8
ex : ex :
http://www.cramif.fr/assures/connaitre_vosdroits/essai_utf8/invalidite_accueil_uft8.asp
a vrai dire, j'ai laissé les accents en brut. Mais tout de meme, ca detruit
la structure de la page.



C'est normal. Tant que tu restes dans l'un des encodages 8 bits
ISO-8859-1, ISO-8859-15 ou CP1252, le « é » reste encodé pareil
(code 233 en décimal, E9 en hexa, soit avec la chaîne de bits
11101001). Pour passer ta page en UTF-8, ce 11101001 doit devenir
1100001110101001, soit C3A9 en hexadécimal. Il ne suffit donc pas de
dire « j'envoie de l'UTF-8 » au lieu de « j'envoie de l'ISO-8859-15 »,
il faut le faire réellement.

--
Olivier Miakinen
Troll du plus sage chez les conviviaux : le nouveau venu, avec
son clan, s'infiltre dans les groupes de nouvelles. (3 c.)
1 2 3