Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Codes pour caractères non latins

30 réponses
Avatar
Jacques-A
Bonjour,

Pour les lettres accentuées, il existe des codes HTML (par exemple Á s'écrit
À).
Existe-t'il l'équivalent pour les lettres non latines (cyrilique, grec,
hébreu, etc.)?

Merci d'avance.

Jacques

10 réponses

1 2 3
Avatar
Pierre Goiffon
Jacques-A wrote:
Les entités numériques (&#nnnn; ou &#xhh) ou nommées (&#eacute;) ne
doivent être utilisées que dans des cas bien particuliers !



Dans un site sur lequel je travaille avec quelques amis, nous sommes
amenés à citer des mots avec orthographe non latine. Comme outil de
rédaction, j'utilise entre autres Word ou OOo.



Ca par mal : ces outils génère des pages extrêmement mal écrites ! Le
meilleur conseil que l'on puisse vous donner est de basculer vers un
outil de publication dédié au Web. Il en existe foule aujourd'hui, tout
dépendra de votre besoin ?

Par défaut, les textes
non ascii sont sauvegardés avec leur codage unicode ce qui m'inquiète
pour les navigateurs non MS.



Les &#nnnn; (code point ISO 10646 en numérique) sont très bien
supportées à ma connaissance. Par contre j'ai déjà lu plusieurs fois des
prb rencontrés avec les &#xHH; (code point en hexadécimal)
Avatar
Paul Gaborit
À (at) Thu, 02 Aug 2007 16:40:03 +0200,
Pierre Goiffon écrivait (wrote):
Si vous n'avez aucune main sur le codage renvoyé par le serveur,
passer par de l'ascii ne vous sauvera pas : tous les codages ne sont
pas basés sur us-ascii ! Que ferez-vous si votre serveur renvoie de
l'ebcdic, de l'UTF-16, etc ?



Ce qui me fait rigoler, c'est que là, on est en train de parler de
l'usage ou non des entités.

Si le serveur n'utilise pas l'ASCII comme base de son codage et qu'on
lui envoie un document se basant sur de l'ASCII, ce n'est pas les
éventuelles entités qui vont poser problème. C'est tout le document
lui-même ! Ceci étant les hébergeurs ou les serveurs reposant sur
EBCDIC ou UTF-16 ne sont pas légions (vous en connaissez beaucoup ?).

Par contre, ceux qui émettent de force un codage ISO-8859-1 ou UTF-8
ou les CMS qui ajoutent de force (dans le (X)THML) un codage
quelconque (mais basé sur ASCII) ou ceux encore qui convertissent (ou
plutôt tentent de convertir) de force les textes envoyés vers un
codage donné (mais basé sur ASCII) sont beaucoup plus nombreux.

Dans ce contexte, on se pose la question de l'utilisation ou non des
entités pour les caractères non latins (titre de notre enfilade) et,
là, je continue à penser que l'utilisation des entités (nommées ou
numériques) est beaucoup plus sûre que d'utiliser UTF-8.

Si l'admin ne vous permet pas d'intervenir sur ce que renvoie le
serveur, alors changez d'hébergement.



On n'a malheureusement pas toujours le choix des armes... Et puis
l'admin n'est pas toujours le responsable. Ça peut être aussi le
framework utilisé ou la couche applicative...

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Avatar
Andreas Prilop
On Thu, 2 Aug 2007, Paul Gaborit wrote:

Ceci étant les hébergeurs ou les serveurs reposant sur
EBCDIC ou UTF-16 ne sont pas légions (vous en connaissez beaucoup ?).



Windows 2000, Windows 2003, ...
Avatar
Pierre Goiffon
Andreas Prilop wrote:
Ceci étant les hébergeurs ou les serveurs reposant sur
EBCDIC ou UTF-16 ne sont pas légions (vous en connaissez beaucoup ?).



Windows 2000, Windows 2003, ...



Andreas, nous parlions de la valeur du sous type charset de l'entête
HTTP content-type renvoyée par défaut par les serveurs HTTP.

Je serai très surpris que IIS Sur Windows 2000 ou 2003 renvoie par
défaut autre chose que de l'ISO Latin-1 ou Windows-1252 (de mémoire,
c'est le 1er pour IIS 5 sur Windows 2000, mais je n'ai pas de IIS sous
la main pour vérifier)
Avatar
Andreas Prilop
On Thu, 2 Aug 2007, Pierre Goiffon wrote:

Ceci étant les hébergeurs ou les serveurs reposant sur
EBCDIC ou UTF-16 ne sont pas légions (vous en connaissez beaucoup ?).



Windows 2000, Windows 2003, ...



Andreas, nous parlions de la valeur du sous type charset de l'entête HTTP
content-type renvoyée par défaut par les serveurs HTTP.



OK ! UTF-16 est le codage utilisé /dans/ Windows 2000 etc.
Avatar
Paul Gaborit
À (at) Thu, 02 Aug 2007 17:48:31 +0200,
Pierre Goiffon écrivait (wrote):
[...]
Vous utilisez la même vieille technique que tous les développeurs
ignorants utilisent, et vous l'utilisez surtout sans vous poser de
questions et croyez moi, ce n'est pas sain.


[...]
Ce n'est pas la première fois que nous avons ces échanges, croyez moi
essayer de vous documenter et vous comprendrez qu'avec un peu de
formation vous aurez une vie bien plus simple et surtout un travail
qui sera beaucoup plus pérenne !



Vous généralisez mon propos alors que je répondais au PO qui posait
une question dans un contexte donné.

Relisez ce que j'ai dit... Ai-je dit qu'il fallait toujours utiliser
les entités ? Ai-je dit que c'est ce que je faisais ? Ai-je dit que
c'est ce que je conseillais ?

J'ai juste dit que, dans le contexte exposé, l'utilisation d'entités
dans du HTML me semblait une manière plus sûre de le produire que de
supposer qu'il serait automagiquement reconnu s'il était produit en
UTF-8.

C'est marrant ! J'ai relu rapidement nos dernières discussions. La
dernière où nous n'étions pas d'accord (car parfois nous sommes
d'accord -- ouf), c'était sur l'utilisation de 'target' et vous
disiez : « il y a des cas particuliers ou il faut bien trouver des
compromis. » Il me semble que l'utilisation des entités (dans le
contexte évoqué) répond bien à la notion de compromis. ;-)

--
Paul Gaborit - <http://perso.enstimac.fr/~gaborit/>
Avatar
Jacques-A
"Pierre Goiffon" a écrit dans le message de news:
46b1ed84$0$30785$
Jacques-A wrote:
Les entités numériques (&#nnnn; ou &#xhh) ou nommées (&#eacute;) ne
doivent être utilisées que dans des cas bien particuliers !





Dans un site sur lequel je travaille avec quelques amis, nous sommes
amenés à citer des mots avec orthographe non latine. Comme outil de
rédaction, j'utilise entre autres Word ou OOo.



Ca par mal : ces outils génère des pages extrêmement mal écrites ! Le
meilleur conseil que l'on puisse vous donner est de basculer vers un outil
de publication dédié au Web. Il en existe foule aujourd'hui, tout dépendra
de votre besoin ?



Les outils dédiés au web sont soit des éditeurs HTML qui nécessitent de
connaître les codes (ce que j'utilise en général) soit des outils d'un coût
dépassant nos possibilités. Comme je n'envisage pas de pirater, j'utilise
les outils dont je dispose en adaptant en fonction de leurs limites. Pour
word et OOo, je n'ai pas dit que j'utilisais leur code. Ils me servent pour
générer les séquences que je ne sais pas écrire directement
dans mon éditeur ASCII usuel. Ensuite, je copie les séquence &#...; ce qui
était l'objet de ma question car j'avais l'impression que c'était moins
général que les séquences genre &Eacute; ou &Agrave;.
A lire les réponses des uns et des autres, je m'inquiétais sante à tort.

En tout cas, merci de toutes les interventions.

A bientôt, sans doute pour une autre question tout aussi basique.

Jacques



Par défaut, les textes non ascii sont sauvegardés avec leur codage
unicode ce qui m'inquiète pour les navigateurs non MS.



Les &#nnnn; (code point ISO 10646 en numérique) sont très bien supportées
à ma connaissance. Par contre j'ai déjà lu plusieurs fois des prb
rencontrés avec les &#xHH; (code point en hexadécimal)
Avatar
ASM
En réponse à Jacques-A qui écrivit, en date du : 2/08/07 9:22, le
message suivant :
Bonjour,

Pour les lettres accentuées, il existe des codes HTML (par exemple Á
s'écrit &Agrave;).
Existe-t'il l'équivalent pour les lettres non latines (cyrilique, grec,
hébreu, etc.)?



Ne suffit-il pas d'écrire en cyrilique, grec, hébreu, etc... ?
Avatar
ASM
En réponse à Jacques-A qui écrivit, en date du : 2/08/07 9:25, le
message suivant :
Erreur de ma part, j'ai envoyé un peu vite. Le contexte est pour la
sauvegarde en HTML si on veut éviter les codes #numéro.



c'est quoi c'est qui qui sauve en #numéro des trucs écrits en cyrilique,
grec, hébreu, etc... ?
Avatar
Pierre Goiffon
Jacques-A wrote:
Dans un site sur lequel je travaille avec quelques amis, nous sommes
amenés à citer des mots avec orthographe non latine. Comme outil de
rédaction, j'utilise entre autres Word ou OOo.



Ca par mal : ces outils génère des pages extrêmement mal écrites ! Le
meilleur conseil que l'on puisse vous donner est de basculer vers un
outil de publication dédié au Web. Il en existe foule aujourd'hui,
tout dépendra de votre besoin ?



Les outils dédiés au web sont soit des éditeurs HTML qui nécessitent de
connaître les codes (ce que j'utilise en général) soit des outils d'un
coût dépassant nos possibilités.



Vous n'avez toujours pas exprimé les fonctionnalités du site que vous
souhaitez obtenir... aussi il est toujours difficile de répondre plus avant.

Dans un cadre général, vous omettez dans votre inventaire toutes les
applications en ligne de blog (Wordpress, Dotclear, ...) ou de CMS plus
génériques (Joomla, Spip, Xoops, ...). Il en existe énormément
aujourd'hui, majoritairement en open source, beaucoup sont aussi
gratuites ! C'est bien à ces outils de publication de contenu (CMS) que
je pensais ! Et ils sont souvent accessibles sans aucune connaissance
technique : plusieurs hébergeurs les proposent pré-installés... Une
piste peut être à creuser pour votre besoin ?

Ensuite, je copie les séquence &#...; ce
qui était l'objet de ma question car j'avais l'impression que c'était
moins général que les séquences genre &Eacute; ou &Agrave;.
A lire les réponses des uns et des autres, je m'inquiétais sante à tort.



A prioris oui : les entités numériques &#nnnn; doivent être correctement
supportées par à peu près tous les navigateurs (même Netscape 4, c'est dire)
1 2 3