OVH Cloud OVH Cloud

Codes pour caractères non latins

30 réponses
Avatar
Jacques-A
Bonjour,

Pour les lettres accentuées, il existe des codes HTML (par exemple Á s'écrit
À).
Existe-t'il l'équivalent pour les lettres non latines (cyrilique, grec,
hébreu, etc.)?

Merci d'avance.

Jacques

10 réponses

1 2 3
Avatar
Pierre Goiffon
Sergio wrote:
je vais résumer la situation:
dans un site "classique" (HTML + PHP + MYSQL), on souhaite pouvouvoir
mettre des termes "non latins". Par exemple, la phrase suivante
pourrait être plausible même si ce n'est pas ce que nous envisageons
(je ne suis pas le rédacteur mais seulement celui qui traduit en HTML
le texte voulu et serait donc incapable de donner une phrase cohérente
avec des mots plus longs):

«Je ne cèderai pas d'un IOTA se rapporte à la lettre grèque ι»




(...)
Ma question était donc de savoir s'il existe un lexique donnant
d'autres alphabets que latin ou grec



Si tu es sous Windows, le plus simple (pour utilisation ponctuelle) est
de coder ton site en UTF-8



UTF-8 n'est pas une réponse magique... Il faudrait être sûr que c'est le
mieux adapté au besoin.
Avatar
Pierre Goiffon
Jacques-A wrote:
Dans un site sur lequel je travaille avec quelques amis, nous
sommes amenés à citer des mots avec orthographe non latine.







Vous n'avez toujours pas exprimé les fonctionnalités du site que vous
souhaitez obtenir... aussi il est toujours difficile de répondre plus
avant.



Je pensais pourtant avoir clairement exposé mon problème


(...)
dans un site "classique" (HTML + PHP + MYSQL), on souhaite pouvouvoir
mettre des termes "non latins".



Je me suis mal fait comprendre : il me parait bien curieux que vous ayez
à reprendre les écrits des rédacteurs pour les intégrer. Comme je vous
le disais de très nombreux produits de publication existent, vous ne
devriez pas avoir à subir toute ces complications.

Détaillez ce que vous attendez de votre site (nombre de rubriques, types
des articles, commentaires ou non, multi rédacteur ou non, forum ou non,
etc etc) et on pourra sans doute vous conseiller un produit en particulier !

Je suis assez persuadé que vous faites fausse route du départ...


Pour en revenir à vos questions :

Ma question était donc de savoir s'il existe un lexique donnant d'autres
alphabets que latin ou grec


(...)
J'ai déja une première réponse m'indiquent que ma crainte que les
codages tels que ח soient source d'ennui est erronée. Je peux donc
partir du principe que, associés à une police appropriée ces codes
fonctionnent parfaitement.



Ne vous préoccupez pas de la police ! C'est au navigateur de se
débrouiller : si la glyphe demandée n'est pas présente dans la police
courante, il va aller chercher une police de substitution.

Cependant, alors que le rédacteur connait le nom des lettres (par
exemple cyrilique IA minuscule (qui ressemble à un R inversé) il est
incapable de me dire qu'il a pour code le 044F ce qui donne en HTML
я).
Je cherche donc un moyen de trancoder proprement et en français (ou en
anglais) ces divers lettres (sans être obligé de développer une appli
pour cela).



Plusieurs éditeurs sont capables de réaliser les conversions lettres en
entités à la volée...

Mais j'en remet une couche pour vous assurer qu'il est bien dommage que
vous passiez tout ce temps à écrire du HTML alors que tout pourrait être
publié en 2 clics !
Avatar
Jacques-A
"Pierre Goiffon" a écrit dans le message de news:
46b6e08c$0$13131$
Jacques-A wrote:
Dans un site sur lequel je travaille avec quelques amis, nous sommes
amenés à citer des mots avec orthographe non latine.











Vous n'avez toujours pas exprimé les fonctionnalités du site que vous
souhaitez obtenir... aussi il est toujours difficile de répondre plus
avant.



Je pensais pourtant avoir clairement exposé mon problème


(...)
dans un site "classique" (HTML + PHP + MYSQL), on souhaite pouvouvoir
mettre des termes "non latins".



Je me suis mal fait comprendre : il me parait bien curieux que vous ayez à
reprendre les écrits des rédacteurs pour les intégrer. Comme je vous le
disais de très nombreux produits de publication existent, vous ne devriez
pas avoir à subir toute ces complications.



Je me suis sans doute aussi mal fait comprendre.
Comme je l'ai dit, il s'agit d'un site "classique" à usage privé (petit
groupe, malheureusement dispersé), avec des pages préparées et validées en
local (EasyPHP donc apache + PHP + MySQL) puis chargées chez un hébergeur
pour donner accès à ceux qui sont éloignés. Dans mon esprit, l'auteur est
celui qui possède le savoir, le propriétaire intellectuel mais il se trouve
qu'il n'est en aucune manière informaticien étant né bien avant que le PC
n'existe. Dans notre cas, il ne maîtrise pas le "deux clics" (ou ces deux
clics dépassent notre budget s'il s'agit de logiciels leaders du marchés
mais onéreux). Par contre, il maîtrise parfaitement le crayon de papier pour
corriger une épreuve et suffisament l'ordinateur pour voir le rendu final ou
pour rédiger ou corriger un document sous Word (mais comme l'a dit un des
intervenants, Word n'est pas génial pour préparer des pages HTML).

Pour ma part, je ne maîtrise pas complètement les aspects linguistiques du
sujet mais ayant passé toute ma carrière dans l'informatique, le codage en
HTML direct ne me gène pas (le clic est un phénomène récent auquel je
préfère le clavier pour les actions fines et maîtrisées). Au cours de ce
fil, les logiciels cités (Komposer par exemple) ne m'ont pour l'instant rien
apporté par rapport aux traîtements de texte classiques car, sauf erreur de
ma part lors des tests, ils n'intègrent pas correctement l'usage fin de PHP
(je suis systématiquement obligé de retoucher les pages pour remettre les
balises PHP à leur place par rapport aux ent^tetes HTML).

Ma question se réduisait donc à savoir s'il existait une série d'entités
nommées qui soient plus parlantes qu'un code (plus simple pour l'auteur ou
le correcteur de dire qu'il aurait mieux valu la lettre &nom; que de jongler
avec une table de transcodage "Nom -> &#code;".
A lire les différentes interventions, la réponse semble négative et l'usage
des entités numériques ne semble pas avoir d'effet de bord, ce que je
craignais.
Dans un moment de loisir, je pense que je ferai mon propre transcodeur (PHP
ou VBA) mais ce n'est pour l'instant pas notre priorité.

Je tiens cependant à vous remercier pour vos réponses qui m'ont fait
progresser.

Jacques


Détaillez ce que vous attendez de votre site (nombre de rubriques, types
des articles, commentaires ou non, multi rédacteur ou non, forum ou non,
etc etc) et on pourra sans doute vous conseiller un produit en particulier
!

Je suis assez persuadé que vous faites fausse route du départ...


Pour en revenir à vos questions :

Ma question était donc de savoir s'il existe un lexique donnant d'autres
alphabets que latin ou grec


(...)
J'ai déja une première réponse m'indiquent que ma crainte que les codages
tels que ח soient source d'ennui est erronée. Je peux donc partir
du principe que, associés à une police appropriée ces codes fonctionnent
parfaitement.



Ne vous préoccupez pas de la police ! C'est au navigateur de se
débrouiller : si la glyphe demandée n'est pas présente dans la police
courante, il va aller chercher une police de substitution.

Cependant, alors que le rédacteur connait le nom des lettres (par exemple
cyrilique IA minuscule (qui ressemble à un R inversé) il est incapable de
me dire qu'il a pour code le 044F ce qui donne en HTML я).
Je cherche donc un moyen de trancoder proprement et en français (ou en
anglais) ces divers lettres (sans être obligé de développer une appli
pour cela).



Plusieurs éditeurs sont capables de réaliser les conversions lettres en
entités à la volée...

Mais j'en remet une couche pour vous assurer qu'il est bien dommage que
vous passiez tout ce temps à écrire du HTML alors que tout pourrait être
publié en 2 clics !
Avatar
Pierre Goiffon
Jacques-A wrote:
dans un site "classique" (HTML + PHP + MYSQL), on souhaite pouvouvoir
mettre des termes "non latins".



Je me suis mal fait comprendre : il me parait bien curieux que vous
ayez à reprendre les écrits des rédacteurs pour les intégrer. Comme je
vous le disais de très nombreux produits de publication existent, vous
ne devriez pas avoir à subir toute ces complications.



Comme je l'ai dit, il s'agit d'un site "classique" à usage privé (petit
groupe, malheureusement dispersé), avec des pages préparées et validées
en local (EasyPHP donc apache + PHP + MySQL) puis chargées chez un
hébergeur pour donner accès à ceux qui sont éloignés. Dans mon esprit,
l'auteur est celui qui possède le savoir, le propriétaire intellectuel
mais il se trouve qu'il n'est en aucune manière informaticien étant né
bien avant que le PC n'existe. Dans notre cas, il ne maîtrise pas le
"deux clics" (ou ces deux clics dépassent notre budget s'il s'agit de
logiciels leaders du marchés mais onéreux). Par contre, il maîtrise
parfaitement le crayon de papier pour corriger une épreuve et
suffisament l'ordinateur pour voir le rendu final ou pour rédiger ou
corriger un document sous Word (mais comme l'a dit un des intervenants,
Word n'est pas génial pour préparer des pages HTML).

Pour ma part, je ne maîtrise pas complètement les aspects linguistiques
du sujet mais ayant passé toute ma carrière dans l'informatique, le
codage en HTML direct ne me gène pas (le clic est un phénomène récent
auquel je préfère le clavier pour les actions fines et maîtrisées). Au
cours de ce fil, les logiciels cités (Komposer par exemple) ne m'ont
pour l'instant rien apporté par rapport aux traîtements de texte
classiques car, sauf erreur de ma part lors des tests, ils n'intègrent
pas correctement l'usage fin de PHP (je suis systématiquement obligé de
retoucher les pages pour remettre les balises PHP à leur place par
rapport aux ent^tetes HTML).



Je vous ai déjà cité plusieurs outils (message-ID:
<46b2e533$0$635$) dont le coût est... nul puisque
ces produits sont gratuits ! Ce message vous a visiblement échappé ?

Croyez moi, il existe de très nombreux rédacteurs qui publient tous les
jours sur l'Internet sans avoir _aucune_ compétence technique. Je le dis
d'autant plus que j'ai travaillé pour un media en ligne, dont la plus
grande partie des effectifs était constitué de journalistes. Aucun
intermédiaire entre le journaliste et la publication : une interface de
publication sur un extranet, rédaction directement dans le navigateur,
et publication instantanée.
De très nombreux sites suivent ce principe depuis plusieurs années !

De manière plus "grand public", on compte aujourd'hui en France plus de
3 millions d'internautes, de tous âges et formations, qui publient
régulièrement des contenus sur l'Internet. La très large majorité
d'entre eux le fait sans avoir aucune connaissance de HTML et CSS,
simplement en utilisant des applications en ligne via leur navigateur.

Il existe une foule de services disponibles pour permettre à tout un
chacun de publier sans aucun pré-requis : un navigateur, c'est tout. Ce
serait dommage de continuer à vous compliquer la vie, tout en réduisant
drastiquement les possibilités : ces produits sont matures, et ont été
conçus par des équipes maitrisant parfaitement leur sujet ! Pour
l'internationalisation par exemple, vous n'avez aucun soucis à vous faire...

Dans un moment de loisir, je pense que je ferai mon propre transcodeur
(PHP ou VBA) mais ce n'est pour l'instant pas notre priorité.



Ne ré-inventez pas des choses sans en connaitre tous les tenants et
aboutissants, alors que ça a été déjà fait de partout et bien mieux...
Avatar
ASM
En réponse à Jacques-A qui écrivit, en date du : 3/08/07 22:48, le
message suivant :

Ma question était donc de savoir s'il existe un lexique donnant d'autres
alphabets que latin ou grec (ce qui explique ma référence au cyrique et
à l'hébreu mais sans que ce soit exhaustif).
J'ai déja une première réponse m'indiquent que ma crainte que les
codages tels que &#1495; soient source d'ennui est erronée. Je peux donc
partir du principe que, associés à une police appropriée ces codes
fonctionnent parfaitement.



Je pense que c'est une première erreur et qu'il est important de *ne
pas* spécifier de police, ce sera au duo Systéme de l'ordi lecteur et
navigateur utilisé à résoudre cette question (choix de la police la plus
appropriée à rendre le &#1495).

Cela résout partiellement mon problème en ce sens que cela marchera.



à 1/2 certain si la police est spécifiée et qu'elle existe sur mon ordi
et que ce n'est pas la bonne...

Cependant, alors que le rédacteur connait le nom des lettres (par
exemple cyrilique IA minuscule (qui ressemble à un R inversé) il est
incapable de me dire qu'il a pour code le 044F ce qui donne en HTML
&#1103;).



Je cherche donc un moyen de trancoder proprement et en français (ou en
anglais) ces divers lettres (sans être obligé de développer une appli
pour cela).



à destination de n'importe quel rédacteur +/- au fait du moyen choisi ?

Personnellement j'utilise un éditeur de texte pourvu d'une palette de
toutes les entités ASCII (numériques ou alpha) mais non disponible pour
Windows. Je suppose qu'on doit pouvoir trouver le pendant pour ce
système. (html-kit, tydi-html, notePade-plus ...)
Malheureusement ça ne m'écrira pas en cyrilique ... :-(
Je vais devoir utiliser le clavier Russe : я (comme dans правописания)
ou Français : PECTOPAN :-)
Avatar
ASM
En réponse à Jacques-A qui écrivit, en date du : 3/08/07 23:02, le
message suivant :

"ASM" a écrit dans le
message de news: 46b26f90$0$27371$
En réponse à Jacques-A qui écrivit, en date du : 2/08/07 9:25, le
message suivant :
Erreur de ma part, j'ai envoyé un peu vite. Le contexte est pour la
sauvegarde en HTML si on veut éviter les codes #numéro.



c'est quoi c'est qui qui sauve en #numéro des trucs écrits en
cyrilique, grec, hébreu, etc... ?


Word, OOo-writer, Netscape Composer, et je pense beaucoup d'autres mais
pas HAP-edit que j'utilise pour le PHP de mes pages.



Il est vrai que je ne sais pas écrire un caractère cyrillique si je
n'utilise pas le clavier correspondant et serais bien incapable de
l'écrire par son association de touches au clavier (ce que je pense
possible sous Windows) et encore moins par son entité html.

Est-ce que Netscape Composeur reconnaitrait le meta charset et par là
même éviterait de transcoder en html-entities lors de la sauvegarde si
on lui indique l'utf-8 ?
Avatar
Jacques-A
"ASM" a écrit dans le message
de news: 46b79591$0$5094$
En réponse à Jacques-A qui écrivit, en date du : 3/08/07 23:02, le
message suivant :

"ASM" a écrit dans le
message de news: 46b26f90$0$27371$
En réponse à Jacques-A qui écrivit, en date du : 2/08/07 9:25, le
message suivant :
Erreur de ma part, j'ai envoyé un peu vite. Le contexte est pour la
sauvegarde en HTML si on veut éviter les codes #numéro.



c'est quoi c'est qui qui sauve en #numéro des trucs écrits en cyrilique,
grec, hébreu, etc... ?


Word, OOo-writer, Netscape Composer, et je pense beaucoup d'autres mais
pas HAP-edit que j'utilise pour le PHP de mes pages.



Il est vrai que je ne sais pas écrire un caractère cyrillique si je
n'utilise pas le clavier correspondant et serais bien incapable de
l'écrire par son association de touches au clavier (ce que je pense
possible sous Windows) et encore moins par son entité html.



C'était le sens initial de ma question: Avec des programmes qui sauvegardent
en HTML, l'utilisation du clavier approprié donne les &#....; mais étant
trop anciens, perturbent la structure PHP. Je suis donc obligé de passer par
un fichier intermédiare qui me sert de base à du couper/coller (pas élégant
mais ça marche).
Par ailleurs, si je suis dans mon éditeur de scripts, le fait de saisir
directement au clavier l'entité fonctionne sans intermédiaire.
De tout ce fil, je n'ai eu aucune info renvoyant vers des entités autres que
latines ou grecques (&Gamma; donnera sans doute un gamma majuscule tout
comme &Eacute donnera le É sans gros problème de mémoire).


Est-ce que Netscape Composeur reconnaitrait le meta charset et par là même
éviterait de transcoder en html-entities lors de la sauvegarde si on lui
indique l'utf-8 ?


Je n'ai pas essayé.

Jacques
Avatar
Jacques-A
"Jacques-A" a écrit dans le message de news:
cDfsi.5$f%
Bonjour,


En complément de ce fil, j'ai poursuivi mes recherches.
Les entités normalisées sont reprises dans le document suivant (sauf erreur
de ma part):
http://www.la-grange.net/w3c/html4.01/sgml/entities.html

Jacques

Pour les lettres accentuées, il existe des codes HTML (par exemple Á
s'écrit &Agrave;).
Existe-t'il l'équivalent pour les lettres non latines (cyrilique, grec,
hébreu, etc.)?

Merci d'avance.

Jacques
Avatar
ASM
En réponse à Jacques-A qui écrivit, en date du : 8/08/07 22:09, le
message suivant :

En complément de ce fil, j'ai poursuivi mes recherches.
Les entités normalisées sont reprises dans le document suivant (sauf
erreur de ma part):
http://www.la-grange.net/w3c/html4.01/sgml/entities.html



Alors, voici un lien bien intéressant :
<http://www.miakinen.net/vrac/charsets/>
(patienter pour l'affichage)

En complément :
RFC (fr) :
http://abcdrfc.free.fr/
RFC (en)
http://www.rfcsearch.org/
http://www.rfcsearch.org/rfcview?lookup_type=RFC&lookup_num66
http://www.rfcsearch.org/rfcsearch?query=Hypertext+Markup+Language
Ecma-006 :
http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-006.pdf

Et pour rire un peu :
http://fr.wikipedia.org/wiki/Syst%C3%A8me_bibi-binaire

Pour les lettres accentuées, il existe des codes HTML (par exemple Á
s'écrit &Agrave;).
Existe-t'il l'équivalent pour les lettres non latines (cyrilique,
grec, hébreu, etc.)?





M'enfin ... tout ça ne nous donne
ni le cyrillique,
ni le grec,
ni le maori,
ni ...
Avatar
Pierre Goiffon
Jacques-A wrote:
En complément de ce fil, j'ai poursuivi mes recherches.
Les entités normalisées sont reprises dans le document suivant (sauf
erreur de ma part):
http://www.la-grange.net/w3c/html4.01/sgml/entities.html



Et la "bonne surprise" de XHTML :

http://www.w3.org/TR/xhtml1/#h-A2
"The XHTML entity sets are the same as for HTML 4, but have been
modified to be valid XML 1.0 entity declarations."
1 2 3