OVH Cloud OVH Cloud

liste de symboles

11 réponses
Avatar
mpg
Bonjour,

Je voudrais savoir où l'on peut trouver la liste complète des symboles
disponibles en HTML. J'ai bien trouvé ceci :
http://www.w3.org/TR/REC-html40/sgml/entities.html
mais on y trouve pas (sauf erreur de ma part), par exemple, le r caron,
qui pourtant existe en tant que "ř", bien qu'il ne possède
apparement pas de "nom" (ř par exemple).

J'en profite pour demander s'il existe aussi une liste, plus ou moins
officielle, des symboles non supportés par IE6win. En effet, après
expérience, il semble qu'au moins l'espace fine ( ) en fasse
partie, et je voulais savoir si je dois m'attendre à d'autres surprises.

Merci,
Manuel.

10 réponses

1 2
Avatar
kurtz le pirate
In article <449e9f3c$0$7770$,
mpg wrote:

Bonjour,


salut,


Je voudrais savoir où l'on peut trouver la liste complète des symboles
disponibles en HTML. J'ai bien trouvé ceci :
http://www.w3.org/TR/REC-html40/sgml/entities.html


il y a aussi : http://www.w3schools.com/tags/ref_entities.asp


mais on y trouve pas (sauf erreur de ma part), par exemple, le r caron,
qui pourtant existe en tant que "&#345;", bien qu'il ne possède
apparement pas de "nom" (&rcaron; par exemple).


&#345 n'y est pas non plus.


J'en profite pour demander s'il existe aussi une liste, plus ou moins
officielle, des symboles non supportés par IE6win. En effet, après
expérience, il semble qu'au moins l'espace fine (&thinsp;) en fasse
partie, et je voulais savoir si je dois m'attendre à d'autres surprises.

Merci,
Manuel.





--
klp
Avatar
Olivier Miakinen
Le 25/06/2006 16:35, mpg a écrit :

Je voudrais savoir où l'on peut trouver la liste complète des symboles
disponibles en HTML. J'ai bien trouvé ceci :
http://www.w3.org/TR/REC-html40/sgml/entities.html



Oui, ça me semble bien.

<mode mauvaise mémoire>
Il me semble avoir lu quelque part que certaines entités nommées ne
seraient pas utilisables en XHTML (1.1 ? 2 ?) mais je n'arrive pas à
retrouver de lien à ce propos.
</>

mais on y trouve pas (sauf erreur de ma part), par exemple, le r caron,
qui pourtant existe en tant que "&#345;", bien qu'il ne possède
apparement pas de "nom" (&rcaron; par exemple).



En effet. Tu ne trouveras pas non plus de nom pour la plupart des
symboles chinois, hébreux, klingons, etc. Non plus pour les notes
de musique, pour la plupart des symboles mathématiques, et ainsi
de suite. Et heureusement : imagine que l'on doive donner un nom
de plusieurs caractères pour chacun des milliers de symboles définis
par Unicode, et calcule la taille qu'auraient les navigateurs !

En fait, autant que possible, il serait préférable d'utiliser
directement le code Unicode (&#345; par exemple), et encore mieux
d'inclure le caractère directement dans la page, en UTF-8.

J'en profite pour demander s'il existe aussi une liste, plus ou moins
officielle, des symboles non supportés par IE6win. En effet, après
expérience, il semble qu'au moins l'espace fine (&thinsp;) en fasse
partie, et je voulais savoir si je dois m'attendre à d'autres surprises.



Ce n'est pas seulement le nom que IE Win ne connaissait pas : il ne
supportait pas le caractère du tout, même sous la forme &#8201; -- du
moins c'est ce qu'il m'a semblé lorsque j'ai fait le test en 2003.
Avatar
mpg
Olivier Miakinen a écrit :
Le 25/06/2006 16:35, mpg a écrit :
Je voudrais savoir où l'on peut trouver la liste complète des symboles
disponibles en HTML. J'ai bien trouvé ceci :
http://www.w3.org/TR/REC-html40/sgml/entities.html



Oui, ça me semble bien.

<mode mauvaise mémoire>
Il me semble avoir lu quelque part que certaines entités nommées ne
seraient pas utilisables en XHTML (1.1 ? 2 ?) mais je n'arrive pas à
retrouver de lien à ce propos.
</>



Ah, je n'en avais pas entendu parler. J'écris de toute façon en XHTML1.0
pour l'instant, je me sens donc moins concerné. Je me méfierai quand même.

mais on y trouve pas (sauf erreur de ma part), par exemple, le r caron,
qui pourtant existe en tant que "&#345;", bien qu'il ne possède
apparement pas de "nom" (&rcaron; par exemple).



En effet. Tu ne trouveras pas non plus de nom pour la plupart des
symboles chinois, hébreux, klingons, etc. Non plus pour les notes
de musique, pour la plupart des symboles mathématiques, et ainsi
de suite. Et heureusement : imagine que l'on doive donner un nom
de plusieurs caractères pour chacun des milliers de symboles définis
par Unicode, et calcule la taille qu'auraient les navigateurs !



Certes, je comprends. Je me demande juste, quand on veut écrire un r
caron, et qu'on ne sait pas suffisamment bien se servir de son clavier
pour le taper directement, comment on fait pour deviner (sur quelle page
regarder) que c'est le &#345; (bon là je l'ai trouvé sur la page d'un
prof dont le nom comporte un r caron, mais en général).

En fait, autant que possible, il serait préférable d'utiliser
directement le code Unicode (&#345; par exemple), et encore mieux
d'inclure le caractère directement dans la page, en UTF-8.



Ok. Donc il vaudrait mieux taper systématiquement &#8200; plutôt que
&nbsp; ? J'ai peur de diminuer la lisibilité du source si je fais ça.
Par ailleurs, comme mentionné plus haut, je ne sais pas toujours comment
insérer directement les caractères UTF-8. (Par ailleurs, je n'écris pas
toujours en utf8...)

J'en profite pour demander s'il existe aussi une liste, plus ou moins
officielle, des symboles non supportés par IE6win. En effet, après
expérience, il semble qu'au moins l'espace fine (&thinsp;) en fasse
partie, et je voulais savoir si je dois m'attendre à d'autres surprises.



Ce n'est pas seulement le nom que IE Win ne connaissait pas : il ne
supportait pas le caractère du tout, même sous la forme &#8201; -- du
moins c'est ce qu'il m'a semblé lorsque j'ai fait le test en 2003.



J'ai fait le test aujourd'hui : il ne connaît effectivement pas le
caractère lui-même. Il faudra donc attendre un peu pour respecter
certaines règles de typographie française sur internet...
Avatar
Pierre Goiffon
mpg wrote:
Il me semble avoir lu quelque part que certaines entités nommées ne
seraient pas utilisables en XHTML (1.1 ? 2 ?) mais je n'arrive pas à
retrouver de lien à ce propos.





En tout cas pour XHTML 1.0 :
http://www.w3.org/TR/xhtml1/#h-A2
"The XHTML entity sets are the same as for HTML 4"

Par ailleurs, comme mentionné plus haut, je ne sais pas toujours comment
insérer directement les caractères UTF-8. (Par ailleurs, je n'écris pas
toujours en utf8...)



Je ne sais pas à quoi vous pensez en disant "écrire en UTF-8" ?

Quels caractères avez-vous besoin de pouvoir saisir ? Suivant les
systèmes, il existe à peu près toujours des moyens de mapper des
combinaisons de touches du clavier. Sous Windows il y a le Microsoft
keyboard layout creator :
http://www.microsoft.com/globaldev/tools/msklc.mspx. Et un excellent
layout déjà réalisé par Denis Liegeois :
http://home.tiscali-business.be/~fbou2235/kbdfrac.htm
Avatar
Olivier Miakinen
Le 25/06/2006 21:58, mpg a écrit :

<mode mauvaise mémoire>
Il me semble avoir lu quelque part que certaines entités nommées ne
seraient pas utilisables en XHTML (1.1 ? 2 ?) mais je n'arrive pas à
retrouver de lien à ce propos.
</>



Ah, je n'en avais pas entendu parler. J'écris de toute façon en XHTML1.0
pour l'instant, je me sens donc moins concerné. Je me méfierai quand même.



C'est peut-être faux, hein. J'ai vraiment une vague réminiscence d'un
truc de ce genre, et justement j'espérais que quelqu'un dans ce forum
pourrait soit confirmer, soit infirmer.

Certes, je comprends. Je me demande juste, quand on veut écrire un r
caron, et qu'on ne sait pas suffisamment bien se servir de son clavier
pour le taper directement, comment on fait pour deviner (sur quelle page
regarder) que c'est le &#345; (bon là je l'ai trouvé sur la page d'un
prof dont le nom comporte un r caron, mais en général).



Ah, d'accord.

Alors d'abord il faut le trouver dans la table des caractères Unicode,
par exemple ici : <http://www.unicode.org/charts/>¹.

Un r, c'est un caractère latin, inutile donc d'aller chercher de
l'arménien, du copte, du géorgien, du grec, de l'arabe, etc. Dans la
zone « Latin », on voit d'abord « Basic Latin », mais ça c'est la
bonne vieille table ASCII, qui ne contient pas de lettre accentuée.
Ensuite il y a « Latin-1 », mais je sais par expérience que le r caron
n'en fait pas partie. Je vais donc aller voir dans « Latin Extended A ».
Si je ne l'y trouve pas, je chercherai dans « Latin Extended B ».
(Note que si tu n'es pas un expert en charsets tu peux aller voir
d'abord dans les deux premiers, ceux que j'ai sautés.)

Voyons donc Latin Extended A :
http://www.unicode.org/charts/PDF/U0100.pdf
On trouve assez vite que le r caron est à la position 0159. Si tu es
sûr qu'il ne reste plus trop de vieux navigateurs en circulation, tu
peux alors mettres « &#x159; » dans ton code HTML. Si tu es un peu
plus prudent, tu prends un concertisseur hexadécimal->décimal pour
transformer 0159(hexa) en 345(décimal), ce qui donne donc « &#345; ».

C'était la première méthode.



L'autre méthode, que j'ai employée récemment, c'est de trouver une
page web qui contient déjà ce caractère. Par exemple comme ceci :
<http://www.google.fr/search?q=dvorak>. Le 4e lien comporte ce
caractère, qu'il suffit de copier, puis de coller dans
<http://people.w3.org/rishida/scripts/uniview.fr/conversion.html>.
Tu obtiens alors toutes les infos :
Numéro en hex = 159
Entités de code UTF-8 = C5 99
Unité de code UTF-16 = 0159
Appel de caractère numérique hex = &#x159;
Appel de caractère numérique décimal : &#345;

En fait, autant que possible, il serait préférable d'utiliser
directement le code Unicode (&#345; par exemple), et encore mieux
d'inclure le caractère directement dans la page, en UTF-8.



Ok. Donc il vaudrait mieux taper systématiquement &#8200; plutôt que
&nbsp; ? J'ai peur de diminuer la lisibilité du source si je fais ça.



Tu voulais sans doute dire &#8201; au lieu de &thinsp; ou &#160; au lieu
de &nbsp; ? En ce qui concerne &nbsp;, il est en effet probablement plus
lisible que &#160; parce que plus connu. Mais dans tous les cas je
trouve qu'il vaudrait mieux saisir les caractères tels quels plutôt
qu'en passant par un code &quelquechose; ou &#autrechose;, quel qu'il
soit.

Par ailleurs, comme mentionné plus haut, je ne sais pas toujours comment
insérer directement les caractères UTF-8. (Par ailleurs, je n'écris pas
toujours en utf8...)



Si tu as un éditeur qui sait sauver en UTF-8, tu peux toujours faire du
copier-coller. Note que je ne le fais pas toujours moi-même, mon éditeur
favori étant configuré en Latin-1 par défaut : mais au moins, pour tous
les caractères qui existent en Latin-1, y compris l'espace insécable, je
les insère directement dans l'éditeur.

J'écris donc :
« Hé ! Là-bas ! »
au lieu de :
« H&eacute;&nbsp;! L&agrave;-bas&nbsp;! »

(les espaces insécables disparaissent ici, mais c'est un bug de Mozilla
que n'a pas mon éditeur de texte).

____
¹ Je me faisais régulièrement taper sur les doigts il y a quelques temps
lorsque je donnais l'adresse vers le site en anglais alors qu'une
traduction officielle existe en français. Mais je vois que le site
qui héberge cette traduction utilise maintenant des frames pour avoir
un bandeau de pub, ce qui empêche de voir simplement les URL directes
et de les mettre en signets. :-(
Et qui plus est, la page est réalisée avec Word. :-((


--
Olivier Miakinen
Avatar
info
En fait, autant que possible, il serait préférable d'utiliser
directement le code Unicode (&#345; par exemple), et encore mieux
d'inclure le caractère directement dans la page, en UTF-8.



En gros, si une page est encodé en UTF-8 cela nous autorise donc à
éviter le code Unicode ? C'est effectivement ce que j'avais constaté
mais j'ai pas l'impression que cela fonctionne pour tous les
caractères ?

Thierry

Des milliers de façons d'imaginer...
http://www.desimagesparmilliers.com

Avatar
Pierre Goiffon
wrote:
En gros, si une page est encodé en UTF-8 cela nous autorise donc à
éviter le code Unicode ? C'est effectivement ce que j'avais constaté
mais j'ai pas l'impression que cela fonctionne pour tous les
caractères ?



UTF-8 est un codage possible du jeux de caractère Unicode. Autrement
dis, UTF-8 permet de représenter tous les caractères Unicode. Bref, en
théorie, pas besoin d'entités HTML sur une page en UTF-8 et qui contient
des caractères tous compris dans Unicode ! C'est généralisable : les
entités sont un moyen d'intégrer à un document des caractères qui ne
font pas partie du codage utilisé. Par exemple, on utilisera une entité
pour faire apparaitre le sigle Euro dans une page transmise en ISO Latin-1.

Maintenant, il reste que des navigateurs (et plus générallement le
couple navigateur / OS) ont plus ou moins de problèmes avec certains
caractères... Je ne suis pas sûr que vous puissiez trouver de référence
précise sur le sujet ? En partant su site de Alan J Flavell, trouvé ceci
: http://ppewww.ph.gla.ac.uk/~flavell/charset/browsers-fonts.html. A voir...
Avatar
info
Exact pour le signe Euro... sinon un article extrêment intéressant à
consulter http://french.joelonsoftware.com/Articles/Unicode.html
Avatar
mpg
Olivier Miakinen a écrit :
Le 25/06/2006 21:58, mpg a écrit :
Certes, je comprends. Je me demande juste, quand on veut écrire un r
caron, et qu'on ne sait pas suffisamment bien se servir de son clavier
pour le taper directement, comment on fait pour deviner (sur quelle page
regarder) que c'est le &#345; (bon là je l'ai trouvé sur la page d'un
prof dont le nom comporte un r caron, mais en général).



Ah, d'accord.

Alors d'abord il faut le trouver dans la table des caractères Unicode,
par exemple ici : <http://www.unicode.org/charts/>¹.



[...]
C'était la première méthode.



Merci. C'est un peu le genre de chose que je cherchais.

L'autre méthode, que j'ai employée récemment, c'est de trouver une
page web qui contient déjà ce caractère. Par exemple comme ceci :
<http://www.google.fr/search?q=dvorak>. Le 4e lien comporte ce
caractère, qu'il suffit de copier, puis de coller dans
<http://people.w3.org/rishida/scripts/uniview.fr/conversion.html>.
Tu obtiens alors toutes les infos :
Numéro en hex = 159
Entités de code UTF-8 = C5 99
Unité de code UTF-16 = 0159
Appel de caractère numérique hex = &#x159;
Appel de caractère numérique décimal : &#345;



Moui, c'est (presque) comme ça que j'ai procédé, recherche Google mises
à part, car la personne que je veux citer possède une page personnelle
sur laquelle elle a écrit son nom correctement, je suis donc allé
directement regarder le source de sa page perso.

En fait, autant que possible, il serait préférable d'utiliser
directement le code Unicode (&#345; par exemple), et encore mieux
d'inclure le caractère directement dans la page, en UTF-8.



Ok. Donc il vaudrait mieux taper systématiquement &#8200; plutôt que
&nbsp; ? J'ai peur de diminuer la lisibilité du source si je fais ça.



Tu voulais sans doute dire &#8201; au lieu de &thinsp; ou &#160; au lieu
de &nbsp; ? En ce qui concerne &nbsp;, il est en effet probablement plus
lisible que &#160; parce que plus connu. Mais dans tous les cas je
trouve qu'il vaudrait mieux saisir les caractères tels quels plutôt
qu'en passant par un code &quelquechose; ou &#autrechose;, quel qu'il
soit.



Hum, pour l'espace insécable, elle doit donc exister à deux positions
car il me semblait l'avoir vue en position 8200 également. Par ailleurs,
mais ça dévie un peu du sujet du groupe, il va vraiment falloir que
j'apprenne à me servir de mon clavier, car je n'ai pas la moindre idée
de comment saisir des espace insécables.

Par ailleurs, comme mentionné plus haut, je ne sais pas toujours comment
insérer directement les caractères UTF-8. (Par ailleurs, je n'écris pas
toujours en utf8...)



Si tu as un éditeur qui sait sauver en UTF-8, tu peux toujours faire du
copier-coller. Note que je ne le fais pas toujours moi-même, mon éditeur
favori étant configuré en Latin-1 par défaut : mais au moins, pour tous
les caractères qui existent en Latin-1, y compris l'espace insécable, je
les insère directement dans l'éditeur.

J'écris donc :
« Hé ! Là-bas ! »
au lieu de :
« H&eacute;&nbsp;! L&agrave;-bas&nbsp;! »

(les espaces insécables disparaissent ici, mais c'est un bug de Mozilla
que n'a pas mon éditeur de texte).

____
¹ Je me faisais régulièrement taper sur les doigts il y a quelques temps
lorsque je donnais l'adresse vers le site en anglais alors qu'une
traduction officielle existe en français. Mais je vois que le site
qui héberge cette traduction utilise maintenant des frames pour avoir
un bandeau de pub, ce qui empêche de voir simplement les URL directes
et de les mettre en signets. :-(
Et qui plus est, la page est réalisée avec Word. :-((


Avatar
mpg
Pierre Goiffon a écrit :
mpg wrote:
Il me semble avoir lu quelque part que certaines entités nommées ne
seraient pas utilisables en XHTML (1.1 ? 2 ?) mais je n'arrive pas à
retrouver de lien à ce propos.





En tout cas pour XHTML 1.0 :
http://www.w3.org/TR/xhtml1/#h-A2
"The XHTML entity sets are the same as for HTML 4"

Par ailleurs, comme mentionné plus haut, je ne sais pas toujours
comment insérer directement les caractères UTF-8. (Par ailleurs, je
n'écris pas toujours en utf8...)



Je ne sais pas à quoi vous pensez en disant "écrire en UTF-8" ?



Je pensait simplement au fait que, parfois, ma prose balisée n'est pas
encodée en UTF-8, mais en latin1.

Quels caractères avez-vous besoin de pouvoir saisir ? Suivant les
systèmes, il existe à peu près toujours des moyens de mapper des
combinaisons de touches du clavier. Sous Windows il y a le Microsoft
keyboard layout creator :
http://www.microsoft.com/globaldev/tools/msklc.mspx. Et un excellent
layout déjà réalisé par Denis Liegeois :
http://home.tiscali-business.be/~fbou2235/kbdfrac.htm



Merci pour ce liens intéressants vers de choses que je ne connaissais
pas. Me reste à apprendre deux où trois choses sous linux : j'y ai déjà
découvert la majorité des caractères dont j'ai besoin, mais je ne sais
pas, par exemple, taper une espace insécable, ni un r caron...
1 2