[decouverte] Programme pour ajouter les codes de césure aux documents XHTML en UTF-8
6 réponses
Lea GRIS
Bonjour,
Je vous fais part de l'existence d'un petit outil pratique libre et
inédit pour intégrer les codes de césure UTF-8 aux documents XHTML.
xhtml_hyphenate est un programme de césure pour les documents XHTML.
À découvrir ici en anglais :
<http://swolter.sdf1.org/software/article-xhtml_hyphenate.html>
xhtml_hyphenate: An hyphenation program for XHTML documents
As an example for real-world usage of libhyphenate, I proudly
present you the XHTML hyphenator. By scrutinizing the xml:lang tag
present in XML documents, it hyphenates all non-header text nodes
of an XHTML document with standard UTF-8 soft hyphens, which are
used by all standard browsers except Mozilla Firefox as
hyphenation hints. Firefox ignores them completely, so no harm is
done.
Cette action est irreversible, confirmez la suppression du commentaire ?
Signaler le commentaire
Veuillez sélectionner un problème
Nudité
Violence
Harcèlement
Fraude
Vente illégale
Discours haineux
Terrorisme
Autre
Olivier Miakinen
Le 24/03/2008 21:41, Lea GRIS a écrit :
Je vous fais part de l'existence d'un petit outil pratique libre et inédit pour intégrer les codes de césure UTF-8 aux documents XHTML.
xhtml_hyphenate est un programme de césure pour les documents XHTML.
À découvrir ici en anglais : <http://swolter.sdf1.org/software/article-xhtml_hyphenate.html>
xhtml_hyphenate: An hyphenation program for XHTML documents
As an example for real-world usage of libhyphenate, I proudly present you the XHTML hyphenator. [...]
Ainsi que le laisse supposer cette dernière phrase il faut conjointement récupérer libhyphenate, car c'est cette bibliothèque qui fait tout le boulot : <http://swolter.sdf1.org/software/libhyphenate.html>.
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et deux versions de l'allemand (avant et après 1901 ?).
Le 24/03/2008 21:41, Lea GRIS a écrit :
Je vous fais part de l'existence d'un petit outil pratique libre et
inédit pour intégrer les codes de césure UTF-8 aux documents XHTML.
xhtml_hyphenate est un programme de césure pour les documents XHTML.
À découvrir ici en anglais :
<http://swolter.sdf1.org/software/article-xhtml_hyphenate.html>
xhtml_hyphenate: An hyphenation program for XHTML documents
As an example for real-world usage of libhyphenate, I proudly
present you the XHTML hyphenator. [...]
Ainsi que le laisse supposer cette dernière phrase il faut conjointement
récupérer libhyphenate, car c'est cette bibliothèque qui fait tout le
boulot : <http://swolter.sdf1.org/software/libhyphenate.html>.
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il
y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et
deux versions de l'allemand (avant et après 1901 ?).
Je vous fais part de l'existence d'un petit outil pratique libre et inédit pour intégrer les codes de césure UTF-8 aux documents XHTML.
xhtml_hyphenate est un programme de césure pour les documents XHTML.
À découvrir ici en anglais : <http://swolter.sdf1.org/software/article-xhtml_hyphenate.html>
xhtml_hyphenate: An hyphenation program for XHTML documents
As an example for real-world usage of libhyphenate, I proudly present you the XHTML hyphenator. [...]
Ainsi que le laisse supposer cette dernière phrase il faut conjointement récupérer libhyphenate, car c'est cette bibliothèque qui fait tout le boulot : <http://swolter.sdf1.org/software/libhyphenate.html>.
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et deux versions de l'allemand (avant et après 1901 ?).
Lea GRIS
Olivier Miakinen a écrit :
Ainsi que le laisse supposer cette dernière phrase il faut conjointement récupérer libhyphenate, car c'est cette bibliothèque qui fait tout le boulot : <http://swolter.sdf1.org/software/libhyphenate.html>.
Tout à fait :)
Je viens de compiler la bibliothèque et le programme dans Ubuntu Gutsy (ne pas oublier de faire un (sudo ldconfig pour répertorier la nouvelle bibliothèque). Tout semble bien fonctionner avec un document mélangé français/anglais, bien que je ne sois pas allée vérifier l'exactitude du placement des césures selon les différentes langues.
En bonus, ce que ne précise pas l'auteur, les césures UTF-8 sont bien prises en compte par Firefox3 (testé avec la nightly 3.0b5pre Minefield).
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et deux versions de l'allemand (avant et après 1901 ?).
Au sujet de l'allemand, je ne saurais te répondre.
-- Léa Gris
Olivier Miakinen a écrit :
Ainsi que le laisse supposer cette dernière phrase il faut conjointement
récupérer libhyphenate, car c'est cette bibliothèque qui fait tout le
boulot : <http://swolter.sdf1.org/software/libhyphenate.html>.
Tout à fait :)
Je viens de compiler la bibliothèque et le programme dans Ubuntu Gutsy
(ne pas oublier de faire un (sudo ldconfig pour répertorier la nouvelle
bibliothèque). Tout semble bien fonctionner avec un document mélangé
français/anglais, bien que je ne sois pas allée vérifier l'exactitude du
placement des césures selon les différentes langues.
En bonus, ce que ne précise pas l'auteur, les césures UTF-8 sont bien
prises en compte par Firefox3 (testé avec la nightly 3.0b5pre Minefield).
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il
y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et
deux versions de l'allemand (avant et après 1901 ?).
Au sujet de l'allemand, je ne saurais te répondre.
Ainsi que le laisse supposer cette dernière phrase il faut conjointement récupérer libhyphenate, car c'est cette bibliothèque qui fait tout le boulot : <http://swolter.sdf1.org/software/libhyphenate.html>.
Tout à fait :)
Je viens de compiler la bibliothèque et le programme dans Ubuntu Gutsy (ne pas oublier de faire un (sudo ldconfig pour répertorier la nouvelle bibliothèque). Tout semble bien fonctionner avec un document mélangé français/anglais, bien que je ne sois pas allée vérifier l'exactitude du placement des césures selon les différentes langues.
En bonus, ce que ne précise pas l'auteur, les césures UTF-8 sont bien prises en compte par Firefox3 (testé avec la nightly 3.0b5pre Minefield).
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et deux versions de l'allemand (avant et après 1901 ?).
Au sujet de l'allemand, je ne saurais te répondre.
-- Léa Gris
Olivier Miakinen
Le 24/03/2008 23:12, Lea GRIS a écrit :
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et deux versions de l'allemand (avant et après 1901 ?).
Au sujet de l'allemand, je ne saurais te répondre.
Il y a bien eu une modification des règles de césure en allemand, mais c'était en 1996. Du coup je suis moins étonné qu'il propose les deux fichiers car c'est vraiment très récent (devenu obligatoire en 2005).
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il
y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et
deux versions de l'allemand (avant et après 1901 ?).
Au sujet de l'allemand, je ne saurais te répondre.
Il y a bien eu une modification des règles de césure en allemand, mais
c'était en 1996. Du coup je suis moins étonné qu'il propose les deux
fichiers car c'est vraiment très récent (devenu obligatoire en 2005).
Si j'en crois la présence de fichiers en, es, fr, de et de-DE-1901, il y a déjà tout ce qu'il faut pour l'anglais, l'espagnol, le français, et deux versions de l'allemand (avant et après 1901 ?).
Au sujet de l'allemand, je ne saurais te répondre.
Il y a bien eu une modification des règles de césure en allemand, mais c'était en 1996. Du coup je suis moins étonné qu'il propose les deux fichiers car c'est vraiment très récent (devenu obligatoire en 2005).
which are used by all standard browsers except Mozilla Firefox as hyphenation hints. Firefox ignores them completely, so no harm is done.
Aux dernières nouvelles, Mozilla Firefox 3 n'est pas concerné par le problème.
Cependant, je doute de la pertinence de l'usage d'un tel outil pour les documents XHTML. Le XHTML n'est pas un média graphique, et selon le type de caractères, la configuration de l'écran, la disponibilité de la police de caractère, etc la césure ne sera certainement pas à la bonne place. Pour moi c'est le boulot du navigateur web graphique. Insérer les césures dans le HTML est du même acabit que l'usage des tableaux pour la mise en page.
Bref, au pire, on peut imaginer que ce genre de manipulations est à reléguer aux CSS en conjugaison des attributs xml:lang et xhtml:lang. Mais c'est plus facile à dire qu'à faire, visiblement <http://www.w3.org/TR/css3-text/#hyphenate>.
which are
used by all standard browsers except Mozilla Firefox as
hyphenation hints. Firefox ignores them completely, so no harm is
done.
Aux dernières nouvelles, Mozilla Firefox 3 n'est pas concerné par le
problème.
Cependant, je doute de la pertinence de l'usage d'un tel outil pour
les documents XHTML. Le XHTML n'est pas un média graphique, et selon le
type de caractères, la configuration de l'écran, la disponibilité de la
police de caractère, etc la césure ne sera certainement pas à la bonne
place.
Pour moi c'est le boulot du navigateur web graphique. Insérer les
césures dans le HTML est du même acabit que l'usage des tableaux pour la
mise en page.
Bref, au pire, on peut imaginer que ce genre de manipulations est à
reléguer aux CSS en conjugaison des attributs xml:lang et xhtml:lang.
Mais c'est plus facile à dire qu'à faire, visiblement
<http://www.w3.org/TR/css3-text/#hyphenate>.
which are used by all standard browsers except Mozilla Firefox as hyphenation hints. Firefox ignores them completely, so no harm is done.
Aux dernières nouvelles, Mozilla Firefox 3 n'est pas concerné par le problème.
Cependant, je doute de la pertinence de l'usage d'un tel outil pour les documents XHTML. Le XHTML n'est pas un média graphique, et selon le type de caractères, la configuration de l'écran, la disponibilité de la police de caractère, etc la césure ne sera certainement pas à la bonne place. Pour moi c'est le boulot du navigateur web graphique. Insérer les césures dans le HTML est du même acabit que l'usage des tableaux pour la mise en page.
Bref, au pire, on peut imaginer que ce genre de manipulations est à reléguer aux CSS en conjugaison des attributs xml:lang et xhtml:lang. Mais c'est plus facile à dire qu'à faire, visiblement <http://www.w3.org/TR/css3-text/#hyphenate>.
which are used by all standard browsers except Mozilla Firefox as hyphenation hints. Firefox ignores them completely, so no harm is done.
Aux dernières nouvelles, Mozilla Firefox 3 n'est pas concerné par le problème.
C'est déjà ce qu'écrivait Léa dans son article de 23 h 12 (heure française).
Cependant, je doute de la pertinence de l'usage d'un tel outil pour les documents XHTML. Le XHTML n'est pas un média graphique, et selon le type de caractères, la configuration de l'écran, la disponibilité de la police de caractère, etc la césure ne sera certainement pas à la bonne place.
Je ne comprends pas ta remarque, ou alors c'est toi qui n'a pas compris la même chose que moi. Ce que j'ai compris de ce « césureur XHTML », c'est qu'il insère à chaque endroit possible un caractère U+00AD, qui est une autorisation (du moins dans quelques langues telles que le français et l'anglais) d'afficher un trait d'union suivi d'un saut de ligne (ou bien rien).
Par exemple, dans la phrase « la césure ne sera certainement pas à la bonne place », il écrira (en notant § le caractère ­) « la cé§su§re ne se§ra cer§tai§ne§ment pas à la bon§ne pla§ce », ce que le navigateur, parmi de multiples autres possibilités, pourra rendre : -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne place -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne pla- ce -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne place -------------------------------------------------------------------- la césure ne sera certainement pas à la bon- ne place -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne place -------------------------------------------------------------------- ... -------------------------------------------------------------------- la césure ne sera certaine- ment pas à la bonne place -------------------------------------------------------------------- la césure ne sera certai- nement pas à la bonne pla- ce -------------------------------------------------------------------- la césure ne sera cer- tainement pas à la bonne place -------------------------------------------------------------------- la césure ne sera cer- tainement pas à la bon- ne place -------------------------------------------------------------------- etc.
Pour moi c'est le boulot du navigateur web graphique.
C'est donc au navigateur du visiteur de connaître toutes les langues des sites webs visités. Pourquoi pas, en effet, mais c'est un autre choix.
[...]
Bref, au pire, on peut imaginer que ce genre de manipulations est à reléguer aux CSS en conjugaison des attributs xml:lang et xhtml:lang. Mais c'est plus facile à dire qu'à faire, visiblement <http://www.w3.org/TR/css3-text/#hyphenate>.
Noter que l'insertion de caractères U+00AD est très loin de résoudre tous les problèmes : <http://www.cs.tut.fi/~jkorpela/shy.html>.
Le 25/03/2008 10:53, Mickaël Wolff a écrit :
Lea GRIS a écrit :
which are
used by all standard browsers except Mozilla Firefox as
hyphenation hints. Firefox ignores them completely, so no harm is
done.
Aux dernières nouvelles, Mozilla Firefox 3 n'est pas concerné par le
problème.
C'est déjà ce qu'écrivait Léa dans son article de 23 h 12 (heure française).
Cependant, je doute de la pertinence de l'usage d'un tel outil pour
les documents XHTML. Le XHTML n'est pas un média graphique, et selon le
type de caractères, la configuration de l'écran, la disponibilité de la
police de caractère, etc la césure ne sera certainement pas à la bonne
place.
Je ne comprends pas ta remarque, ou alors c'est toi qui n'a pas compris
la même chose que moi. Ce que j'ai compris de ce « césureur XHTML »,
c'est qu'il insère à chaque endroit possible un caractère U+00AD, qui
est une autorisation (du moins dans quelques langues telles que le
français et l'anglais) d'afficher un trait d'union suivi d'un saut de
ligne (ou bien rien).
Par exemple, dans la phrase « la césure ne sera certainement pas à la
bonne place », il écrira (en notant § le caractère ­) « la cé§su§re
ne se§ra cer§tai§ne§ment pas à la bon§ne pla§ce », ce que le navigateur,
parmi de multiples autres possibilités, pourra rendre :
--------------------------------------------------------------------
la césure ne sera certainement pas à la bonne place
--------------------------------------------------------------------
la césure ne sera certainement pas à la bonne pla-
ce
--------------------------------------------------------------------
la césure ne sera certainement pas à la bonne
place
--------------------------------------------------------------------
la césure ne sera certainement pas à la bon-
ne place
--------------------------------------------------------------------
la césure ne sera certainement pas à la
bonne place
--------------------------------------------------------------------
...
--------------------------------------------------------------------
la césure ne sera certaine-
ment pas à la bonne place
--------------------------------------------------------------------
la césure ne sera certai-
nement pas à la bonne pla-
ce
--------------------------------------------------------------------
la césure ne sera cer-
tainement pas à la bonne
place
--------------------------------------------------------------------
la césure ne sera cer-
tainement pas à la bon-
ne place
--------------------------------------------------------------------
etc.
Pour moi c'est le boulot du navigateur web graphique.
C'est donc au navigateur du visiteur de connaître toutes les langues des
sites webs visités. Pourquoi pas, en effet, mais c'est un autre choix.
[...]
Bref, au pire, on peut imaginer que ce genre de manipulations est à
reléguer aux CSS en conjugaison des attributs xml:lang et xhtml:lang.
Mais c'est plus facile à dire qu'à faire, visiblement
<http://www.w3.org/TR/css3-text/#hyphenate>.
Noter que l'insertion de caractères U+00AD est très loin de résoudre
tous les problèmes : <http://www.cs.tut.fi/~jkorpela/shy.html>.
which are used by all standard browsers except Mozilla Firefox as hyphenation hints. Firefox ignores them completely, so no harm is done.
Aux dernières nouvelles, Mozilla Firefox 3 n'est pas concerné par le problème.
C'est déjà ce qu'écrivait Léa dans son article de 23 h 12 (heure française).
Cependant, je doute de la pertinence de l'usage d'un tel outil pour les documents XHTML. Le XHTML n'est pas un média graphique, et selon le type de caractères, la configuration de l'écran, la disponibilité de la police de caractère, etc la césure ne sera certainement pas à la bonne place.
Je ne comprends pas ta remarque, ou alors c'est toi qui n'a pas compris la même chose que moi. Ce que j'ai compris de ce « césureur XHTML », c'est qu'il insère à chaque endroit possible un caractère U+00AD, qui est une autorisation (du moins dans quelques langues telles que le français et l'anglais) d'afficher un trait d'union suivi d'un saut de ligne (ou bien rien).
Par exemple, dans la phrase « la césure ne sera certainement pas à la bonne place », il écrira (en notant § le caractère ­) « la cé§su§re ne se§ra cer§tai§ne§ment pas à la bon§ne pla§ce », ce que le navigateur, parmi de multiples autres possibilités, pourra rendre : -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne place -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne pla- ce -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne place -------------------------------------------------------------------- la césure ne sera certainement pas à la bon- ne place -------------------------------------------------------------------- la césure ne sera certainement pas à la bonne place -------------------------------------------------------------------- ... -------------------------------------------------------------------- la césure ne sera certaine- ment pas à la bonne place -------------------------------------------------------------------- la césure ne sera certai- nement pas à la bonne pla- ce -------------------------------------------------------------------- la césure ne sera cer- tainement pas à la bonne place -------------------------------------------------------------------- la césure ne sera cer- tainement pas à la bon- ne place -------------------------------------------------------------------- etc.
Pour moi c'est le boulot du navigateur web graphique.
C'est donc au navigateur du visiteur de connaître toutes les langues des sites webs visités. Pourquoi pas, en effet, mais c'est un autre choix.
[...]
Bref, au pire, on peut imaginer que ce genre de manipulations est à reléguer aux CSS en conjugaison des attributs xml:lang et xhtml:lang. Mais c'est plus facile à dire qu'à faire, visiblement <http://www.w3.org/TR/css3-text/#hyphenate>.
Noter que l'insertion de caractères U+00AD est très loin de résoudre tous les problèmes : <http://www.cs.tut.fi/~jkorpela/shy.html>.
Mickaël Wolff
Olivier Miakinen a écrit :
C'est déjà ce qu'écrivait Léa dans son article de 23 h 12 (heure française).
Rha... où ais-je donc rangé mes orties fraîches ?
Je ne comprends pas ta remarque, ou alors c'est toi qui n'a pas compris la même chose que moi.
Effectivement, nous n'avions pas compris la même chose. J'avais compris que le programme agisait comme un coupeur de ligne, mais qu'à la place d'insérer un retour charriot, il insérait un soft hyphen.
Merci de ton éclairante explication.
Pour moi c'est le boulot du navigateur web graphique.
C'est donc au navigateur du visiteur de connaître toutes les langues des sites webs visités. Pourquoi pas, en effet, mais c'est un autre choix.
Certes, et je penses que ce serait un plus intéressant. Enfin l'attribut lang servirait à quelque chose.
C'est déjà ce qu'écrivait Léa dans son article de 23 h 12 (heure française).
Rha... où ais-je donc rangé mes orties fraîches ?
Je ne comprends pas ta remarque, ou alors c'est toi qui n'a pas compris
la même chose que moi.
Effectivement, nous n'avions pas compris la même chose. J'avais
compris que le programme agisait comme un coupeur de ligne, mais qu'à la
place d'insérer un retour charriot, il insérait un soft hyphen.
Merci de ton éclairante explication.
Pour moi c'est le boulot du navigateur web graphique.
C'est donc au navigateur du visiteur de connaître toutes les langues des
sites webs visités. Pourquoi pas, en effet, mais c'est un autre choix.
Certes, et je penses que ce serait un plus intéressant. Enfin
l'attribut lang servirait à quelque chose.
C'est déjà ce qu'écrivait Léa dans son article de 23 h 12 (heure française).
Rha... où ais-je donc rangé mes orties fraîches ?
Je ne comprends pas ta remarque, ou alors c'est toi qui n'a pas compris la même chose que moi.
Effectivement, nous n'avions pas compris la même chose. J'avais compris que le programme agisait comme un coupeur de ligne, mais qu'à la place d'insérer un retour charriot, il insérait un soft hyphen.
Merci de ton éclairante explication.
Pour moi c'est le boulot du navigateur web graphique.
C'est donc au navigateur du visiteur de connaître toutes les langues des sites webs visités. Pourquoi pas, en effet, mais c'est un autre choix.
Certes, et je penses que ce serait un plus intéressant. Enfin l'attribut lang servirait à quelque chose.