HS Convertir du texte encodé UTF8 en son caractère représenté

Le
Daniel Huhardeaux
Bonjour,

j'ai le texte suivant dans le corps d'une courriel


<Résultat à la même étagère>


et aimerai le récupérer dans une variable dans son format lisible soit


<Résultat à la même étagère>


iconv ne fait rien, quelles autres solutions seraient susceptibles de
convenir?

Merci pour vos réponses

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/4C41DC53.1070803@tootai.net
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
bernard.schoenacker
Le #22368131
----- Mail d'origine -----
De: Daniel Huhardeaux À: Debian Users French Envoyé: Sat, 17 Jul 2010 18:37:39 +0200 (CEST)
Objet: HS Convertir du texte encodé UTF8 en son caractère reprà ©senté

Bonjour,

j'ai le texte suivant dans le corps d'une courriel


<Résultat à la même étagère>


et aimerai le récupérer dans une variable dans son format lisible soit


<Résultat à la même étagère>


iconv ne fait rien, quelles autres solutions seraient susceptibles de
convenir?

Merci pour vos réponses

--
Daniel

bonjour,

comme c'est en partie du texte html, voici ce que je pense en premier emplo yer :

-a) html2text
-b) unhtml

en second : recode

quitte à employer un éditeur :

-a) Emacs
-b) Vim

et les fonctions annexes de conversion

slt
bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Sylvain Sauvage
Le #22368191
Daniel Huhardeaux, samedi 17 juillet 2010, 18:37:39 CEST

Bonjour,



’soir,

j'ai le texte suivant dans le corps d'une courriel


<Résultat à la même étagère>


et aimerai le récupérer dans une variable dans son format lisib le soit


<Résultat à la même étagère>


iconv ne fait rien, quelles autres solutions seraient susceptibles de
convenir?



Quoted-printable n’est pas un charset, c’est une «  surface ».
Donc paquet recode :

recode u8/QP..u8
ou, en long :
recode UTF-8/Quoted-Printable..UTF-8/

Ici : prend l’entrée en « UTF-8/qp  » et transforme « .. » en
« UTF-8[/<défaut pour UTF-8>] ».

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Daniel Huhardeaux
Le #22368181
Le 17/07/2010 19:06, Sylvain Sauvage a écrit :
[...]
j'ai le texte suivant dans le corps d'une courriel


<Résultat à la même étagère>


et aimerai le récupérer dans une variable dans son format lisible soit


<Résultat à la même étagère>


iconv ne fait rien, quelles autres solutions seraient susceptibles de
convenir?



Quoted-printable n’est pas un charset, c’est une « surface ».
Donc paquet recode :

recode u8/QP..u8
ou, en long :
recode UTF-8/Quoted-Printable..UTF-8/

Ici : prend l’entrée en « UTF-8/qp » et transforme « .. » en
« UTF-8[/<défaut pour UTF-8>] ».




Merci Sylvain, cela fait très exactement ce que je veux :-)
--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
daniel huhardeaux
Le #22372311
Le 17/07/2010 19:06, Sylvain Sauvage a écrit :

Bonsoir
j'ai le texte suivant dans le corps d'une courriel


<Résultat à la même étagère>


et aimerai le récupérer dans une variable dans son format lisible soit


<Résultat à la même étagère>


iconv ne fait rien, quelles autres solutions seraient susceptibles de
convenir?



Quoted-printable n’est pas un charset, c’est une « surface ».
Donc paquet recode :

recode u8/QP..u8
ou, en long :
recode UTF-8/Quoted-Printable..UTF-8/

Ici : prend l’entrée en « UTF-8/qp » et transforme « .. » en
« UTF-8[/<défaut pour UTF-8>] ».




Et si je veux revenir à la représentation UTF8, soit donc après un
recode retrouver

<Résultat à la même étagère>

quelle est la manipulation?

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Jean-Sébastien Kroll-Rabotin
Le #22372581
--Sig_/PtLZ+gRHMakyAzfZaszL.LE
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Et si je veux revenir à la représentation UTF8, soit donc apr ès un
recode retrouver

<Résultat à la même étagère>

quelle est la manipulation?




En suivant les informations données par Daniel Huhardeaux :

recode UTF-8..UTF-8/Quoted-Printable

C’est aussi simple que ça.

--Sig_/PtLZ+gRHMakyAzfZaszL.LE
Content-Type: application/pgp-signature; name=signature.asc
Content-Disposition: attachment; filename=signature.asc

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.10 (GNU/Linux)

iEYEARECAAYFAkxDU0UACgkQ3qwCc2aFrOb1tgCgtF3gQ1hyNTR8JLeuMtCod8eU
aBoAn3DSth5PcMYoaC1iCjdFm47IZ6C7
PJD
-----END PGP SIGNATURE-----

--Sig_/PtLZ+gRHMakyAzfZaszL.LE--

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Sylvain Sauvage
Le #22372571
daniel huhardeaux, dimanche 18 juillet 2010, 19:33:23 CEST

Le 17/07/2010 19:06, Sylvain Sauvage a écrit :

Bonsoir



’soir,

[…]
> Quoted-printable n’est pas un charset, c’est une  « surface ».
> Donc paquet recode :
>
> recode u8/QP..u8
> ou, en long :
> recode UTF-8/Quoted-Printable..UTF-8/
>
> Ici : prend l’entrée en « UTF-8/qp » et trans forme « .. » en
> « UTF-8[/<défaut pour UTF-8>] ».
>

Et si je veux revenir à la représentation UTF8,



Ce n’est pas une « représentation UTF-8  », c’est un codage (ce
que recode appelle une surface) pour représenter des octets en
n’utilisant que des octets de valeur inférieure à 128.
Il se trouve que, dans ton exemple, les dits octets codent de
l’UTF-8, mais ça peut être n’importe quel encodag e (latin-1,
windows-1252, LaTeX…).
Et le codage peut être « rien » (ou «  par défaut », qui se dit
'' ou '/'), base64 ('/b64'), octal ('/o')…

Pour résumer les termes :
– Unicode : jeu de caractères, donne un n° à ch aque caractère
(et un peu plus) ;
— UTF-8 : [format de] codage de caractères, définit comment
représenter Unicode avec des octets ;
– Quoted-Printable : [format de] codage de données, dà ©finit
comment représenter des octets avec des octets de valeur
inférieure à 128.

soit donc après un
recode retrouver

<Résultat à la même étagère>

quelle est la manipulation?



C’est simplement l’inverse : 'recode u8..u8/qp' (ou simplement
'../qp' pour conserver les valeurs par défaut locales).
Les '..' sont la séparation entre la source et la cible.

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
daniel huhardeaux
Le #22372761
Le 18/07/2010 21:17, Jean-Sébastien Kroll-Rabotin a écrit :
Et si je veux revenir à la représentation UTF8, soit donc après un
recode retrouver

<Résultat à la même étagère>

quelle est la manipulation?




En suivant les informations données par Daniel Huhardeaux :




Petite erreur, c'est Sylvain Sauvage qui avait répondu, moi je n'ai fait
que poser la question ;-) Rendons à César ce qui lui appartient :-)
recode UTF-8..UTF-8/Quoted-Printable

C’est aussi simple que ça.




Effectivement, merci.
--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
daniel huhardeaux
Le #22372751
Le 18/07/2010 21:26, Sylvain Sauvage a écrit :
[…]
Quoted-printable n’est pas un charset, c’est une « surface ».
Donc paquet recode :

recode u8/QP..u8
ou, en long :
recode UTF-8/Quoted-Printable..UTF-8/

Ici : prend l’entrée en « UTF-8/qp » et transforme « .. » en
« UTF-8[/<défaut pour UTF-8>] ».




Et si je veux revenir à la représentation UTF8,



Ce n’est pas une « représentation UTF-8 », c’est un codage (ce
que recode appelle une surface) pour représenter des octets en
n’utilisant que des octets de valeur inférieure à 128.
Il se trouve que, dans ton exemple, les dits octets codent de
l’UTF-8, mais ça peut être n’importe quel encodage (latin-1,
windows-1252, LaTeX…).
Et le codage peut être « rien » (ou « par défaut », qui se dit
'' ou '/'), base64 ('/b64'), octal ('/o')…

Pour résumer les termes :
– Unicode : jeu de caractères, donne un n° à chaque caractère
(et un peu plus) ;
— UTF-8 : [format de] codage de caractères, définit comment
représenter Unicode avec des octets ;
– Quoted-Printable : [format de] codage de données, définit
comment représenter des octets avec des octets de valeur
inférieure à 128.




OK, c'est là ou je me perds. Pour moi UTF est de l'unicode or c'est la
représentation de l'unicode à tes dires.

soit donc après un
recode retrouver

<Résultat à la même étagère>

quelle est la manipulation?



C’est simplement l’inverse : 'recode u8..u8/qp' (ou simplement
'../qp' pour conserver les valeurs par défaut locales).
Les '..' sont la séparation entre la source et la cible.




Oui, c' est bien cela.

Pour information, mon problème est la gestion des SMS: j'ai développé ma
passerelle mail2SMS sur laquelle je me suis rendu compte que les SMS à
l'arrivée n'affichaient pas les lettres accentuées, elles sont soit
remplacées par des espaces, soit affichées par la surface (codage) :-(

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
fra-duf-no-spam
Le #22372911
Le 14808ième jour après Epoch,
daniel huhardeaux écrivait:

Le 18/07/2010 21:26, Sylvain Sauvage a écrit :
[…]
Quoted-printable n’est pas un charset, c’est une « surface ».
Donc paquet recode :

recode u8/QP..u8
ou, en long :
recode UTF-8/Quoted-Printable..UTF-8/

Ici : prend l’entrée en « UTF-8/qp » et tra nsforme « .. » en
« UTF-8[/<défaut pour UTF-8>] ».




Et si je veux revenir à la représentation UTF8,



Ce n’est pas une « représentation UTF-8 », c ’est un codage (ce
que recode appelle une surface) pour représenter des octets en
n’utilisant que des octets de valeur inférieure à 128.
Il se trouve que, dans ton exemple, les dits octets codent de
l’UTF-8, mais ça peut être n’importe quel enco dage (latin-1,
windows-1252, LaTeX…).
Et le codage peut être « rien » (ou « par dé faut », qui se dit
'' ou '/'), base64 ('/b64'), octal ('/o')…

Pour résumer les termes :
– Unicode : jeu de caractères, donne un n° à chaq ue caractère
(et un peu plus) ;
— UTF-8 : [format de] codage de caractères, définit co mment
représenter Unicode avec des octets ;
– Quoted-Printable : [format de] codage de données, dé finit
comment représenter des octets avec des octets de valeur
inférieure à 128.




OK, c'est là ou je me perds. Pour moi UTF est de l'unicode or c'est la
représentation de l'unicode à tes dires.



UTF c'est l'unicode. Après, tu peux décider de le transmettre tel quel,
ou bien de l'encoder en Base64, ou en Quoted-printable (c'est ton cas).

Il faut différencier l'encodage des caractères, et leur "mode de
transport", ou "surface" pour recode.

Pour information, mon problème est la gestion des SMS: j'ai dév eloppé
ma passerelle mail2SMS sur laquelle je me suis rendu compte que les
SMS à l'arrivée n'affichaient pas les lettres accentuées, elles sont
soit remplacées par des espaces, soit affichées par la surface
(codage) :-(



Je pense que dans ton cas, ça doit dépendre de ce que les termina ux
savent gérer, mais je ne suis pas sûr. Il faudrait que tu te proc ures
les spécifications claires des SMS, car vu que les terminaux
(téléphones) sont vendus dans plein de pays UTF8, ils doivent à ªtre
capables d'afficher ce que tu veux.

--
Il y a trois types de mathématiciens, ceux qui savent compter et ceux
qui ne savent pas.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
daniel huhardeaux
Le #22373251
Le 19/07/2010 00:54, François TOURDE a écrit :
[...]
Pour information, mon problème est la gestion des SMS: j'ai développé
ma passerelle mail2SMS sur laquelle je me suis rendu compte que les
SMS à l'arrivée n'affichaient pas les lettres accentuées, elles sont
soit remplacées par des espaces, soit affichées par la surface
(codage) :-(



Je pense que dans ton cas, ça doit dépendre de ce que les terminaux
savent gérer, mais je ne suis pas sûr. Il faudrait que tu te procures
les spécifications claires des SMS, car vu que les terminaux
(téléphones) sont vendus dans plein de pays UTF8, ils doivent être
capables d'afficher ce que tu veux.




A l'origine c'est de l'ASCII 7 bits et c'est ce qui explique que la
taille maxi d'un SMS est de 160 octets (si plus grand, il est découpé en
autant de SMS, chacun de ces segments étant facturé)

Si on passe en 8 bits on arrive à une taille de 140 octets et en UTF8 à
une taille de 70 octets. On voit donc que plus on gère les caractères
spécifiques d'une langue, plus cher le message coute à l'utilisateur.
Pour les langues comme le Russe le chinois c'est UCS-2 qui est utilisé.
On est loin de l'ascii !

Le problème est donc financier avant d'être technique. Je vais tout
simplement recoder en ascii-bs afin de ne pas m'attirer les foudres de
la clientèle ;-)

Merci à tous pour ces explications.
--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Publicité
Poster une réponse
Anonyme