OVH Cloud OVH Cloud

mail et caratères parasites

6 réponses
Avatar
jip
bonjour,

Je cherche à automatiser la récupération de données de certains
mails que je reçois. Je les mets donc d'abord dans des fichiers
'texte' pour pouvoir ensuite les traiter.
Curieusement, ces mails sont remplis de caractères 'parasites':
par exemple: =20, =3D, =46
mais pas systèmatiquement aux mêmes endroits ! Il semble que
suivant l'expéditeur (son logiciel de courrier, et/ou son OS,
voire son FAI), ces caractères soient ajoutés de manière différente.

Existe-t-il une méthode de 'filtrage' efficace ?

Merci,
jip

6 réponses

Avatar
Basile Starynkevitch [news]
On 2005-04-23, jip wrote:
bonjour,

Je cherche à automatiser la récupération de données de certains
mails que je reçois. Je les mets donc d'abord dans des fichiers
'texte' pour pouvoir ensuite les traiter.
Curieusement, ces mails sont remplis de caractères 'parasites':
par exemple: , =, F


C'est du content-encoding: quoted-printable

Il faudrait donc que votre MTA (mail transfer agent) local convertisse
cet encodage en (par exemple) 8 bits. Dans le détail, ca devrait
dépendre du MTA.

J'ai eu la flemme de chercher comment configurer exim4 (mon MTA) pour
ça.


--
Basile STARYNKEVITCH http://starynkevitch.net/Basile/
email: basile<at>starynkevitch<dot>net
aliases: basile<at>tunes<dot>org = bstarynk<at>nerim<dot>net
8, rue de la Faïencerie, 92340 Bourg La Reine, France

Avatar
Didier Couderc
"Basile Starynkevitch [news]" writes:

On 2005-04-23, jip wrote:
bonjour,

Je cherche à automatiser la récupération de données de certains
mails que je reçois. Je les mets donc d'abord dans des fichiers
'texte' pour pouvoir ensuite les traiter.
Curieusement, ces mails sont remplis de caractères 'parasites':
par exemple: , =, F


C'est du content-encoding: quoted-printable

Il faudrait donc que votre MTA (mail transfer agent) local convertisse
cet encodage en (par exemple) 8 bits. Dans le détail, ca devrait
dépendre du MTA.

J'ai eu la flemme de chercher comment configurer exim4 (mon MTA) pour
ça.


Il y a aussi un petit (moins de 2Ko) utilitaire domaine public qui
fait la conversion comme ceci
qp-decode < toto > titi
Un petit coup de Google sur qp-decode.c pour trouver le source. Il y
a aussi son petit frère qp-encode.c

--
Mog


Avatar
TiChou
Dans le message <news:,
*Basile Starynkevitch [news]* tapota sur f.c.o.l.configuration :

[mail en quoted-printable]

Il faudrait donc que votre MTA (mail transfer agent) local convertisse
cet encodage en (par exemple) 8 bits. Dans le détail, ca devrait
dépendre du MTA.


Un MTA n'a pas à modifier le corps d'un mail, ni même les en-têtes d'origine
!

--
TiChou

Avatar
jip
Il y a aussi un petit (moins de 2Ko) utilitaire domaine public qui
fait la conversion comme ceci
qp-decode < toto > titi
Un petit coup de Google sur qp-decode.c pour trouver le source. Il y
a aussi son petit frère qp-encode.c


Après tests: ça m'a l'air parfait !
merci beaucoup,
bon we
jip

Avatar
TiChou
Dans le message <news:426a143e$0$25030$,
*jip* tapota sur f.c.o.l.configuration :

bonjour,


Bonjour,

Je cherche à automatiser la récupération de données de certains
mails que je reçois. Je les mets donc d'abord dans des fichiers
'texte' pour pouvoir ensuite les traiter.
Curieusement, ces mails sont remplis de caractères 'parasites':
par exemple: , =, F


Ils sont codés en Quoted Printable, comme cela a déjà été dit.

[...]

Existe-t-il une méthode de 'filtrage' efficace ?


Je vous conseille d'utiliser ripMIME, très pratique quand il s'agit de faire
du traitement de mail comme par exemple « dépacker » ou décoder les mails
quelques soient leur format, extraire les pièces jointes, etc.

Merci,


De rien.

--
TiChou

Avatar
Kevin Denis
On 2005-04-23, jip wrote:

Je cherche à automatiser la récupération de données de certains
mails que je reçois. Je les mets donc d'abord dans des fichiers
'texte' pour pouvoir ensuite les traiter.
Curieusement, ces mails sont remplis de caractères 'parasites':
par exemple: , =, F
mais pas systèmatiquement aux mêmes endroits ! Il semble que
suivant l'expéditeur (son logiciel de courrier, et/ou son OS,
voire son FAI), ces caractères soient ajoutés de manière différente.

Existe-t-il une méthode de 'filtrage' efficace ?

J'utilise sed:

un fichier qui contient
s/à/a/g
s/ù/u/g
etc..
puis un sed -f sedfichier texte > texte_bon
--
Kevin