OVH Cloud OVH Cloud

Recuperation des pieces jointes sur Usenet

2 réponses
Avatar
Openmind
Bonsoir à tous,

Je suis en train de faire un petit script pour faire des recherches sur
les newsgroups tels que celui-ci, avec la librairie 'nntplib'.

Je m'en sors pas trop mal avec les messages textes simples, mais les
problèmes commencent dès qu'on trouve des pièces attachées. Là,
impossible de retrouver l'image originale (en .jpg dans mon essai). En
fait, ce que je recupere, c'est l'image sous forme de 'texte', qui une
fois enregistré dans un fichier ne me redonne pas l'image...

Faut-il faire une manip quelconque? comment mon agrégateur officiel
fait-il pour m'afficher une belle image? bref, comment qu'on fait pour
choper les pièces jointes ???

D'avance merci.

2 réponses

Avatar
R12y
Openmind :

Bonsoir à tous,


Bonsoir

Faut-il faire une manip quelconque? comment mon agrégateur officiel
fait-il pour m'afficher une belle image?


_Peut-être_ en manipulant le fichier binaire (l'image) en mode binaire...

--

http://www.onirik.net/article.php3?id_article7
http://www.maemo.org/platform/docs/howtos/howto_new_application.html
http://www.linuxdevices.com/files/article057/index.html

Avatar
Michel Claveau
Bonoir !

3e envoi d'une réponse (les 2 autres n'apparaissant toujours pas...)

--------------------------------------------------------------------

Bonsoir !

Comme mon message de tout à l'heure n'est pas passé, je le reposte,
ci-dessous

MCI

------------------------------------------------------------

Bonjour !

Les messages des newsgroups sont organisés comme les e-mails. Il y a un
premier groupe, qui décrit, via des "headers", les différents items
(éléments).

Chaque "item" est encodé, selon les indications données dans les
headers.

Pour parcourir les différentes parties d'un message, on peut utiliser
"X=email.message_from_string()" puis "X.msg.walk()"

Pour avoir le détail d'un item, on peut utiliser
"get_content_subtype()" ;
attention, pour les jpeg, on peut avoir aussi bien "jpg" que "jpeg".

Les pièces jointes (attachments) peuvent être récupérées avec
"get_payload("


Perso, j'ai eu pas mal de difficultés, pour réaliser un décodage des
e-mails/messages_de_news. Mais, j'ai voulu récupérer aussi bien les
vrais
pièces jointes, que les objets intégrés (par exemple, les fonds de
pages, en
HTML) ; j'ai également voulu décoder le HTML dans les messages
(indépendamment du doublage plain/text + HTML), ainsi que les langues.

Et, ça marche assez bien... tant que l'on ne travaille pas avec des
choses
trop difficiles (genre caractères thaïlandais, runes, syriaque moderne,
...)


Tout cela est très formateur, et plutôt intéressant ; mais pas simple.

Bon courage

Michel Claveau



--
@-salutations

Michel Claveau