Je suis en train de faire un petit script pour faire des recherches sur
les newsgroups tels que celui-ci, avec la librairie 'nntplib'.
Je m'en sors pas trop mal avec les messages textes simples, mais les
problèmes commencent dès qu'on trouve des pièces attachées. Là,
impossible de retrouver l'image originale (en .jpg dans mon essai). En
fait, ce que je recupere, c'est l'image sous forme de 'texte', qui une
fois enregistré dans un fichier ne me redonne pas l'image...
Faut-il faire une manip quelconque? comment mon agrégateur officiel
fait-il pour m'afficher une belle image? bref, comment qu'on fait pour
choper les pièces jointes ???
Les messages des newsgroups sont organisés comme les e-mails. Il y a un premier groupe, qui décrit, via des "headers", les différents items (éléments).
Chaque "item" est encodé, selon les indications données dans les headers.
Pour parcourir les différentes parties d'un message, on peut utiliser "X=email.message_from_string()" puis "X.msg.walk()"
Pour avoir le détail d'un item, on peut utiliser "get_content_subtype()" ; attention, pour les jpeg, on peut avoir aussi bien "jpg" que "jpeg".
Les pièces jointes (attachments) peuvent être récupérées avec "get_payload("
Perso, j'ai eu pas mal de difficultés, pour réaliser un décodage des e-mails/messages_de_news. Mais, j'ai voulu récupérer aussi bien les vrais pièces jointes, que les objets intégrés (par exemple, les fonds de pages, en HTML) ; j'ai également voulu décoder le HTML dans les messages (indépendamment du doublage plain/text + HTML), ainsi que les langues.
Et, ça marche assez bien... tant que l'on ne travaille pas avec des choses trop difficiles (genre caractères thaïlandais, runes, syriaque moderne, ...)
Tout cela est très formateur, et plutôt intéressant ; mais pas simple.
Bon courage
Michel Claveau
-- @-salutations
Michel Claveau
Bonoir !
3e envoi d'une réponse (les 2 autres n'apparaissant toujours pas...)
Les messages des newsgroups sont organisés comme les e-mails. Il y a un
premier groupe, qui décrit, via des "headers", les différents items
(éléments).
Chaque "item" est encodé, selon les indications données dans les
headers.
Pour parcourir les différentes parties d'un message, on peut utiliser
"X=email.message_from_string()" puis "X.msg.walk()"
Pour avoir le détail d'un item, on peut utiliser
"get_content_subtype()" ;
attention, pour les jpeg, on peut avoir aussi bien "jpg" que "jpeg".
Les pièces jointes (attachments) peuvent être récupérées avec
"get_payload("
Perso, j'ai eu pas mal de difficultés, pour réaliser un décodage des
e-mails/messages_de_news. Mais, j'ai voulu récupérer aussi bien les
vrais
pièces jointes, que les objets intégrés (par exemple, les fonds de
pages, en
HTML) ; j'ai également voulu décoder le HTML dans les messages
(indépendamment du doublage plain/text + HTML), ainsi que les langues.
Et, ça marche assez bien... tant que l'on ne travaille pas avec des
choses
trop difficiles (genre caractères thaïlandais, runes, syriaque moderne,
...)
Tout cela est très formateur, et plutôt intéressant ; mais pas simple.
Les messages des newsgroups sont organisés comme les e-mails. Il y a un premier groupe, qui décrit, via des "headers", les différents items (éléments).
Chaque "item" est encodé, selon les indications données dans les headers.
Pour parcourir les différentes parties d'un message, on peut utiliser "X=email.message_from_string()" puis "X.msg.walk()"
Pour avoir le détail d'un item, on peut utiliser "get_content_subtype()" ; attention, pour les jpeg, on peut avoir aussi bien "jpg" que "jpeg".
Les pièces jointes (attachments) peuvent être récupérées avec "get_payload("
Perso, j'ai eu pas mal de difficultés, pour réaliser un décodage des e-mails/messages_de_news. Mais, j'ai voulu récupérer aussi bien les vrais pièces jointes, que les objets intégrés (par exemple, les fonds de pages, en HTML) ; j'ai également voulu décoder le HTML dans les messages (indépendamment du doublage plain/text + HTML), ainsi que les langues.
Et, ça marche assez bien... tant que l'on ne travaille pas avec des choses trop difficiles (genre caractères thaïlandais, runes, syriaque moderne, ...)
Tout cela est très formateur, et plutôt intéressant ; mais pas simple.