Soit plusieurs très grosses archives de courrier au format mbox.
Il s'agit d'archives d'une liste de diffusion (yahoo) dont le contenu
est intéressant, mais les posteurs sont nuls à chier:
- pas d'utilisation de délimiteur de signature (-- )
- quotage de goret
- réponses au dessus quasi-systématiques
- En plus, yahoo = 15 lignes de cochonneries qui viennent s'ajouter à
la fin de chaque message (couplé avec les réponses au dessus ....vous
imaginez ce que ça donne).
Comment feriez-vous pour nettoyer ces mbox, de préférence avec un peu
d'interactivité (je pense que le mieux serait de se placer sur la
signature - en général, il y en a une, même si elle n'est pas
délimitée avec tiret-tiret-espace - et d'effacer tout jusqu'à la fin
du message - mais en gardant un minimum de contrôle, pour, parfois, ne
pas effacer - il y a dans les 30000 messages, quand même) ?
L'objectif final est de convertir les mbox avec mhonarc, de placer sur
un serveur apache en intranet, et d'indexer tout avec htdig.
Un certain nombre de courriels, dans la mbox, ont un Content-Type: multipart/alternative.
Bon, finalement, il est possible de séparer les courriels en texte brut des courriels multipart/alternative; Pour cela: formail -s procmail < mbox avec un .procmailrc ad'hoc, genre:
:0 H * ^Content-Type:.*multipart/alternative.* mboxalternative
Question: Y a t'il un programme qui permette de traiter proprement les courriels multipart/alternative, regroupés dans une mbox, pour n'en conserver que la partie en text/plain (et supprimer la partie text/html). Des pistes ?
-- Yves
On Fri, 30 Jan 2004 18:09:47 GMT, personne@nullepart.invalid (Yves)
wrote:
Un certain nombre de courriels, dans la mbox, ont un Content-Type:
multipart/alternative.
Bon, finalement, il est possible de séparer les courriels en texte
brut des courriels multipart/alternative;
Pour cela:
formail -s procmail < mbox
avec un .procmailrc ad'hoc, genre:
:0 H
* ^Content-Type:.*multipart/alternative.*
mboxalternative
Question:
Y a t'il un programme qui permette de traiter proprement les courriels
multipart/alternative, regroupés dans une mbox, pour n'en conserver
que la partie en text/plain (et supprimer la partie text/html).
Des pistes ?
Un certain nombre de courriels, dans la mbox, ont un Content-Type: multipart/alternative.
Bon, finalement, il est possible de séparer les courriels en texte brut des courriels multipart/alternative; Pour cela: formail -s procmail < mbox avec un .procmailrc ad'hoc, genre:
:0 H * ^Content-Type:.*multipart/alternative.* mboxalternative
Question: Y a t'il un programme qui permette de traiter proprement les courriels multipart/alternative, regroupés dans une mbox, pour n'en conserver que la partie en text/plain (et supprimer la partie text/html). Des pistes ?
-- Yves
Regis ARCHAMBAULT
Le Mon, 02 Feb 2004 22:07:07 GMT, Yves a écrit:
Question: Y a t'il un programme qui permette de traiter proprement les courriels multipart/alternative, regroupés dans une mbox, pour n'en conserver que la partie en text/plain (et supprimer la partie text/html). Des pistes ?
Je suggère perl, avec le module MIME::Parser.
-- BOFH excuse #179:
multicasts on broken packets
Le Mon, 02 Feb 2004 22:07:07 GMT, Yves a écrit:
Question:
Y a t'il un programme qui permette de traiter proprement les courriels
multipart/alternative, regroupés dans une mbox, pour n'en conserver
que la partie en text/plain (et supprimer la partie text/html).
Des pistes ?
Question: Y a t'il un programme qui permette de traiter proprement les courriels multipart/alternative, regroupés dans une mbox, pour n'en conserver que la partie en text/plain (et supprimer la partie text/html). Des pistes ?
Je suggère perl, avec le module MIME::Parser.
-- BOFH excuse #179:
multicasts on broken packets
personne
On Tue, 27 Jan 2004 23:39:12 +0100, Regis ARCHAMBAULT wrote:
ajoute le contenu de mbox2 à mbox1 Je ne pense pas que ça puisse poser de problème, sauf si il n'y a pas de ligne(s) vide(s) à la fin de mbox1 (mais il n'y a pas de raison).
-- Yves
On Tue, 27 Jan 2004 23:39:12 +0100, Regis ARCHAMBAULT
<regis@nospam.invalid> wrote:
ajoute le contenu de mbox2 à mbox1
Je ne pense pas que ça puisse poser de problème, sauf si il n'y a pas
de ligne(s) vide(s) à la fin de mbox1 (mais il n'y a pas de raison).
ajoute le contenu de mbox2 à mbox1 Je ne pense pas que ça puisse poser de problème, sauf si il n'y a pas de ligne(s) vide(s) à la fin de mbox1 (mais il n'y a pas de raison).
-- Yves
Matthieu Pupat
Regis ARCHAMBAULT wrote:
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox Mais du coup on perd le message "bidon"
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
On en compte un de plus à cause du message "bidon" Non ?
Le message "bidon" c'est :
From MAILER-DAEMON Sun Feb 8 15:07:55 2004 Date: 08 Feb 2004 15:07:55 +0100 From: Mail System Internal Data Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA X-IMAP: 1076249275 0000000000 Status: RO
This text is part of the internal format of your mail folder, and is not a real message. It is created automatically by the mail system software. If deleted, important folder data will be lost, and it will be re-created with the data reset to initial values.
A quoi sert-il d'ailleurs ?
-- Matthieu ----------------------------------------------------------------- Pour m'écrire remplacer surnom par tieum les 2 fois
Regis ARCHAMBAULT wrote:
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox
Mais du coup on perd le message "bidon"
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
On en compte un de plus à cause du message "bidon" Non ?
Le message "bidon" c'est :
From MAILER-DAEMON Sun Feb 8 15:07:55 2004
Date: 08 Feb 2004 15:07:55 +0100
From: Mail System Internal Data <MAILER-DAEMON@tetram.trolls>
Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA
X-IMAP: 1076249275 0000000000
Status: RO
This text is part of the internal format of your mail folder, and is not
a real message. It is created automatically by the mail system software.
If deleted, important folder data will be lost, and it will be re-created
with the data reset to initial values.
A quoi sert-il d'ailleurs ?
--
Matthieu
-----------------------------------------------------------------
Pour m'écrire remplacer surnom par tieum les 2 fois
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox Mais du coup on perd le message "bidon"
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
On en compte un de plus à cause du message "bidon" Non ?
Le message "bidon" c'est :
From MAILER-DAEMON Sun Feb 8 15:07:55 2004 Date: 08 Feb 2004 15:07:55 +0100 From: Mail System Internal Data Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA X-IMAP: 1076249275 0000000000 Status: RO
This text is part of the internal format of your mail folder, and is not a real message. It is created automatically by the mail system software. If deleted, important folder data will be lost, and it will be re-created with the data reset to initial values.
A quoi sert-il d'ailleurs ?
-- Matthieu ----------------------------------------------------------------- Pour m'écrire remplacer surnom par tieum les 2 fois
personne
On Sun, 08 Feb 2004 15:14:04 +0100, Matthieu Pupat wrote:
Bonjour,
From MAILER-DAEMON Sun Feb 8 15:07:55 2004 Date: 08 Feb 2004 15:07:55 +0100 From: Mail System Internal Data Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA X-IMAP: 1076249275 0000000000 Status: RO
Je n'ai pas un tel message dans mes boites mbox. C'est un message propre au système que tu utilises. Il ne fait pas partie des descriptions communes du format mbox.
-- Yves
On Sun, 08 Feb 2004 15:14:04 +0100, Matthieu Pupat
<surnom.surnom@free.fr> wrote:
Bonjour,
From MAILER-DAEMON Sun Feb 8 15:07:55 2004
Date: 08 Feb 2004 15:07:55 +0100
From: Mail System Internal Data <MAILER-DAEMON@tetram.trolls>
Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA
X-IMAP: 1076249275 0000000000
Status: RO
Je n'ai pas un tel message dans mes boites mbox.
C'est un message propre au système que tu utilises.
Il ne fait pas partie des descriptions communes du format mbox.
On Sun, 08 Feb 2004 15:14:04 +0100, Matthieu Pupat wrote:
Bonjour,
From MAILER-DAEMON Sun Feb 8 15:07:55 2004 Date: 08 Feb 2004 15:07:55 +0100 From: Mail System Internal Data Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA X-IMAP: 1076249275 0000000000 Status: RO
Je n'ai pas un tel message dans mes boites mbox. C'est un message propre au système que tu utilises. Il ne fait pas partie des descriptions communes du format mbox.
-- Yves
Matthieu Pupat
Yves wrote:
Je n'ai pas un tel message dans mes boites mbox. C'est un message propre au système que tu utilises. Il ne fait pas partie des descriptions communes du format mbox.
Ce n'est pas très grave. On dirait qu'il s'en sort très bien sans. Il ne le recrée même pas. Il n'est créé que quand on crée un nouveau fichier mbox.
-- Matthieu ----------------------------------------------------------------- Pour m'écrire remplacer surnom par tieum les 2 fois
Yves wrote:
Je n'ai pas un tel message dans mes boites mbox.
C'est un message propre au système que tu utilises.
Il ne fait pas partie des descriptions communes du format mbox.
Ce n'est pas très grave. On dirait qu'il s'en sort très bien sans. Il ne le
recrée même pas. Il n'est créé que quand on crée un nouveau fichier mbox.
--
Matthieu
-----------------------------------------------------------------
Pour m'écrire remplacer surnom par tieum les 2 fois
Je n'ai pas un tel message dans mes boites mbox. C'est un message propre au système que tu utilises. Il ne fait pas partie des descriptions communes du format mbox.
Ce n'est pas très grave. On dirait qu'il s'en sort très bien sans. Il ne le recrée même pas. Il n'est créé que quand on crée un nouveau fichier mbox.
-- Matthieu ----------------------------------------------------------------- Pour m'écrire remplacer surnom par tieum les 2 fois
Regis ARCHAMBAULT
Le Sun, 08 Feb 2004 15:14:04 +0100, Matthieu Pupat a écrit:
Regis ARCHAMBAULT wrote:
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox Mais du coup on perd le message "bidon"
Exact, mais comme dit par Yves, c'est pas bien grave.
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
On en compte un de plus à cause du message "bidon" Non ?
Tout-à-fait.
Le message "bidon" c'est :
From MAILER-DAEMON Sun Feb 8 15:07:55 2004 Date: 08 Feb 2004 15:07:55 +0100 From: Mail System Internal Data Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA X-IMAP: 1076249275 0000000000 Status: RO
Je pense que c'est le serveur IMAP qui le génère lors de la création d'un dossier IMAP.
A quoi sert-il d'ailleurs ?
Aucune idée.
-- BOFH excuse #139:
UBNC (user brain not connected)
Le Sun, 08 Feb 2004 15:14:04 +0100, Matthieu Pupat a écrit:
Regis ARCHAMBAULT wrote:
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox
Mais du coup on perd le message "bidon"
Exact, mais comme dit par Yves, c'est pas bien grave.
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
On en compte un de plus à cause du message "bidon" Non ?
Tout-à-fait.
Le message "bidon" c'est :
From MAILER-DAEMON Sun Feb 8 15:07:55 2004
Date: 08 Feb 2004 15:07:55 +0100
From: Mail System Internal Data <MAILER-DAEMON@tetram.trolls>
Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA
X-IMAP: 1076249275 0000000000
Status: RO
Je pense que c'est le serveur IMAP qui le génère lors de la création
d'un dossier IMAP.
Le Sun, 08 Feb 2004 15:14:04 +0100, Matthieu Pupat a écrit:
Regis ARCHAMBAULT wrote:
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox Mais du coup on perd le message "bidon"
Exact, mais comme dit par Yves, c'est pas bien grave.
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
On en compte un de plus à cause du message "bidon" Non ?
Tout-à-fait.
Le message "bidon" c'est :
From MAILER-DAEMON Sun Feb 8 15:07:55 2004 Date: 08 Feb 2004 15:07:55 +0100 From: Mail System Internal Data Subject: DON'T DELETE THIS MESSAGE -- FOLDER INTERNAL DATA X-IMAP: 1076249275 0000000000 Status: RO
Je pense que c'est le serveur IMAP qui le génère lors de la création d'un dossier IMAP.
A quoi sert-il d'ailleurs ?
Aucune idée.
-- BOFH excuse #139:
UBNC (user brain not connected)
personne
On Mon, 2 Feb 2004 23:21:45 +0100, Regis ARCHAMBAULT wrote:
Je suggère perl, avec le module MIME::Parser.
Merci. C'est un peu trop difficile pour mon niveau en perl.
J'ai fouillé et trouvé des scripts/programmes: stripmime, demime, mimefilter, mimedecode,
Finalement stripmime (http://www.phred.org/~alex/stripmime.html ) est utilisable avec formail:
Pour dégraisser une mbox constituée uniquement de messages en multipart/alternative: rendre stripmime.pl exécutable, $ formail -s stripmime.pl < mbox > mbox_dégraissée
Marche pas mal sur les quelques échantillons que je viens de tester.
Ceci dit, il semble que des versions récentes de mhonarc permettent d'utiliser seulement la partie text/plain des messages multipart/alternative. Il faudrait que j'upgrade mhonarc sur ma vieille bécane.
-- Yves
On Mon, 2 Feb 2004 23:21:45 +0100, Regis ARCHAMBAULT
<regis@nospam.invalid> wrote:
Je suggère perl, avec le module MIME::Parser.
Merci.
C'est un peu trop difficile pour mon niveau en perl.
J'ai fouillé et trouvé des scripts/programmes:
stripmime, demime, mimefilter, mimedecode,
Finalement stripmime (http://www.phred.org/~alex/stripmime.html ) est
utilisable avec formail:
Pour dégraisser une mbox constituée uniquement de messages en
multipart/alternative:
rendre stripmime.pl exécutable,
$ formail -s stripmime.pl < mbox > mbox_dégraissée
Marche pas mal sur les quelques échantillons que je viens de tester.
Ceci dit, il semble que des versions récentes de mhonarc permettent
d'utiliser seulement la partie text/plain des messages
multipart/alternative. Il faudrait que j'upgrade mhonarc sur ma
vieille bécane.
On Mon, 2 Feb 2004 23:21:45 +0100, Regis ARCHAMBAULT wrote:
Je suggère perl, avec le module MIME::Parser.
Merci. C'est un peu trop difficile pour mon niveau en perl.
J'ai fouillé et trouvé des scripts/programmes: stripmime, demime, mimefilter, mimedecode,
Finalement stripmime (http://www.phred.org/~alex/stripmime.html ) est utilisable avec formail:
Pour dégraisser une mbox constituée uniquement de messages en multipart/alternative: rendre stripmime.pl exécutable, $ formail -s stripmime.pl < mbox > mbox_dégraissée
Marche pas mal sur les quelques échantillons que je viens de tester.
Ceci dit, il semble que des versions récentes de mhonarc permettent d'utiliser seulement la partie text/plain des messages multipart/alternative. Il faudrait que j'upgrade mhonarc sur ma vieille bécane.