Soit plusieurs très grosses archives de courrier au format mbox.
Il s'agit d'archives d'une liste de diffusion (yahoo) dont le contenu
est intéressant, mais les posteurs sont nuls à chier:
- pas d'utilisation de délimiteur de signature (-- )
- quotage de goret
- réponses au dessus quasi-systématiques
- En plus, yahoo = 15 lignes de cochonneries qui viennent s'ajouter à
la fin de chaque message (couplé avec les réponses au dessus ....vous
imaginez ce que ça donne).
Comment feriez-vous pour nettoyer ces mbox, de préférence avec un peu
d'interactivité (je pense que le mieux serait de se placer sur la
signature - en général, il y en a une, même si elle n'est pas
délimitée avec tiret-tiret-espace - et d'effacer tout jusqu'à la fin
du message - mais en gardant un minimum de contrôle, pour, parfois, ne
pas effacer - il y a dans les 30000 messages, quand même) ?
L'objectif final est de convertir les mbox avec mhonarc, de placer sur
un serveur apache en intranet, et d'indexer tout avec htdig.
Soit plusieurs très grosses archives de courrier au format mbox.
Il s'agit d'archives d'une liste de diffusion (yahoo) dont le contenu est intéressant, mais les posteurs sont nuls à chier:
- pas d'utilisation de délimiteur de signature (-- ) - quotage de goret - réponses au dessus quasi-systématiques
- En plus, yahoo = 15 lignes de cochonneries qui viennent s'ajouter à la fin de chaque message (couplé avec les réponses au dessus ....vous imaginez ce que ça donne).
Comment feriez-vous pour nettoyer ces mbox, de préférence avec un peu d'interactivité (je pense que le mieux serait de se placer sur la signature - en général, il y en a une, même si elle n'est pas délimitée avec tiret-tiret-espace - et d'effacer tout jusqu'à la fin du message - mais en gardant un minimum de contrôle, pour, parfois, ne pas effacer - il y a dans les 30000 messages, quand même) ?
Pour le mode intéractif :
mail -f mbox mutt -f mbox
Sinon, pour travailler le fichier mbox, on peut toujours essayer avec des outils comme sed et awk, voir perl. Après ça dépend de se qu'on veut faire (supprimer les signatures, enlever les champs X-.*, nettoyer les champs delivered-to pour ne garder que le dernier, trier par champ from, ...).
-- David LE BOURGEOIS
Bonjour,
Soit plusieurs très grosses archives de courrier au format mbox.
Il s'agit d'archives d'une liste de diffusion (yahoo) dont le contenu
est intéressant, mais les posteurs sont nuls à chier:
- pas d'utilisation de délimiteur de signature (-- )
- quotage de goret
- réponses au dessus quasi-systématiques
- En plus, yahoo = 15 lignes de cochonneries qui viennent s'ajouter à
la fin de chaque message (couplé avec les réponses au dessus ....vous
imaginez ce que ça donne).
Comment feriez-vous pour nettoyer ces mbox, de préférence avec un peu
d'interactivité (je pense que le mieux serait de se placer sur la
signature - en général, il y en a une, même si elle n'est pas
délimitée avec tiret-tiret-espace - et d'effacer tout jusqu'à la fin
du message - mais en gardant un minimum de contrôle, pour, parfois, ne
pas effacer - il y a dans les 30000 messages, quand même) ?
Pour le mode intéractif :
mail -f mbox
mutt -f mbox
Sinon, pour travailler le fichier mbox, on peut toujours essayer avec
des outils comme sed et awk, voir perl. Après ça dépend de se qu'on veut
faire (supprimer les signatures, enlever les champs X-.*, nettoyer les
champs delivered-to pour ne garder que le dernier, trier par champ from,
...).
Soit plusieurs très grosses archives de courrier au format mbox.
Il s'agit d'archives d'une liste de diffusion (yahoo) dont le contenu est intéressant, mais les posteurs sont nuls à chier:
- pas d'utilisation de délimiteur de signature (-- ) - quotage de goret - réponses au dessus quasi-systématiques
- En plus, yahoo = 15 lignes de cochonneries qui viennent s'ajouter à la fin de chaque message (couplé avec les réponses au dessus ....vous imaginez ce que ça donne).
Comment feriez-vous pour nettoyer ces mbox, de préférence avec un peu d'interactivité (je pense que le mieux serait de se placer sur la signature - en général, il y en a une, même si elle n'est pas délimitée avec tiret-tiret-espace - et d'effacer tout jusqu'à la fin du message - mais en gardant un minimum de contrôle, pour, parfois, ne pas effacer - il y a dans les 30000 messages, quand même) ?
Pour le mode intéractif :
mail -f mbox mutt -f mbox
Sinon, pour travailler le fichier mbox, on peut toujours essayer avec des outils comme sed et awk, voir perl. Après ça dépend de se qu'on veut faire (supprimer les signatures, enlever les champs X-.*, nettoyer les champs delivered-to pour ne garder que le dernier, trier par champ from, ...).
-- David LE BOURGEOIS
Regis ARCHAMBAULT
Le Mon, 26 Jan 2004 20:31:21 +0100, David LE BOURGEOIS a écrit:
Sinon, pour travailler le fichier mbox, on peut toujours essayer avec des outils comme sed et awk, voir perl. Après ça dépend de se qu'on veut faire (supprimer les signatures, enlever les champs X-.*, nettoyer les champs delivered-to pour ne garder que le dernier, trier par champ from, ...).
J'ajouterais formail (fourni avec procmail) qui permet aussi ce genre de choses.
-- BOFH excuse #25:
Decreasing electron flux
Le Mon, 26 Jan 2004 20:31:21 +0100, David LE BOURGEOIS a écrit:
Sinon, pour travailler le fichier mbox, on peut toujours essayer avec
des outils comme sed et awk, voir perl. Après ça dépend de se qu'on veut
faire (supprimer les signatures, enlever les champs X-.*, nettoyer les
champs delivered-to pour ne garder que le dernier, trier par champ from,
...).
J'ajouterais formail (fourni avec procmail) qui permet aussi ce
genre de choses.
Le Mon, 26 Jan 2004 20:31:21 +0100, David LE BOURGEOIS a écrit:
Sinon, pour travailler le fichier mbox, on peut toujours essayer avec des outils comme sed et awk, voir perl. Après ça dépend de se qu'on veut faire (supprimer les signatures, enlever les champs X-.*, nettoyer les champs delivered-to pour ne garder que le dernier, trier par champ from, ...).
J'ajouterais formail (fourni avec procmail) qui permet aussi ce genre de choses.
-- BOFH excuse #25:
Decreasing electron flux
Matthieu Pupat
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox * Déplacer tous les messages d'un fichier mbox vers un autre * Compter le nombre de messages dans un fichier mbox
Merci d'avance
-- Matthieu ----------------------------------------------------------------- Pour m'écrire remplacer surnom par tieum les 2 fois
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
* Déplacer tous les messages d'un fichier mbox vers un autre
* Compter le nombre de messages dans un fichier mbox
Merci d'avance
--
Matthieu
-----------------------------------------------------------------
Pour m'écrire remplacer surnom par tieum les 2 fois
* Effacer complètement = purger un fichier mbox * Déplacer tous les messages d'un fichier mbox vers un autre * Compter le nombre de messages dans un fichier mbox
Merci d'avance
-- Matthieu ----------------------------------------------------------------- Pour m'écrire remplacer surnom par tieum les 2 fois
Regis ARCHAMBAULT
Le Tue, 27 Jan 2004 19:31:06 +0100, Matthieu Pupat a écrit:
Dans le même genre, je cherche comment :
* Effacer complètement = purger un fichier mbox
$ > fichier_mbox
* Déplacer tous les messages d'un fichier mbox vers un autre
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
-- BOFH excuse #1:
clock speed
Batman
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
Hum, y'a parfois plusier "^From" pour un seul mail ? non ? je me trompe ? faudrait pas un truc qui regarde si la ligne précédante serais - vide (n, 0x00, ... ?) - ou la 1ere ligne (c'est un cas presque particulier ;-) )
-- Les fautes d'orthographes sont ma signature :-) pour me répondre en BAL (mode antispam) http://batman.dyndns.org/V2/Mail/?src=news.free
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
Hum, y'a parfois plusier "^From" pour un seul mail ? non ? je me trompe ?
faudrait pas un truc qui regarde si la ligne précédante serais
- vide (n, 0x00, ... ?)
- ou la 1ere ligne (c'est un cas presque particulier ;-) )
--
Les fautes d'orthographes sont ma signature :-)
pour me répondre en BAL (mode antispam)
http://batman.dyndns.org/V2/Mail/?src=news.free
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
Hum, y'a parfois plusier "^From" pour un seul mail ? non ? je me trompe ? faudrait pas un truc qui regarde si la ligne précédante serais - vide (n, 0x00, ... ?) - ou la 1ere ligne (c'est un cas presque particulier ;-) )
-- Les fautes d'orthographes sont ma signature :-) pour me répondre en BAL (mode antispam) http://batman.dyndns.org/V2/Mail/?src=news.free
personne
On Wed, 28 Jan 2004 09:13:39 +0100, Batman wrote:
Bonjour
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
Hum, y'a parfois plusier "^From" pour un seul mail ? non ? je me trompe ? faudrait pas un truc qui regarde si la ligne précédante serais - vide (n, 0x00, ... ?) - ou la 1ere ligne (c'est un cas presque particulier ;-) )
par contre, grep -c "^From" (sans espace à la fin) 21886
-- Yves
On Wed, 28 Jan 2004 09:13:39 +0100, Batman <no_one@nowhere.com> wrote:
Bonjour
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
Hum, y'a parfois plusier "^From" pour un seul mail ? non ? je me trompe ?
faudrait pas un truc qui regarde si la ligne précédante serais
- vide (n, 0x00, ... ?)
- ou la 1ere ligne (c'est un cas presque particulier ;-) )
* Compter le nombre de messages dans un fichier mbox
$ grep -c "^From " fichier_mbox
Hum, y'a parfois plusier "^From" pour un seul mail ? non ? je me trompe ? faudrait pas un truc qui regarde si la ligne précédante serais - vide (n, 0x00, ... ?) - ou la 1ere ligne (c'est un cas presque particulier ;-) )
par contre, grep -c "^From" (sans espace à la fin) 21886
Ok c'est subtil, j'avais pas fait la différence ;-)
C'est le caractère derrière le From qui fait la différence: ':' ou espace. Il me semble que le 'From:' fait partie du contenu du message, tandis que le 'From ' est ajouté par le MDA.
-- BOFH excuse #1:
clock speed
Le Wed, 28 Jan 2004 19:55:12 +0100, Batman a écrit:
par contre,
grep -c "^From" (sans espace à la fin)
21886
Ok c'est subtil, j'avais pas fait la différence ;-)
C'est le caractère derrière le From qui fait la différence: ':' ou
espace. Il me semble que le 'From:' fait partie du contenu du message,
tandis que le 'From ' est ajouté par le MDA.
par contre, grep -c "^From" (sans espace à la fin) 21886
Ok c'est subtil, j'avais pas fait la différence ;-)
C'est le caractère derrière le From qui fait la différence: ':' ou espace. Il me semble que le 'From:' fait partie du contenu du message, tandis que le 'From ' est ajouté par le MDA.
-- BOFH excuse #1:
clock speed
personne
On Mon, 26 Jan 2004 20:31:21 +0100, David LE BOURGEOIS wrote:
mutt -f mbox
Ok, merci. Comme il n'y a qu'une cinquantaine de *gros* contributeurs, voici ce que je vais faire (en espérant ne pas me lasser: 30000 mails x 5 secondes = 41 heures, quand même): ------------------------ Soit le contributeur Jean Dupont, qui a en général une signature de 3 lignes dans .muttrc: set editor = "vi -c '/^Jean Dupont$/+3'" mutt -f mbox l ^Jean Dupont$ parcourir les mails Si besoin: e (lance l'éditeur vi, le curseur se place automatiquement 3 lignes en dessous de la ligne "Jean Dupont") Effacer jusqu'à la fin du fichier (dG)
Pour automatiser un peu plus: Créer un fichier .exrc dans $HOME qui va modifier le comportement de vi: Contenu de .exrc: :map q i**tidied up**^M^[dG ZZ Explication: La touche q provoque l'écriture d'une ligne **tidied up**, l'effacement de ce qui se trouve entre le curseur et la fin du fichier, la sauvegarde du fichier, et la sortie de vi. Dans vi, pour faire ^M: taper Ctrl-v,Enter pour faire ^[, taper Ctrl-v, ESC -----------------------------------------------
Toutes suggestions ou commentaires bienvenus.
-- Yves
On Mon, 26 Jan 2004 20:31:21 +0100, David LE BOURGEOIS
<david.lebourgeois-nospam@free.fr> wrote:
mutt -f mbox
Ok, merci.
Comme il n'y a qu'une cinquantaine de *gros* contributeurs, voici ce
que je vais faire (en espérant ne pas me lasser: 30000 mails x 5
secondes = 41 heures, quand même):
------------------------
Soit le contributeur Jean Dupont, qui a en général une signature de 3
lignes
dans .muttrc:
set editor = "vi -c '/^Jean Dupont$/+3'"
mutt -f mbox
l
^Jean Dupont$
parcourir les mails
Si besoin:
e (lance l'éditeur vi, le curseur se place automatiquement 3 lignes en
dessous de la ligne "Jean Dupont")
Effacer jusqu'à la fin du fichier (dG)
Pour automatiser un peu plus:
Créer un fichier .exrc dans $HOME qui va modifier le comportement de
vi:
Contenu de .exrc:
:map q i**tidied up**^M^[dG ZZ
Explication: La touche q provoque l'écriture d'une ligne **tidied
up**, l'effacement de ce qui se trouve entre le curseur et la fin du
fichier, la sauvegarde du fichier, et la sortie de vi.
Dans vi, pour faire ^M: taper Ctrl-v,Enter
pour faire ^[, taper Ctrl-v, ESC
-----------------------------------------------
On Mon, 26 Jan 2004 20:31:21 +0100, David LE BOURGEOIS wrote:
mutt -f mbox
Ok, merci. Comme il n'y a qu'une cinquantaine de *gros* contributeurs, voici ce que je vais faire (en espérant ne pas me lasser: 30000 mails x 5 secondes = 41 heures, quand même): ------------------------ Soit le contributeur Jean Dupont, qui a en général une signature de 3 lignes dans .muttrc: set editor = "vi -c '/^Jean Dupont$/+3'" mutt -f mbox l ^Jean Dupont$ parcourir les mails Si besoin: e (lance l'éditeur vi, le curseur se place automatiquement 3 lignes en dessous de la ligne "Jean Dupont") Effacer jusqu'à la fin du fichier (dG)
Pour automatiser un peu plus: Créer un fichier .exrc dans $HOME qui va modifier le comportement de vi: Contenu de .exrc: :map q i**tidied up**^M^[dG ZZ Explication: La touche q provoque l'écriture d'une ligne **tidied up**, l'effacement de ce qui se trouve entre le curseur et la fin du fichier, la sauvegarde du fichier, et la sortie de vi. Dans vi, pour faire ^M: taper Ctrl-v,Enter pour faire ^[, taper Ctrl-v, ESC -----------------------------------------------
Toutes suggestions ou commentaires bienvenus.
-- Yves
personne
On Thu, 29 Jan 2004 13:40:49 GMT, (Yves) wrote:
Toutes suggestions ou commentaires bienvenus.
Après un certain nombre d'essais, voici un problème:
Un certain nombre de courriels, dans la mbox, ont un Content-Type: multipart/alternative.
La manoeuvre décrite dans mon message précédent mutile trop ces courriels: après traitement, l'affichage reste correct dans mutt, par contre ils ne supportent plus la conversion en html par mhonarc (avec un avertissement: .Warning: No recognized part in multipart/alternative; will try to decode last part).
La plupart de ces courriels mutipart/alternative ont en fait une partie text/plain, et la même information en text/html.
-- Yves
On Thu, 29 Jan 2004 13:40:49 GMT, personne@nullepart.invalid (Yves)
wrote:
Toutes suggestions ou commentaires bienvenus.
Après un certain nombre d'essais, voici un problème:
Un certain nombre de courriels, dans la mbox, ont un Content-Type:
multipart/alternative.
La manoeuvre décrite dans mon message précédent mutile trop ces
courriels: après traitement, l'affichage reste correct dans mutt, par
contre ils ne supportent plus la conversion en html par mhonarc (avec
un avertissement: .Warning: No recognized part in
multipart/alternative; will try to decode last part).
La plupart de ces courriels mutipart/alternative ont en fait une
partie text/plain, et la même information en text/html.
Après un certain nombre d'essais, voici un problème:
Un certain nombre de courriels, dans la mbox, ont un Content-Type: multipart/alternative.
La manoeuvre décrite dans mon message précédent mutile trop ces courriels: après traitement, l'affichage reste correct dans mutt, par contre ils ne supportent plus la conversion en html par mhonarc (avec un avertissement: .Warning: No recognized part in multipart/alternative; will try to decode last part).
La plupart de ces courriels mutipart/alternative ont en fait une partie text/plain, et la même information en text/html.