OVH Cloud OVH Cloud

spammeur africain. Quelle parade?

17 réponses
Avatar
olivier krb
Bonjour.

Y a t-il une parade contre cette vague de spammeur africain? Ils=20
utilisent tous les FAIs et fournisseurs de mail pas trop regardant=20
(virgilio.it, yahoo, voila, erras.es, zipmail.com.br, etc). Le filtrage=20
devient un vrai casse t=EAte parce que les sujets des mails sont anodins,=
=20
exemple: "Hello" (c'est le contenu qui ne l'est pas).

=20
--=20
SELECT * FROM users WHERE clue > 0.=20
Uh oh, zero rows were returned! Oh no!?!?

7 réponses

1 2
Avatar
Eric Demeester
dans (in) fr.comp.mail, Dominique Blas ecrivait
(wrote) :

Bonsoir Dominique,

Bah, ça ne sert pratiquement plus à rien les filtres de monsieur Bayes.


Pour ma part, comme md, je les trouve au contraire très efficaces.

Comme les listes grises, progressivement ça perd de son efficacité.
Normal, les spammeurs apprennent également.


Les filtre bayesiens aussi apprennent... Il faut juste prendre le temps
de les informer régulièrement que tel ou tel mail est un spam quand ils
l'ont laissé passer, et hop.

SpamAssassin a ce qu'il faut en interne


Tout à fait, mais encore faut-il avoir prise sur la configuration du SA
qu'on utilise. La plupart des « utilisateurs de base » subissent les
filtres, raison pour laquelle les filtres en question ne sont pas
violents (comprendre laissent passer un certain nombre de spams).

D'où l'intéret (à mon avis) de pouvoir affiner les règles de filtrage
sur son serveur, et/ou d'installer un outil complémentaire en local
comme k9, pour éliminer les indésirables ayant passé les filtres en
amont...

Alors, apprendre, faire apprendre c'est bien mais lorsqu'on sait que l'on
peut faciler contourner un filtre de Bayes ...


Je ne suis pas d'accord sur ce point, sauf à imaginer que vous ignioriez
les capacités d'apprentissage du bidule.

Je pense qu'un filtre neuronal serait plus efficace. Dans un version 4 de
SpamAssassin ?


J'aime les nouvelles technologies et je suis avide d'apprendre :)

--
Eric

Avatar
Dominique Blas
md wrote:


Oh que si, mais il faut penser à le nourrir, à savoir: ne pas se
contenter de déplacer les faux positifs vers le bon dossier, mais les
marquer comme non-spam avant de les déplacer.
Avec cette méthode, les spammer doivent sans arrêt se remettre en
question.
Il n'a pas besoin de le faire, il dispose d'un générateur aléatoire pour

cela.

En clair s'il doit te dire :
SEX FUN ON MY WEB
Il te dit une première fois :

<font
color="white">fd6)=ù$^3"#$^_7-(kgfk06790tyrrdhklfdFfdkjlsgmFFFFPZOPAJFLMSQv,fdsfdkjsvncx,;wv
xcvdfsqgfdsdfs</font>
SEX FUN ON MY WEB
<font
color="white">ççç(_ç")'45--èç20'"à'(é)==é"'*$5463jkfdlsgjDFGKOERPZTUINCVDFKIVS;:!;!</font>

et une seconde fois
<font color="white">jfgkdjfgksd64
('ç-"à-(ç')=&é"(àçé")=(ù*fdgklmdgkùert79634/*--*fsgdfkslgmsjmgDGSLDFKGFerotzutgksrldgsd</font>
S.E.X F.U.N ON MY W_E_B
<font
color="white">jfdksgjs45'-(ç"à-")-=é(ç&é,;:!,!:^$*efgskdlmfgSDFgzerZESDFTUH564753gkflds</font>
et tout ce que tu as réussi à caser sérieusement dans ton dictionnaire
bayésien c'est :

font, color, white, on et my.

[...]

Euh, le principe de Bayes est de se servir de mot clé aussi... (il
compte la fréquence de répétition de certains mots par rapport au taux
comptés dans ce qu'on lui indiqué comme spam et non-spam)


Oui mais là je parlais de mots-clé unitaires dont la présence dans **
l'entête ** provoque l'augmentation de l'indicateur de SPAM.
D'autres règles : présence solitaire du type mime text/html, présence de
polices de taille importante dans le text/html, etc.

db
--
email : usenet blas net

Avatar
Jérémy JUST
On Fri, 04 Feb 2005 23:10:53 +0100
Dominique Blas wrote:

<font color="white">jfgkdjfgksd64
('ç-"à-(ç')=&é"(àçé")=(ù*fdgklmdgkùert79634/*--*fsgdfkslgmsjmgDGSLDFKG
Ferotzutgksrldgsd</font> S.E.X F.U.N ON MY W_E_B
<font
color="white">jfdksgjs45'-(ç"à-")-=é(ç&é,;:!,!:^$*efgskdlmfgSDFgzerZES
DFTUH564753gkflds</font> et tout ce que tu as réussi à caser
sérieusement dans ton dictionnaire bayésien c'est :

font, color, white, on et my.


SpamAssassin retire les balise HTML avant de bayer.

Je pense au contraire que les filtres bayesiens gardreont toujours une
*relativement bonne* efficacité.
Les ruses des spammeurs peuvent faire tomber le taux de reconnaissance
à 80%, mais dans la mesure où il faut quand même bien qu'ils
transmettent leur message (vente de montres contrefaites, de
médicaments...), ils sont bien obligés d'utiliser certains mots de façon
compréhensible par un être humain. Quand les dix ou vingt façons
d'écrire « viagra » ont été utilisées efficacement pour contourner les
filtres, elles servent de marques très sûres pour reconnaître du spam,
et hop!


--
Jérémy JUST

Avatar
Eric Razny
Dominique Blas wrote:
Eric Demeester wrote:

Bah, ça ne sert pratiquement plus à rien les filtres de monsieur Bayes.
Comme les listes grises, progressivement ça perd de son efficacité.


Ah bon? Depuis quand?
Depuis ma mise en place du greylisting tous ceux qui sont derrière
lisent systématiquement leur boite a spam (taggé par spamassassin) vu la
quantité ridicule de spams qui arrivent.

Je compte les faux négatifs sur les doigts d'une main, en période de
pointe ce qui suffit a me convaincre que, pour l'instant, le filtre
bayesien tient la route (et je suis dans la pire config, le même filtre
générique pour tous).

Bien que pour moi greylisting est complémentaire de RBL[1] j'envisage
même de limiter l'usage de ces dernières au simple marquage.
J'utilise des RBL *très peu* aggressives. Pas eu un seul faux positif
depuis plus d'un an. De plus le message de refus est explicite et permet
d'aller sur un site remplir un formulaire au cas où.

Accessoirement il n'y a pas de filtrage spf chez moi.

Par contre pour éviter une surchage inutile avec le greylisting, autant
regarder les logs après quelques semaines et whitelister les MTA des
principaux expéditeurs légitimes, dont les principaux ISP (ça évite
d'avoir de longues tables pour rien).

Eric

[1] Idée de base : la greylist bloque le spammeur un temps suffisament
long pour qu'ensuite il ait toute les chances de se trouver dans les RBL
s'il dispose d'un "vrai" MTA.

--
L'invulnérable :
Je ne pense pas etre piratable, infectable par un trojen oui!
Vu sur fcs un jour de mars 2004.

Avatar
Dominique Blas
Jérémy JUST wrote:

On Fri, 04 Feb 2005 23:10:53 +0100
Dominique Blas wrote:

<font color="white">jfgkdjfgksd64
('ç-"à-(ç')=&é"(àçé")=(ù*fdgklmdgkùert79634/*--*fsgdfkslgmsjmgDGSLDFKG
Ferotzutgksrldgsd</font> S.E.X F.U.N ON MY W_E_B
<font
color="white">jfdksgjs45'-(ç"à-")-=é(ç&é,;:!,!:^$*efgskdlmfgSDFgzerZES
DFTUH564753gkflds</font> et tout ce que tu as réussi à caser
sérieusement dans ton dictionnaire bayésien c'est :

font, color, white, on et my.


SpamAssassin retire les balise HTML avant de bayer.

Je pense au contraire que les filtres bayesiens gardreont toujours une
*relativement bonne* efficacité.
Les ruses des spammeurs peuvent faire tomber le taux de reconnaissance
à 80%, mais dans la mesure où il faut quand même bien qu'ils
transmettent leur message (vente de montres contrefaites, de
médicaments...), ils sont bien obligés d'utiliser certains mots de façon
compréhensible par un être humain. Quand les dix ou vingt façons
d'écrire « viagra » ont été utilisées efficacement pour contourner les
filtres, elles servent de marques très sûres pour reconnaître du spam,
et hop!


Il n'y a hélas pas que vingt façons d'écrire VIAGRA mais des centaines :
V__I, V___I, etc.
Mais je suis d'accord sur un point : le filtrage prébayésien est
incontournable afin d'extraire la substantifique moëlle du texte avant sa
soumission à Monsieur Bayes.
Hélas, n'est pas possible avec les images (VIAGRA écrit en toutes lettres
dans une image passe sans problème), pose des problèmes avec les
spécificités métiers (le sexologue abonné à une lettre d'information) et ne
règle pas le problème des pièces-jointes encodées (plain/txt).
Pour ce dernier cas le décodage est suffisant mais pour les 2 autres
Bayes ne règle rien. Il faut en recourir à des méthodes plus puissantes
qui commencent à apparaître dans les logiciels commerciaux et en libre.

Je n'ai pas dit que Bayes ne servait à rien j'ai simplement dit que
j'observais qu'il était de moins en moins utile. Mais j'observe le même
phénomène en ce qui concerne les listes grises et le SPF.
Cela était prévu de toute manière. A partir du moment où une méthode ayant
fait ses preuves est rendu publique la contre-mesure ne tarde pas à
apparaître.
Je suppose qu'il y a de plus en plus de chevaux de Troie qui savent gérer
les codes 45x et de plus en plus de spams provient de domaines non piratés
cette fois mais disposant d'un enregistrement SPF correct et de moins en
moins (hors chevaux de Troie) provient de domaines falsifiés.
En fait, selon mes statistiques, la période de plus forte efficacité de la
liste grise et du SPF s'est située cet automne. Depuis ça baisse.
Pour ce qui est de Bayes c'est plus récent. Peut-être n'est qu'une
altération temporaire de la tendance, nous verrons.

J'ai également eu vent d'articles américains remettant en cause l'intérêt de
Bayes dans la lutte contre le Spam. Mais ne sachant pas ce qui était remis
en cause exactement et connaissant la tendance naturellement humaine de se
mettre en avant pour ne rien dire mais uniquement faire parler de soi je me
méfie.

Simple constatation donc et une certaine volonté, tout de même, d'employer
des méthodes un peu plus universelles et radicales : les réseaux neuronaux
par exemple ou encore les algorithmes génétiques.

db

--
email : usenet blas net


Avatar
Dominique Blas
md wrote:

Tue, 15 Feb 2005 00:55:44 +0100, Dominique Blas :

Hélas, n'est pas possible avec les images



Oui, mais mail contenant des images = probabilité de spam++ donc
encore plus facile à filtrer


Mouais, bon nombre de listes professionnelles (notamment dans le domaine de
la communication et du marketing) comportent des images et sans que l'on
ait le choix. Du reste expédier ce genre d'informations sans image n'aurait
pas vraiment de sens (lancer un produit sans pouvoir le voir ...).
Alors ok, on peut faire une exception de l'antispam (qui supprime les
messages comportant des images) sur une liste d'expéditeurs mais
on ne s'en sort plus : cela devient une usine à gaz.

Autre solution que je privilégiais tantôt : laisser l'antispam agir et tant
pis pour les listes professionnelles.

Enfin, bref quoi,

db

--
email : usenet blas net


Avatar
F. Senault

Du reste expédier ce genre d'informations sans image n'aurait
pas vraiment de sens (lancer un produit sans pouvoir le voir ...).


Dans ce cas, les pdf ou un lien direct vers une page web sont les
méthodes qui marchent le mieux.

Sinon, au fait, on peut facilement scorer / filtrer les images qui sont
liées sur un site web, et laisser passer celles qui sont incluses dans
le mail - au moins, la sécurité et la confidentialité ne sont pas mises
en danger.

Fred
Qui a reçu des newsletters de microsoft.com avec un webbug, mébon.
--
The Lovelace (Ll) is defined as : one Lovelace is the amount of force
(measured in dynes) it takes to draw a round ball weighing e Troy Ounces
down a tube it fits exactly (in air) at a speed of pi attoparsecs/
microfortnight.

1 2