[gull] Optimisation de spamassassin...
Daniel Cordey
dc at mjt.ch
Mon Nov 22 10:28:01 CET 2004
On Wednesday 17 November 2004 19:01, Marc SCHAEFER wrote:
> Le plus simple est de sauver tous les spams dans un fichier SPAM (format
> mbox; UNIX RMAIL), puis de consulter la manpage de sa-learn.
>
> On peut aussi faire de même avec les spams marqués à tort (false
> positives), avec un autre argument.
Tout les systemes de filtrage de spams de type Bayesians ont besoin d'une
periode d'aprentissage. Pour cela, il faut avoir la possibilite de lui donner
une liste de spam, non-spams, faut-positifs, etc. afin qu'il puisse modifier
ses parametres de detection.
Personellement, je suis "fan" de bogofilter (taux de filtrage sans
false-positive de 99.65%) et je depose les spams non-reconnus dans un
repertoire SPAM. Ensuite, j'execute un scipt du style :
...
while read a
do
bogofilter -t -M -s -I "${a}" -vvvv
done
Le degre de detection efficace ne commence a se voir qu'a partir de quelques
miliers de mails (j'en ai actuellement ~100'000 dans la base). De plus, j'ai
fait le choix de n'enregistrer que les mail que je considere comme spams. Je
ne me preoccupe pas de lui donner aussi les mails non-spams. EN tout cas, ca
me donne d'exellents resultats sans false-positive depuis pret d'une annee...
Un taux de 99.65% correspond a 9 mails non detectes comme spams sur un total
de 2573. Je considere que c'est acceptable...
Donc, tu ne peux te passer de la procedure manuelle d'aprentissage de
SpamAssassin. De plus, il faut en permanence continuer cet aprentissage car
les spammers modifient les formats de leurs mails et les filtres ont donc
besoin de s'y adapter.
dc
More information about the gull
mailing list