[gull] Optimisation de spamassassin...

Mon Nov 22 10:28:01 CET 2004

On Wednesday 17 November 2004 19:01, Marc SCHAEFER wrote:

> Le plus simple est de sauver tous les spams dans un fichier SPAM (format
> mbox; UNIX RMAIL), puis de consulter la manpage de sa-learn.
>
> On peut aussi faire de même avec les spams marqués à tort (false
> positives), avec un autre argument.

Tout les systemes de filtrage de spams de type Bayesians ont besoin d'une 
periode d'aprentissage. Pour cela, il faut avoir la possibilite de lui donner 
une liste de spam, non-spams, faut-positifs, etc. afin qu'il puisse modifier 
ses parametres de detection.

Personellement, je suis "fan" de bogofilter (taux de filtrage sans 
false-positive de 99.65%) et je depose les spams non-reconnus dans un 
repertoire SPAM. Ensuite, j'execute un scipt du style :

...
while read a
do
    bogofilter -t -M -s -I "${a}" -vvvv
done

Le degre de detection efficace ne commence a se voir qu'a partir de quelques 
miliers de mails (j'en ai actuellement ~100'000 dans la base). De plus, j'ai 
fait le choix de n'enregistrer que les mail que je considere comme spams. Je 
ne me preoccupe pas de lui donner aussi les mails non-spams. EN tout cas, ca 
me donne d'exellents resultats sans false-positive depuis pret d'une annee... 
Un taux de 99.65% correspond a 9 mails non detectes comme spams sur un total 
de 2573. Je considere que c'est acceptable...

Donc, tu ne peux te passer de la procedure manuelle d'aprentissage de 
SpamAssassin. De plus, il faut en permanence continuer cet aprentissage car 
les spammers modifient les formats de leurs mails et les filtres ont donc 
besoin de s'y adapter. 

dc