[sisyphus] SpamAssassin

Чт Окт 30 17:31:35 MSK 2003

On Mon, Oct 27, 2003 at 08:02:44PM +0300, Sergey Solopov wrote:
> 
> >> большего % на сколько я понял надо обучать bayes фильтр.
> 
> VF> Я бы сформулировал иначе. Для получения большего процента отсева спама
> VF> необходимо - если мы говорим не только конкретно о SA - строить
> VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
> VF> во время SMTP-сеанса по различным критериям и только заканчивая
> VF> контекстной фильтрацией инструментами типа spamassassin.
> Это по поводу различных RBL и blacklist-ов ? Так уже используются.

И о них тоже, но далеко не только лишь о них. К примеру, если к вам из
внешнего Интернета (не от своих клиентов с виндюками) пришло соединение,
в котором параметр EHLO не содержит точки - это спам. Если параметр
EHLO compuserve.com - это спам. Если параметр EHLO является одним из
ваших доменных имен или IP одного из интерфейсов - это спам. И т.д.

> >> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> >> фильтром ?
> 
> VF> Это невозможно. По самой сути методов частотного разделения типа bayes
> VF> не может быть "обученного вообще" фильтра с соответствующими базами,
> VF> _подходящими для всех_.
> 
> В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых
> под обучение попадает "общая" часть спама, а до учить уже можно на

Ну вот я поставил (ISP "Global Ukraine"). Обучается на живом потоке.
Вот как раз для ISP, где адресаты по определению получают разнопрофильную
почту, с "общей" частью лучше не играться.

> месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и
> обученную базу, хочешь используй, нет - обучай сам. На такой "общей
> базе" достигается показатель 80-90% и она подошла большенству моих
> знакомых.

Это Ritlabs такое поставляет?? Я конечно могу понять мотивы, но IMNSHO
это не вполне ответственное решение.

> А ложные сработатывания можно дооубчать с помошью sa-learn, если я
> правильно понял.
> 
> 
> VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
> VF> немного более "догадливый" в отношении спама фильтр.
> autolearn стоит

Тогда подождите немного или покормите его своими архивами спама - пока
у SA bayes-база маленькая она слабо влияет на скоринг. Можете также
_немного_ понизить (с дефолтных 12) порог срабатывания spam autolearn,
для более быстрого наполнения.