Просмотр полной версии : Программы для защиты от спама
Не секрет, что при сборе материалов для диссертации (да и не только) приходится активно использовать электронную почту. Соответственно, возникает проблема спама... Интересно знать, какие способы борьбы с ним популярны у людей науки? Какую(ие) программу(ы) используете? Почему именно эту(эти)? Что порекомендовали бы коллегам?
Philosof
23.08.2003, 20:21
Хм... А мне вот при сборе материалов для диссертации совершенно не приходилось пользоваться электронной почтой. На моем единственном почтовом ящике нет никакой защиты от спама. И за 3 года пользования интернетом рекламных писем приходило максимум 8-10. Все в период последних месяцев, когда я разместил в интернете свои резюме.
Соответственно, возникает проблема спама... Интересно знать, какие способы борьбы с ним популярны у людей науки?
Во-во...
Очень интересно.
Может кто скажет чего полезное?
revinski
24.08.2003, 01:27
Philosof
А мне вот при сборе материалов для диссертации совершенно не приходилось пользоваться электронной почтой
аналогично
Jacky
Какую(ие) программу(ы) используете?
The Bat! я использую. А против спама самая полезная штука в нем - Dispatch mail on server
лезешь, удаляешь весь спам, остальные письма получаешь
можно еще фильтры в нем настроить, но лень разбираться...
лезешь, удаляешь весь спам, остальные письма получаешь
можно еще фильтры в нем настроить
Ну, так можно и в OutLooke фильтры настроить.
Только на что их настраивать? На слова, на адрес, или на... ?
На примере АмериканЛэнгвичЦентра, кто подскажет?
McLaud
Ну, так можно и в OutLooke фильтры настроить.
Только на что их настраивать? На слова, на адрес, или на... ?
На примере АмериканЛэнгвичЦентра, кто подскажет?
Нереально. Эти редиски меняют свои сообщения и тем самым обходят фильтры ОЕ. Нужно использовать другие способы.
McLaud
На примере АмериканЛэнгвичЦентра, кто подскажет?
Экслер публиковал свой стоип-лист. Для Бата, разумеется.
Собственно, например мой-стоп-лист сделан по теме. Хотя есть и еще один - по заголовкам, но по теме я чаще его редактирую (вношу добавленя).
Очень удобно - я еще юзаю регулярные выражения, элементарные, вида:
реклам*
товар*
услуг*
и т.д.
Для американ-центра (в заголовки):
Английский Разговорный
Базы Данных
Центр Американского
Американский
рассылк
Англ ийский
Кстати, вот компутерщики за это говорят:
http://forum.ru-board.com/topic.cgi?forum=11&topic=0597#1 Как задолбал этот долбаный AMERICAN Language Center!!!
Каждый борется, как может, но принцип один - стоп-листы. Либо на сервере, либо софтины специальные для их адинистрарования, либо встроенные в софтины стоп-листы.
Отдельные софтины мне не понравились - жрут много ресурсов, постоянно ломятся на сервак *- проверяют, не удобно. Мне удобно встроенный стоп-лист, который я *руками могу редактить, который перечитывается при каждом съеме почты и который легко вырубить, если нужны, например, заголовки спаммовые или еще зачем.
lynx
Каждый борется, как может, но принцип один - стоп-листы.
Английский Разговорный
Базы Данных
Центр Американского
Американский
рассылк
Англ ийский
Ну и чего? Например, варианты "Англuйскuй" (смесь латиницы и кириллицы) или "А нг лиийский" твои стоп-листы не задержат.
Jacky
Например, варианты "Англuйскuй" (смесь латиницы и кириллицы) или "А нг лиийский" твои стоп-листы не задержат.
Да, не задержат. Ну, тут два варианта. Первый - добавлять каждый новый заголовок, либо рег. выражение писать, например:
англ*
а н г*
Что там еще? Ну и смесь киррилицы и латиницы. В принципе потратить 5 мин на написание и спать спокойно.
Ты будешь смеяться, но мне вот при том фильтре по теме ^^ давно уже ничего от них не приходит. Правда, может, админы на сервак что-то поставили, но админы и серваки разные (ящики у меня на разных серверах физически), а фильтр мой одинаковый и итог один для всех ящиков.
Тут смысл какой - как можно большее число спама поместить в фильтр. Ну, другого все равно еще никто не придумал. Серверные или клентские способы - все равно основаны на одном и том же - анализе заголовков, либо даже тела письма и каком-то действии с письмом в зависимости от совпадения/несовпадения с заданными образцами.
Получается, что самое ценное - это правила для стоп-листа :) А все остальное - семечки - способы применения этих правил :)
А мне сильно важно, чтобы я руками могла эти фильтры править. Потому что, например, есть старые ящики, пасы от которых я забыла и вспоминать не хочу, они (мылы) засвечены, и на них льется всякая фигня и перенаправляется на реальное рабочее мыло. А я четко знаю, что ни один нормальный человек не станет на эти мыли мне писать лично. Поэтому все заголовки по этим мылам анализируются и эти письма удаляются без скачивания.
lynx
Тут смысл какой - как можно большее число спама поместить в фильтр.
Это понятно. Но я вот сейчас посмотрел свою базу писем, по ключу "англ" попадает письмо с заголовком "Англ. учебники". По ключу "рассылк" вообще больше десятка. Все это можно настроить конечно (допустим, сделать список мэйлов с которых письма идут в белый список независимо от темы и т.д.) Но все-таки предпочитаю не заниматься составлением стоп-списков самому и не качать их из интернета. Конечно, если:
А мне сильно важно, чтобы я руками могла эти фильтры править.
...то это одно. Мне же важно, как можно меньше заниматься этим вручную. Фильтры по темам и/или заголовкам плохи тем, что их нужно постоянно дополнять, причем _думать_ над этим. Пусть классификацией сама программа занимается, а я ее изредка поправлю если что (и на этих поправках она будет учиться). Здесь, в отличие от правки стоп-листов, не нужно особенно думать: просто говоришь программе, что такое-то письмо ошибочно помечено как спам, оно нужное (или наоборот). На основе этого она сама учится и улучшает свои алгоритмы. Короче говоря, рекомендую посмотреть POPFile -- работает по методу bayesian filter. Реализовано как прокси для Outlook Express (может и для бата, и т.д.).
Вот за вчерашний день статистика.
Классифицированные письма: 24
Ошибки классификации: 0
----------------------------------
Точность: 100%
personal 21 ( 87.5%)
spam 3 ( 12.5%)
Желающим ознакомиться -- сюда: http://popfile.sourceforge.net
Ну, простое "англ" в комбинациях режет и нормальные письма, тоже пробовали.
Регулярные выражения - это дело, но я в OutLooke не знаю как и куда их писать, только на РНР знаю (Может кто подскажет на конкретном примере?)
У них там телефон указан, вот тогда если убрать все что в заголовке или тексте содержит выражение типа *1*5*4*2*2*7*1*, где * - один-два пробела или тире или ничего, то тогда должно сработать.
Мне кажется, что надо именно телефоны искать, а не текст. Тогда это конкретно только на этого спамера будет. А вероятность появления чего подобного в нормальном письме будет - как авиакатастрофы.
работает по методу bayesian filter
По Байесу, млин... Помню, было дело... Деконволюция по Байесу - тоже хорошая штука. Видать умный был Байес.
Посмотрю. Спасибо.
Короче, у кого ума палата, напишите регулярное выражение с телефоном, а? Чего словеса разводить...
Получается, что самое ценное - это правила для стоп-листа
Да я давно согласная, что это самое ценное!
Дак и цитани свой стоп-лист, если опыт положительный, не будь жадной девочкой.
Если не будешь жадной девочкой, то вот тебе подарок:
http://mclaud.by.ru/presents/present2.html
А Эслера я не люблю, он глуповат на мой вкус и совсем неученый. А я ученых люблю.
И за 3 года пользования интернетом рекламных писем приходило максимум 8-10. Все в период последних месяцев, когда я разместил в интернете свои резюме.
Где разместил-то? Дай почтать, чего ученые про себя пишут.
Если бы в известном месте разместил, то тут же тебя бы и сосчитали.
один-два пробела или тире или ничего, то тогда должно сработать.
Вот регесп для:
Одна или несколько цифр,
за которыми идет ноль или несколько пробелов
или тире:
\d+((\s*)|(-))
Добавлено
А вот то же самое, только все это:
один или более раз: (Одна или несколько цифр,
за которыми идет ноль или несколько пробелов
или тире)
{1(\d+((\s*)|(-))),}
Кошки сами писали
Добавлено
цитани свой стоп-лист, если опыт положительный, не будь жадной девочкой.
Я про Амеркан цитанула, а остальное - у Экслера брала :)
Еще у меня стоит как регеспы по теме:
Symantec AVF detected*
Undeliverable Message*
DrWeb-DAEMON*
рассылк*
почтов*
магаз*
*купить*
По заголовкам как "любая строка найдена":
Гражданство
Предлагаем
санаторий
Турфирма
friend
ИTAЛ
Money
Business
офис
в и з и т к и
курсы
Meet people who want to meet you
работа
оптом
DVD
салон
продажа
руководителю
продается
ремонт
кредит
услуги
маркетинг
обучение
Бизнес
Free
бесплатно
patch
офис
аренд
Доставка
тамож
груз
заказ
полиграф
new mail
КВАРТИР
КОМАР
СОТОВ
семинар
НОВИНКА
Заказ
продаю
Хотите
Интернет
Обмен ссылками
Визитки
бархатный сезон
Туры
Thank you
предлагаем
Your application
Details
movie
Your details
screensaver
Кoндицuoнеpы
РЕКЛАМА
Но, надо признать, поскольку я руками вношу все это, часто повторы и неэффективно все, то есть можно все сократить, да так оно добавляется потихоньку, а сократить, написан рег. выражение руки не доходят, к тому же анализ быстро идет - время на анализ не критично, хоть сто строк хоть пять, примерно одни и то же время.
Пока я с вами болтала, мне юниксоиды регесп мой оптимизнули, последний вариант можно записать как:
(\d+((\s*)|(-)))+
Что аналогично
{1(\d+((\s*)|(-))),}
Фильтры по темам и/или заголовкам плохи тем, что их нужно постоянно дополнять, причем _думать_ над этим. П
Бяда... А что делать :)
lynx
Бяда... А что делать
Да я уже вижу, что легких путей тут не ищут. Можно, конечно, поставить какой-нибудь анализатор, тот же POPFile и расслабиться, а можно сурово писать регэкспы а потом их оптимизировать. Фильтры руками править, опять же. Каждому свое. Мне в самом деле лень -- бо занятие малоинтересное.
Спасибо.
Только я совсем не врубился, куда это писать все надо?
То есть к чему
(\d+((\s*)|(-)))+
присобачивать?
Это же на Перле так?
Или как?
Dubrovsky
25.08.2003, 06:02
Banned
DrVatson
25.08.2003, 08:03
banned
McLaud
к чему
(\d+((\s*)|(-)))+
присобачивать?
Это же на Перле так?
Нет, это на регекспе - Unix regexp
Писать надо лол... в стоп лист, если он у Вас понимает рег. выражения.
Я пишу рег. выражения в текстовый файл. По одному выражению в строку. Потом этот файл подключается к Бату (The_bat).
Возвращаясь к истокам темы, еще немного о защите от спама. Для тех, кто не решил проблему, но колеблется в выборе варианта (или просто не знает, какие возможны варианты кроме бесполезного записывания обратных адресов спамеров, практически всегда фальшивых, в стоп-лист почтовой программы.
Итак, статистика работы POPFile с 23 августа по сегодняшний день.
Классифицированные письма: 766
Ошибки классификации: 1
Точность: 99.86%
На возможный комментарий типа "а, она все-таки ошиблась" отмечу, что здесь нет ничего страшного. Одно пропущенное спам-сообщение за 22 дня, вполне нормально. Более того, принцип работы байес-фильтра таков, что в будущем подобных ошибок больше не будет. В данном случае спамеру удалось придумать какой-то нестандартный ход, позволивший письму пройти сквозь фильтр, но теперь все письма подобного типа будут однозначно отфильтрованы. В этом и прелесть программы, она не просто использует фиксированный набор правил, а учится на каждой своей ошибке, совершенствуя защиту.
Линк на POPFile я давал на первой странице этой темы.
Philosof
30.04.2004, 18:46
Должен сказать, что за последнее время количество недоставленных писем - как мне, так и от меня - стало критическим. Редкий случай, когда удается что-то отправить/получить. Причем всякая ерунда, типа приглашения принять участие в розыгрыше подарков для клиентов, проходит свободно, а действительно нужные вещи если проходят, то с пометкой "спам".
Philosof
олжен сказать, что за последнее время количество недоставленных писем - как мне, так и от меня - стало критическим. Редкий случай, когда удается что-то отправить/получить. Причем всякая ерунда, типа приглашения принять участие в розыгрыше подарков для клиентов, проходит свободно, а действительно нужные вещи если проходят, то с пометкой "спам".
К сожалению да.
мейл.ру блокирует работу серверов безбожно. Сервер ру-борда забанен у них навно и прочно. Наш сервер забанен на рамблере. Ну, и т.д. Это иллюстрация того, что Джеки называл "нет проблем" - сплошные проблемы :(
Я сказал, что со спамом у меня проблем нет. Вот борцы со спамом достают, это да. :)
Еще один вариант, возможно, более удобный, чем использование программ типа POPFile.
Можно зарегистрировать почтовый ящик на Яндексе и настроить сбор почты с "заспамленного" ящика (возможно и с нескольких). Там работает "Спамооборона", которая неплохо справляется со своими обязанностями. Отсеиваются письма с вирусами и спам, причем отсеянные письма складываются в отдельную папку "Рассылки + Спам" на сервере.
Удобство заключается в том, что нет необходимости при получении писем через POP3 скачивать всё, что лежит в "Рассылки + Спам" и даже заголовки, т.к. есть возможность полностью отключить скачивание:
Настройка - персональные настройки
Раздел POP3, Письма из папки Рассылки + Спам,
Отменить скачивание [v]
Таким образом, при подключении по dialup можно экономить время при получении почты.
Далее достаточно периодически заходить на сервер и просматривать то, что попало в спам: на первых порах туда же будут попадать некоторые массовые рассылки, на которые вы подписаны, поэтому их нужно будет вручную занести в "белый список".
В общем, конечно, настройка потребует какого-то времени, но по крайней мере вам не придется постоянно настраивать многочисленные фильтры в своем мэйл-клиенте и тратить время на анализ заголовков спама для ручного обновления фильтров.
По мотивам предыдущего сообщения:
Далее достаточно периодически заходить на сервер и просматривать то, что попало в спам
Зашел, посмотрел заголовки и стер 353 мусорных письма, накопившихся за несколько дней и аккуратно сложенных "Спамообороной" в отдельную папочку. И ни одной ошибки фильтр не допустил, и скачивать весь этот мусор не пришлось. Хорошо. :)
По поводу байесовых фильтров - у меня в бате стоит BayesIt, удобная штука.
Aliena
По поводу байесовых фильтров - у меня в бате стоит BayesIt, удобная штука.
Неудобная. Она скачивает на машину, а только потом анализирует. Удобнее - использовать выборочное скачивание, еще на сервере блокируя спам-заголовки.
Экономится трафик.
vBulletin® v3.8.8, Copyright ©2000-2025, vBulletin Solutions, Inc. Перевод: zCarot