CRM114 (программа) - CRM114 (program)

CRM114 (полное название: «Дискриминатор CRM114») - это программа, основанная на статистическом подходе к классификации данных и особенно используемая для фильтрации спама в электронной почте .

Происхождение названия

Название происходит от дискриминатора CRM-114 из фильма Стэнли Кубрика « Доктор Стрэнджлав» - радиооборудования, предназначенного для фильтрации сообщений без определенного префикса кода.

Операция

В то время как другие применяли статистическую байесовскую фильтрацию спама на основе частоты встречаемости отдельных слов в электронной почте, CRM114 обеспечивает более высокий уровень распознавания спама за счет создания обращений на основе фраз длиной до пяти слов. Эти фразы используются для формирования Марковского случайного поля, представляющего входящие тексты. Благодаря этому дополнительному контекстному распознаванию это один из наиболее точных доступных спам-фильтров. Первоначальное тестирование, проведенное автором Биллом Еразунисом в 2002 г., дало точность 99,87%; Холден и TREC 2005 и 2006 гг . дало результаты лучше 99%, со значительными различиями в зависимости от конкретного корпуса.

CRM114 в классификатор также может быть включен для использования Littlestone в веять алгоритм, символ за характером корреляция , вариант на KNN ( K-ближайший алгоритм соседа ) классификация называется Hyperspace, немного-энтропийный классификатор , который использует энтропийное кодирование для определения сходства, SVM , взаимной сжимаемостью, рассчитанной модифицированным алгоритмом LZ77 , и другими более экспериментальными классификаторами. Фактические сопоставленные характеристики основаны на обобщении скип-грамм .

Алгоритмы CRM114 многоязычны (совместимы с кодировками UTF-8 ) и нулевой безопасностью. Набор классификаторов CRM114 для голосования продемонстрировал способность обнаруживать конфиденциальные и неконфиденциальные документы, написанные на японском языке, с коэффициентом обнаружения выше 99,9% и коэффициентом ложных срабатываний 5,3%.

CRM114 - хороший пример программного обеспечения для распознавания образов , демонстрирующий, как машинное обучение может быть выполнено с помощью достаточно простого алгоритма. Исходный код программы на языке C доступен под лицензией GPL .

На более глубоком уровне CRM114 также является языком сопоставления строковых шаблонов, подобным grep или даже Perl ; хотя он завершен по Тьюрингу, он хорошо настроен для сопоставления текста, и даже простое (рекурсивное) определение факториала занимает почти десять строк. Частично это связано с тем, что синтаксис языка crm114 не позиционный , а склонительный . Как язык программирования, он может использоваться во многих других приложениях, помимо обнаружения спама. CRM114 использует механизм регулярных выражений приблизительного соответствия TRE , поэтому можно писать программы, которые не зависят от абсолютно идентичных совпадений строк для правильного функционирования.

CRM114 применялся для фильтрации электронной почты в клиенте KMail и ряде других приложений, включая обнаружение ботов в Twitter и Yahoo, а также в качестве фильтра первого уровня в системе обнаружения дефектов транспортных средств Департамента транспорта США. Он также использовался в качестве метода прогнозирования для классификации программных модулей, подверженных сбоям.

Смотрите также

Ссылки

внешняя ссылка