Обнаружение аномалий - Anomaly detection

В анализе данных , обнаружение аномалий (также выброс обнаружения ) является идентификация редких предметов, событий или наблюдений , которые поднимают подозрение, значительно отличающиеся от большинства данных. Обычно аномальные элементы приводят к какой-то проблеме, такой как банковское мошенничество , структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также называются выбросами , новинками, шумом, отклонениями и исключениями.

В частности, в контексте обнаружения злоупотреблений и сетевых вторжений интересными объектами часто являются не редкие объекты, а неожиданные всплески активности. Этот шаблон не соответствует общему статистическому определению выброса как редкого объекта, и многие методы обнаружения выбросов (в частности, неконтролируемые методы) не работают с такими данными, если они не были агрегированы надлежащим образом. Вместо этого алгоритм кластерного анализа может обнаруживать микрокластеры, образованные этими шаблонами.

Существуют три широкие категории методов обнаружения аномалий. Методы неконтролируемого обнаружения аномалий обнаруживают аномалии в немаркированном наборе тестовых данных в предположении, что большинство экземпляров в наборе данных являются нормальными, путем поиска экземпляров, которые кажутся наименее подходящими для остальной части набора данных. Для контролируемых методов обнаружения аномалий требуется набор данных, который был помечен как «нормальный» и «ненормальный», и включает обучение классификатора (ключевым отличием от многих других задач статистической классификации является присущий несбалансированному характеру обнаружения выбросов). Методы полууправляемого обнаружения аномалий создают модель, представляющую нормальное поведение из заданного набора данных нормального обучения, а затем проверяют вероятность того, что тестовый экземпляр будет сгенерирован используемой моделью.

Приложения

Обнаружение аномалий применят в различных областях, такие как обнаружение вторжений , обнаружение мошенничества , обнаружение неисправностей, мониторинг состояния системы, обнаружение событий в сенсорных сетях, обнаружение нарушений экосистем, а также дефекты обнаружение в изображениях с использованием машинного зрения . Он часто используется при предварительной обработке для удаления аномальных данных из набора данных. При обучении с учителем удаление аномальных данных из набора данных часто приводит к статистически значимому повышению точности.

Приложение к безопасности данных

Обнаружение аномалий было предложено для систем обнаружения вторжений (IDS) Дороти Деннинг в 1986 году. Обнаружение аномалий для IDS обычно выполняется с помощью пороговых значений и статистики, но также может выполняться с помощью мягких вычислений и индуктивного обучения. Типы статистики, предложенные к 1999 г., включали профили пользователей, рабочих станций, сетей, удаленных хостов, групп пользователей и программ, основанные на частотах, средних значениях, дисперсиях, ковариациях и стандартных отклонениях. Аналогом обнаружения аномалий при обнаружении вторжений является обнаружение злоупотреблений .

В предварительной обработке данных

При обучении с учителем обнаружение аномалий часто является важным этапом предварительной обработки данных, чтобы предоставить алгоритму обучения правильный набор данных для обучения. Это также известно как очистка данных . После обнаружения аномальных образцов классификаторы удаляют их, однако иногда поврежденные данные все еще могут предоставить полезные образцы для обучения. Распространенным методом поиска подходящих образцов для использования является определение зашумленных данных . Один из подходов к поиску зашумленных значений - создание вероятностной модели на основе данных с использованием моделей неповрежденных и поврежденных данных.

Ниже приведен пример набора данных о цветке ириса с добавленной аномалией. С включенной аномалией алгоритм классификации может испытывать трудности с правильным поиском закономерностей или сталкиваться с ошибками.

Данные радужной оболочки глаза Фишера с аномалией
Порядок набора данных	Длина чашелистики	Ширина чашелистики	Длина лепестка	Ширина лепестка	Разновидность
1	5.1	3.5	1.4	0,2	I. setosa
2	4.9	3.0	1.4	0,2	I. setosa
3	4,7	3.2	1.3	0,2	I. setosa
4	4.6	3.1	1.5	0,2	I. setosa
5	5.0	НУЛЕВОЙ	1.4	НУЛЕВОЙ	I. setosa

Если удалить аномалию, обучение будет легче находить закономерности в классификациях.

В интеллектуальном анализе данных многомерные данные также будут предлагать сложные вычислительные задачи с очень большими наборами данных. Удалив многочисленные образцы, которые могут оказаться неуместными для классификатора или алгоритма обнаружения, время выполнения может быть значительно сокращено даже для самых больших наборов данных.

Программное обеспечение

ELKI - это набор инструментов для интеллектуального анализа данных Java с открытым исходным кодом, который содержит несколько алгоритмов обнаружения аномалий, а также ускорение индексации для них.
Scikit-Learn - это библиотека Python с открытым исходным кодом, в которой есть встроенные функции, обеспечивающие неконтролируемое обнаружение аномалий.

Наборы данных

Репозиторий эталонных данных по обнаружению аномалий с тщательно подобранными наборами данных Мюнхенского университета Людвига-Максимилиана ; Зеркало в университете Сан-Паулу .
ODDS - ODDS: большая коллекция общедоступных наборов данных обнаружения выбросов с достоверной информацией в различных областях.
Бенчмарк неконтролируемого обнаружения аномалий в Harvard Dataverse: наборы данных для неконтролируемого обнаружения аномалий с достоверной достоверностью данных.
Хранилище данных KMASH в Research Data Australia, содержащее более 12 000 наборов данных по обнаружению аномалий с достоверными данными .

Languages

In other projects

Обнаружение аномалий - Anomaly detection

СОДЕРЖАНИЕ

Приложения

Популярные техники

Приложение к безопасности данных

В предварительной обработке данных

Программное обеспечение

Наборы данных

Смотрите также

использованная литература