Обнаружение аномалий - Anomaly detection

В анализе данных , обнаружение аномалий (также выброс обнаружения ) является идентификация редких предметов, событий или наблюдений , которые поднимают подозрение, значительно отличающиеся от большинства данных. Обычно аномальные элементы приводят к какой-то проблеме, такой как банковское мошенничество , структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также называются выбросами , новинками, шумом, отклонениями и исключениями.

В частности, в контексте обнаружения злоупотреблений и сетевых вторжений интересными объектами часто являются не редкие объекты, а неожиданные всплески активности. Этот шаблон не соответствует общему статистическому определению выброса как редкого объекта, и многие методы обнаружения выбросов (в частности, неконтролируемые методы) не работают с такими данными, если они не были агрегированы надлежащим образом. Вместо этого алгоритм кластерного анализа может обнаруживать микрокластеры, образованные этими шаблонами.

Существуют три широкие категории методов обнаружения аномалий. Методы неконтролируемого обнаружения аномалий обнаруживают аномалии в немаркированном наборе тестовых данных в предположении, что большинство экземпляров в наборе данных являются нормальными, путем поиска экземпляров, которые кажутся наименее подходящими для остальной части набора данных. Для контролируемых методов обнаружения аномалий требуется набор данных, который был помечен как «нормальный» и «ненормальный», и включает обучение классификатора (ключевым отличием от многих других задач статистической классификации является присущий несбалансированному характеру обнаружения выбросов). Методы полууправляемого обнаружения аномалий создают модель, представляющую нормальное поведение из заданного набора данных нормального обучения, а затем проверяют вероятность того, что тестовый экземпляр будет сгенерирован используемой моделью.

Приложения

Обнаружение аномалий применят в различных областях, такие как обнаружение вторжений , обнаружение мошенничества , обнаружение неисправностей, мониторинг состояния системы, обнаружение событий в сенсорных сетях, обнаружение нарушений экосистем, а также дефекты обнаружение в изображениях с использованием машинного зрения . Он часто используется при предварительной обработке для удаления аномальных данных из набора данных. При обучении с учителем удаление аномальных данных из набора данных часто приводит к статистически значимому повышению точности.

Популярные техники

В литературе было предложено несколько методов обнаружения аномалий. Вот некоторые из популярных техник:

Производительность различных методов во многом зависит от набора данных и параметров, и методы имеют небольшие систематические преимущества перед другими при сравнении множества наборов данных и параметров.

Приложение к безопасности данных

Обнаружение аномалий было предложено для систем обнаружения вторжений (IDS) Дороти Деннинг в 1986 году. Обнаружение аномалий для IDS обычно выполняется с помощью пороговых значений и статистики, но также может выполняться с помощью мягких вычислений и индуктивного обучения. Типы статистики, предложенные к 1999 г., включали профили пользователей, рабочих станций, сетей, удаленных хостов, групп пользователей и программ, основанные на частотах, средних значениях, дисперсиях, ковариациях и стандартных отклонениях. Аналогом обнаружения аномалий при обнаружении вторжений является обнаружение злоупотреблений .

В предварительной обработке данных

При обучении с учителем обнаружение аномалий часто является важным этапом предварительной обработки данных, чтобы предоставить алгоритму обучения правильный набор данных для обучения. Это также известно как очистка данных . После обнаружения аномальных образцов классификаторы удаляют их, однако иногда поврежденные данные все еще могут предоставить полезные образцы для обучения. Распространенным методом поиска подходящих образцов для использования является определение зашумленных данных . Один из подходов к поиску зашумленных значений - создание вероятностной модели на основе данных с использованием моделей неповрежденных и поврежденных данных.

Ниже приведен пример набора данных о цветке ириса с добавленной аномалией. С включенной аномалией алгоритм классификации может испытывать трудности с правильным поиском закономерностей или сталкиваться с ошибками.

Данные радужной оболочки глаза Фишера с аномалией
Порядок набора данных Длина чашелистики Ширина чашелистики Длина лепестка Ширина лепестка Разновидность
1 5.1 3.5 1.4 0,2 I. setosa
2 4.9 3.0 1.4 0,2 I. setosa
3 4,7 3.2 1.3 0,2 I. setosa
4 4.6 3.1 1.5 0,2 I. setosa
5 5.0 НУЛЕВОЙ 1.4 НУЛЕВОЙ I. setosa

Если удалить аномалию, обучение будет легче находить закономерности в классификациях.

В интеллектуальном анализе данных многомерные данные также будут предлагать сложные вычислительные задачи с очень большими наборами данных. Удалив многочисленные образцы, которые могут оказаться неуместными для классификатора или алгоритма обнаружения, время выполнения может быть значительно сокращено даже для самых больших наборов данных.

Программное обеспечение

  • ELKI - это набор инструментов для интеллектуального анализа данных Java с открытым исходным кодом, который содержит несколько алгоритмов обнаружения аномалий, а также ускорение индексации для них.
  • Scikit-Learn - это библиотека Python с открытым исходным кодом, в которой есть встроенные функции, обеспечивающие неконтролируемое обнаружение аномалий.

Наборы данных

Смотрите также

использованная литература