Снижение размерности - Dimensionality reduction

Уменьшение размерности , или уменьшение размерности , представляет собой преобразование данных из пространства большой размерности в пространство низкой размерности, так что представление низкой размерности сохраняет некоторые значимые свойства исходных данных, в идеале близкие к его внутреннему измерению . Работа в объемных пространствах может быть нежелательной по многим причинам; необработанные данные часто разрежены из-за проклятия размерности , а анализ данных обычно сложно поддается вычислению . Снижение размерности часто встречается в областях, которые имеют дело с большим количеством наблюдений и / или большим количеством переменных, таких как обработка сигналов , распознавание речи , нейроинформатика и биоинформатика .

Методы обычно делятся на линейные и нелинейные. Подходы , также могут быть разделены на отбор признаков и выделение признаков . Снижение размерности может использоваться для уменьшения шума , визуализации данных , кластерного анализа или в качестве промежуточного шага для облегчения других анализов.

Выбор функции

Подходы к выбору функций пытаются найти подмножество входных переменных (также называемых функциями или атрибутами). Этими тремя стратегиями являются: стратегия фильтрации (например, получение информации ), стратегия оболочки (например, поиск, основанный на точности) и встроенная стратегия (выбранные функции добавляются или удаляются при построении модели на основе ошибок прогнозирования).

Анализ данных, такой как регрессия или классификация, может быть выполнен в сокращенном пространстве более точно, чем в исходном пространстве.

Проекция функций

Проекция признаков (также называемая извлечением признаков) преобразует данные из пространства большой размерности в пространство меньшего размера. Преобразование данных может быть линейным, как в анализе главных компонентов (PCA), но также существует множество методов нелинейного уменьшения размерности . Для многомерных данных тензорное представление может использоваться для уменьшения размерности посредством обучения полилинейному подпространству .

Анализ главных компонентов (PCA)

Основной линейный метод уменьшения размерности, анализ главных компонентов, выполняет линейное отображение данных в пространство более низкой размерности таким образом, чтобы дисперсия данных в представлении низкой размерности была максимальной. На практике создается ковариационная (а иногда и корреляционная ) матрица данных и вычисляются собственные векторы на этой матрице. Собственные векторы, которые соответствуют наибольшим собственным значениям (главные компоненты), теперь могут использоваться для восстановления значительной части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать с точки зрения крупномасштабного физического поведения системы, потому что они часто вносят большую часть энергии системы, особенно в низкоразмерных системах. Тем не менее, это необходимо доказывать в каждом конкретном случае, поскольку не все системы демонстрируют такое поведение. Исходное пространство (с размерностью числа точек) было уменьшено (с потерей данных, но, надеюсь, с сохранением наиболее важной дисперсии) до пространства, охватываемого несколькими собственными векторами.

Неотрицательная матричная факторизация (NMF)

NMF разлагает неотрицательную матрицу на произведение двух неотрицательных, что является многообещающим инструментом в областях, где существуют только неотрицательные сигналы, таких как астрономия. NMF хорошо известен со времен правила мультипликативного обновления, разработанного Ли и Сыном, которое постоянно развивается: включение неопределенностей, учет отсутствующих данных и параллельные вычисления, последовательное построение, которое приводит к стабильности и линейности NMF, а также другие обновления, включая обработку недостающих данных при обработке цифровых изображений .

Благодаря стабильной компонентной основе во время строительства и процессу линейного моделирования, последовательная NMF способна сохранять поток при прямом отображении околозвездных структур в астромонии, что является одним из методов обнаружения экзопланет , особенно для прямого отображения околозвездных дисков . По сравнению с PCA, NMF не удаляет среднее значение матриц, что приводит к нефизическим неотрицательным потокам; следовательно, NMF может хранить больше информации, чем PCA, как продемонстрировали Ren et al.

Ядро PCA

Анализ главных компонентов может применяться нелинейным образом с помощью трюка с ядром . Результирующий метод позволяет создавать нелинейные отображения, которые максимизируют дисперсию данных. Полученный метод называется ядерным PCA .

Графическое ядро ​​PCA

Другие известные нелинейные методы включают методы обучения многообразию , такие как Isomap , локально линейное вложение (LLE), Hessian LLE, лапласовские собственные карты и методы, основанные на анализе касательного пространства. Эти методы создают низкоразмерное представление данных с использованием функции стоимости, которая сохраняет локальные свойства данных, и может рассматриваться как определение ядра на основе графа для ядра PCA.

Совсем недавно были предложены методы, которые вместо определения фиксированного ядра пытаются изучить ядро ​​с помощью полуопределенного программирования . Наиболее ярким примером такой техники является развертывание максимальной дисперсии (MVU). Центральная идея MVU состоит в том, чтобы точно сохранить все попарные расстояния между ближайшими соседями (во внутреннем пространстве продукта), при этом максимизируя расстояния между точками, которые не являются ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции стоимости, которая измеряет различия между расстояниями во входном и выходном пространствах. Важные примеры таких методов включают: классическое многомерное масштабирование , которое идентично PCA; Isomap , использующий геодезические расстояния в пространстве данных; карты распространения , в которых используются расстояния распространения в пространстве данных; t-распределенное стохастическое вложение соседей (t-SNE), которое минимизирует расхождение между распределениями по парам точек; и криволинейный компонентный анализ.

Другой подход к уменьшению нелинейной размерности заключается в использовании автокодировщиков , особого вида нейронных сетей прямого распространения со скрытым узким слоем. Обучение глубинных кодировщиков обычно выполняется с использованием жадного послойного предварительного обучения (например, с использованием стека ограниченных машин Больцмана ), за которым следует этап точной настройки на основе обратного распространения ошибки .

Линейный дискриминантный анализ (LDA)

Линейный дискриминантный анализ (LDA) - это обобщение линейного дискриминанта Фишера, метода, используемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации функций, которая характеризует или разделяет два или более классов объектов или событий.

Обобщенный дискриминантный анализ (GDA)

GDA занимается нелинейным дискриминантным анализом с использованием оператора функции ядра. Теория, лежащая в основе, близка к машинам опорных векторов (SVM), поскольку метод GDA обеспечивает отображение входных векторов в многомерное пространство признаков. Как и в случае с LDA, цель GDA состоит в том, чтобы найти проекцию функций в пространство с более низкой размерностью, максимизируя отношение разброса между классами к разбросу внутри класса.

Автоэнкодер

Автоэнкодеры могут использоваться для изучения нелинейных функций уменьшения размерности и кодирования вместе с обратной функцией от кодирования к исходному представлению.

t-SNE

T-распределенное стохастическое соседнее вложение (t-SNE) - это метод нелинейного уменьшения размерности, полезный для визуализации многомерных наборов данных. Его не рекомендуется использовать в анализе, таком как кластеризация или обнаружение выбросов, поскольку он не обязательно хорошо сохраняет плотности или расстояния.

UMAP

Аппроксимация и проекция равномерного многообразия (UMAP) - это метод нелинейного уменьшения размерности. Визуально он похож на t-SNE, но предполагает, что данные равномерно распределены на локально связном римановом многообразии и что риманова метрика локально постоянна или приблизительно локально постоянна.

Уменьшение размеров

Для наборов данных большой размерности (т.е. с числом измерений более 10) уменьшение размерности обычно выполняется до применения алгоритма K-ближайших соседей (k-NN), чтобы избежать последствий проклятия размерности .

Извлечение признаков и уменьшение размерности могут быть объединены за один этап с использованием методов анализа главных компонентов (PCA), линейного дискриминантного анализа (LDA), канонического корреляционного анализа (CCA) или неотрицательной матричной факторизации (NMF) в качестве этапа предварительной обработки. путем кластеризации с помощью K-NN по векторам признаков в пространстве уменьшенной размерности. В машинном обучении этот процесс также называется низкоразмерным внедрением .

Для очень многомерных наборов данных (например, при выполнении поиска по сходству в видеопотоках в реальном времени, данных ДНК или многомерных временных рядах ) запуск быстрого приближенного поиска K-NN с использованием хеширования с учетом местоположения , случайной проекции , «эскизов» или других методы поиска подобия высокой размерности из набора инструментов конференции VLDB могут быть единственно возможным вариантом.

Приложения

Техника уменьшения размерности, которая иногда используется в нейробиологии, - это максимально информативные измерения , которые находят более низкоразмерное представление набора данных, так что сохраняется как можно больше информации об исходных данных.

Смотрите также

Примечания

использованная литература

  • Бемке, Брэд; Гринвелл, Брэндон М. (2019). «Уменьшение размеров» . Hands-On Machine Learning с R . Чепмен и Холл. С. 343–396. ISBN 978-1-138-49568-5.
  • Каннингем, П. (2007). Уменьшение размеров (технический отчет). Университетский колледж Дублина. UCD-CSI-2007-7.
  • Фодор И. (2002). Обзор методов уменьшения размерности (Технический отчет). Центр прикладных научных вычислений, Ливерморский национальный центр. UCRL-ID-148494.
  • Лакшми Падмаджа, Дхьярам; Вишнувардхан, Б. (2016). «Сравнительное исследование методов выбора подмножества признаков для уменьшения размерности научных данных». 6-я Международная конференция по передовым вычислениям (IACC), 2016 г., IEEE . С. 31–34. DOI : 10.1109 / IACC.2016.16 . ISBN 978-1-4673-8286-1. S2CID  14532363 .

внешние ссылки