Неотрицательная матричная факторизация - Non-negative matrix factorization

Иллюстрация приближенного неотрицательного разложения матрицы: матрица V представлена двумя меньшими матрицами W и H , который при умножении, приблизительно реконструировать V .

Неотрицательная матрица разложение ( ФС или NNMF ), также неотрицательная матрица приближении представляет собой группа алгоритмов в многомерном анализе и линейной алгебре , где матрица V является факторизуются в (обычно) два матриц W и H , со свойством , что все три матрицы не имеют отрицательных элементов. Эта неотрицательность упрощает проверку полученных матриц. Кроме того, в таких приложениях, как обработка звуковых спектрограмм или мышечной активности, рассматриваемым данным присуща неотрицательность. Поскольку в общем случае проблема не является точно решаемой, ее обычно оценивают численно.

NMF находит применения в таких областях, как астрономия , компьютерное зрение , кластеризация документов , вменение недостающих данных , хемометрия , обработка аудиосигналов , рекомендательные системы и биоинформатика .

История

В хемометрии неотрицательная матричная факторизация имеет долгую историю под названием «разрешение самомоделированной кривой». В этом контексте векторы в правой матрице представляют собой непрерывные кривые, а не дискретные векторы. Также ранняя работа по факторизации неотрицательной матрицы была выполнена финской группой исследователей в 1990-х годах под названием факторизация положительной матрицы . Он стал более известен как факторизация неотрицательной матрицы после того, как Ли и Сын исследовали свойства алгоритма и опубликовали несколько простых и полезных алгоритмов для двух типов факторизации.

Фон

Пусть матрица V - произведение матриц W и H ,

Матрица умножение может быть реализовано в виде вычисления векторов - столбцов V в виде линейных комбинаций векторов столбцов в Вт с использованием коэффициентов , поставляемых столбцами H . То есть каждый столбец V можно вычислить следующим образом:

где v я это я -й вектор - столбец матрицы продукта V и ч я это я -й вектор - столбец матрицы H .

При умножении матриц размеры факторных матриц могут быть значительно ниже, чем размеры матрицы произведения, и именно это свойство составляет основу NMF. NMF генерирует факторы со значительно уменьшенными размерами по сравнению с исходной матрицей. Например, если V - матрица размера m × n , W - матрица размера m × p , а H - матрица размера p × n, то p может быть значительно меньше, чем как m, так и n .

Вот пример, основанный на приложении для интеллектуального анализа текста:

  • Пусть входная матрица (матрица, подлежащая факторизации) будет V с 10000 строками и 500 столбцами, где слова находятся в строках, а документы - в столбцах. То есть у нас есть 500 документов, проиндексированных по 10 000 слов. Отсюда следует, что вектор-столбец v в V представляет документ.
  • Предположим, мы просим алгоритм найти 10 признаков, чтобы сгенерировать матрицу признаков W с 10000 строками и 10 столбцами и матрицу коэффициентов H с 10 строками и 500 столбцами.
  • Продукт W и H представляет собой матрицу с 10000 строками и 500 столбцов, такая же форма , как и входная матрицей V , и, если разложение работало, то разумное приближение к входной матрице V .
  • Из обработки матричного умножения выше следует , что каждый столбец в матрице продукта WH представляет собой линейную комбинацию векторов колонок 10 в особенности матрицы W с коэффициентами , поставляемых коэффициентов матрицы H .

Этот последний пункт является основой NMF, потому что мы можем рассматривать каждый исходный документ в нашем примере как созданный из небольшого набора скрытых функций. NMF генерирует эти функции.

Каждую особенность (вектор-столбец) в матрице признаков W полезно рассматривать как архетип документа, состоящий из набора слов, где значение ячейки каждого слова определяет ранг слова в признаке: чем выше значение ячейки слова, тем выше ранг слова. в функции. Столбец в матрице коэффициентов H представляет исходный документ со значением ячейки, определяющим ранг документа для характеристики. Теперь мы можем восстановить документ (вектор - столбец) из нашей входной матрицы линейной комбинацией наших функций (векторов столбцов в W ) , где каждая функция взвешенных по значению ячейки описываемого объекта из колонки документа в H .

Кластеризация собственности

NMF имеет свойство кластеризации, т. Е. Автоматически кластеризует столбцы входных данных .

В частности, приближение к достигается путем нахождения и минимизации функции ошибок

при условии

Если мы, кроме того, наложим ограничение на ортогональность , то есть , тогда приведенная выше минимизация математически эквивалентна минимизации кластеризации K-средних .

Кроме того, вычисленное дает членство в кластере, т. Е. Если для всех ik , это предполагает, что входные данные принадлежат -ому кластеру. Вычисленное дает центроиды кластера, т. Е. -Й столбец дает центроид -го кластера. Представление этого центроида можно значительно улучшить с помощью выпуклого NMF.

Когда ограничение ортогональности не налагается явно, ортогональность сохраняется в значительной степени, и свойство кластеризации также сохраняется. Кластеризация - основная цель большинства приложений NMF для интеллектуального анализа данных.

Когда в качестве функции ошибок следует использовать расхождение Кульбака – Лейблера , NMF идентичен вероятностному скрытому семантическому анализу , популярному методу кластеризации документов.

Типы

Примерная неотрицательная матричная факторизация

Обычно число столбцов W , а число строк H в NMF выбраны таким образом продукт WH станет приближением к V . Полное разложение V затем составляет два неотрицательных матриц W и H , а также остаточного U , такие , что: V = WH + U . Элементы остаточной матрицы могут быть как отрицательными, так и положительными.

Когда W и H меньше V, их легче хранить и манипулировать. Другая причина для разложения V на более мелкие матрицы W и H заключается в том, что если кто-то может приблизительно представить элементы V с помощью значительно меньшего количества данных, то он должен вывести некоторую скрытую структуру в данных.

Факторизация выпуклой неотрицательной матрицы

В стандартном NMF матричный фактор WR + m × k, т. Е. W может быть чем угодно в этом пространстве. Выпуклый ФС ограничивает столбцы W для выпуклых комбинаций векторов входных данных . Это значительно улучшает качество представления данных W . Кроме того, результирующий матричный фактор H становится более разреженным и ортогональным.

Факторизация неотрицательного ранга

В случае , если неотрицательное ранг из V равно его фактического ранг, V = WH называется неотрицательным ранг факторизацией (СИФ). Известно, что проблема нахождения NRF для V , если она существует, является NP-сложной.

Различные функции затрат и регуляризации

Существуют различные типы неотрицательной матричной факторизации. Различные типы возникают из использования различных функций затрат для измерения расхождения между V и WH и , возможно , с помощью регуляризации из W и / или H матриц.

Две простые функции дивергенции, изученные Ли и Сеунгом, - это квадрат ошибки (или норма Фробениуса ) и расширение дивергенции Кульбака – Лейблера на положительные матрицы (исходная дивергенция Кульбака – Лейблера определена на вероятностных распределениях). Каждое расхождение приводит к другому алгоритму NMF, обычно минимизирующему расхождение с использованием правил итеративного обновления.

Проблема факторизации в версии NMF с квадратом ошибок может быть сформулирована следующим образом: по заданной матрице найдите неотрицательные матрицы W и H, которые минимизируют функцию

Другой тип NMF для изображений основан на общей норме вариации .

Когда регуляризация L1 (сродни лассо ) добавляется к NMF со среднеквадратичной функцией стоимости ошибки, результирующая проблема может быть названа неотрицательным разреженным кодированием из-за сходства с проблемой разреженного кодирования , хотя ее также можно назвать NMF.

Онлайн NMF

Многие стандартные алгоритмы NMF анализируют все данные вместе; т.е. вся матрица доступна с самого начала. Это может быть неудовлетворительным для приложений, в которых слишком много данных для размещения в памяти или где данные предоставляются в потоковом режиме. Одно из таких применений - совместная фильтрация в системах рекомендаций , где может быть много пользователей и много элементов, которые следует рекомендовать, и было бы неэффективно пересчитывать все, когда в систему добавляется один пользователь или один элемент. Функция стоимости для оптимизации в этих случаях может быть или не быть такой же, как для стандартного NMF, но алгоритмы должны быть довольно разными.

Алгоритмы

Есть несколько способов найти W и H : правило мультипликативного обновления Ли и Сына было популярным методом из-за простоты реализации. Этот алгоритм:

инициализировать: W и H неотрицательны.
Затем обновите значения в W и H , вычислив следующее, используя в качестве индекса итерации.
а также
Пока W и H не станут стабильными.

Обратите внимание, что обновления выполняются поэлементно, а не умножением матриц.

Отметим, что мультипликативные множители для W и H , т.е. члены и являются матрицами единиц, когда .

Совсем недавно были разработаны другие алгоритмы. Некоторые подходы основаны на переменном неотрицательные наименьших квадратов : в каждом шаге такого алгоритма, сначала Н является фиксированной и W найден неотрицательное наименьших квадратов решатель, то W является фиксированной и Н найдена аналогично. Процедуры , используемые для решения для W и H могут быть одинаковыми или различными, так как некоторые варианты ФСУ регуляризовать один из W и H . Конкретные подходы включают в себя методы прогнозируемого градиентного спуска , метод активного набора, метод оптимального градиента и метод поворота основного блока среди нескольких других.

Текущие алгоритмы являются субоптимальными в том смысле, что они гарантируют только поиск локального минимума, а не глобального минимума функции стоимости. Доказуемо оптимальный алгоритм маловероятен в ближайшем будущем, поскольку было показано, что проблема обобщает проблему кластеризации k-средних, которая, как известно, является NP-полной . Однако, как и во многих других приложениях интеллектуального анализа данных, локальный минимум может оказаться полезным.

Графики фракционной остаточной дисперсии (FRV) для PCA и последовательных NMF; для PCA теоретические значения представляют собой вклад остаточных собственных значений. Для сравнения, кривые FRV для PCA достигают плоского плато, на котором эффективно не улавливается никакой сигнал; в то время как кривые NMF FRV непрерывно снижаются, что указывает на лучшую способность захвата сигнала. Кривые FRV для NMF также сходятся к более высоким уровням, чем PCA, что указывает на свойство NMF с меньшей переобученностью.

Последовательный NMF

Последовательное построение компонентов NMF ( W и H ) впервые использовалось для связи NMF с анализом главных компонентов (PCA) в астрономии. Вклад компонентов PCA ранжируется по величине их соответствующих собственных значений; для NMF его компоненты могут быть ранжированы эмпирически, когда они построены один за другим (последовательно), т. е. изучать -й компонент с помощью первых построенных компонентов.

Вклад последовательных компонентов NMF можно сравнить с теоремой Карунена – Лоэва , приложением PCA, используя график собственных значений. Типичный выбор количества компонентов с PCA основан на точке «изгиба», тогда наличие плоского плато указывает на то, что PCA не захватывает данные эффективно, и, наконец, существует внезапное падение, отражающее захват случайных шумит и попадает в режим переобучения. Для последовательного NMF график собственных значений аппроксимируется графиком кривых дробной остаточной дисперсии, где кривые непрерывно убывают и сходятся к более высокому уровню, чем PCA, что указывает на меньшее переоснащение последовательных NMF.

Точный NMF

Точных решений для вариантов NMF можно ожидать (за полиномиальное время), когда для матрицы V выполняются дополнительные ограничения . Алгоритм с полиномиальным временем для решения факторизации неотрицательного ранга, если V содержит мономиальную подматрицу ранга, равного ее рангу, был дан Кэмпбеллом и Пул в 1981 году. Калофолиас и Галлопулос (2012) решили симметричный аналог этой задачи, где V симметрична и содержит диагональную главную подматрицу ранга r. Их алгоритм работает за время O (rm 2 ) в плотном случае. Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) дают алгоритм полиномиального времени для точного NMF, который работает для случая, когда один из факторов W удовлетворяет условию отделимости.

Отношение к другим техникам

В разделе «Изучение частей объектов с помощью неотрицательной матричной факторизации» Ли и Сын предложили NMF в основном для разложения изображений по частям. Он сравнивает NMF с векторным квантованием и анализом главных компонентов и показывает, что, хотя три метода могут быть записаны как факторизации, они реализуют разные ограничения и, следовательно, дают разные результаты.

ФС как вероятностная графическая модель: видимые блоки ( V ) подключены к скрытым единицам ( H ) через весы W , так что V будет генерироваться из распределения вероятностей со средним .

Позже было показано, что некоторые типы NMF являются примером более общей вероятностной модели, называемой «полиномиальный PCA». Когда NMF получается путем минимизации дивергенции Кульбака – Лейблера , это фактически эквивалентно другому примеру полиномиального PCA, вероятностному латентно-семантическому анализу , обученному с помощью оценки максимального правдоподобия . Этот метод обычно используется для анализа и кластеризации текстовых данных, а также связан с моделью скрытых классов .

NMF с целью наименьших квадратов эквивалентен расслабленной форме кластеризации K-средних : матричный фактор W содержит центроиды кластера, а H содержит индикаторы принадлежности кластеру. Это обеспечивает теоретическую основу для использования NMF для кластеризации данных. Однако k-means не требует неотрицательности своих центроидов, поэтому наиболее близкая аналогия фактически с «полу-NMF».

NMF можно рассматривать как двухуровневую ориентированную графическую модель с одним слоем наблюдаемых случайных величин и одним слоем скрытых случайных величин.

NMF распространяется не только на матрицы, но и на тензоры произвольного порядка. Это расширение можно рассматривать как неотрицательный аналог, например, модели PARAFAC .

Другие расширения NMF включают совместную факторизацию нескольких матриц данных и тензоров, где некоторые факторы являются общими. Такие модели полезны для слияния сенсоров и реляционного обучения.

NMF является примером неотрицательного квадратичного программирования ( NQP ), как и машина опорных векторов (SVM). Однако SVM и NMF связаны на более тесном уровне, чем NQP, что позволяет напрямую применять алгоритмы решения, разработанные для любого из двух методов, к проблемам в обеих областях.

Уникальность

Факторизация не является уникальной: матрицу и ее обратную матрицу можно использовать для преобразования двух матриц факторизации, например,

Если две новые матрицы и являются неотрицательными они образуют другую параметризацию факторизации.

Неотрицательность и применяется, по крайней мере, если B - неотрицательная мономиальная матрица . В этом простом случае это будет просто масштабирование и перестановка .

Больше контроля над неуникальностью NMF достигается с помощью ограничений разреженности.

Приложения

Астрономия

В астрономии NMF - многообещающий метод уменьшения размерности в том смысле, что астрофизические сигналы неотрицательны. NMF применялся к спектроскопическим наблюдениям и наблюдениям с прямой визуализацией как метод изучения общих свойств астрономических объектов и последующей обработки астрономических наблюдений. Успехи в спектроскопических наблюдениях Blanton & Roweis (2007) учитывают неопределенности астрономических наблюдений, которые позже улучшены Zhu (2016), где также учитываются недостающие данные и включены параллельные вычисления . Затем их метод был принят Ren et al. (2018) в поле прямого изображения как один из методов обнаружения экзопланет , особенно для прямого изображения околозвездных дисков .

Ren et al. (2018) могут доказать стабильность компонентов NMF, когда они построены последовательно (т. Е. Один за другим), что обеспечивает линейность процесса моделирования NMF; линейность свойство используется , чтобы отделить звездный свет и рассеянный свет от экзопланеты и околозвездных дисков .

При прямом построении изображений для выявления слабых экзопланет и околозвездных дисков в ярком окружающем звездном свете, который имеет типичный контраст от 10⁵ до 10¹⁰, были приняты различные статистические методы, однако свет от экзопланет или околозвездных дисков обычно переоценивается. , где для восстановления истинного потока необходимо применить прямое моделирование. Прямое моделирование в настоящее время оптимизировано для точечных источников, но не для расширенных источников, особенно для структур неправильной формы, таких как околозвездные диски. В этой ситуации NMF оказался отличным методом, так как он меньше подходит в смысле неотрицательности и разреженности коэффициентов моделирования NMF, поэтому прямое моделирование может выполняться с несколькими коэффициентами масштабирования, а не с данными, требующими больших вычислительных ресурсов. повторная редукция на сгенерированных моделях.

Вменение данных

Чтобы вменять недостающие данные в статистику, NMF может принимать недостающие данные, минимизируя при этом свою функцию затрат, вместо того, чтобы обрабатывать эти недостающие данные как нули. Это делает его математически доказанным методом вменения данных в статистике. Сначала доказав, что отсутствующие данные игнорируются в функции стоимости, а затем доказав, что влияние отсутствующих данных может быть таким же небольшим, как эффект второго порядка, Ren et al. (2020) изучили и применили такой подход в области астрономии. Их работа сосредоточена на двумерных матрицах, в частности, она включает математический вывод, моделирование данных и применение к данным, полученным с неба.

Процедура вменения данных с помощью NMF может состоять из двух этапов. Во-первых, когда компоненты NMF известны, Ren et al. (2020) доказали, что влияние отсутствующих данных во время вменения данных («целевое моделирование» в их исследовании) является эффектом второго порядка. Во-вторых, когда компоненты NMF неизвестны, авторы доказали, что влияние отсутствующих данных во время создания компонента является эффектом первого-второго порядка.

В зависимости от способа получения компонентов NMF предыдущий этап может быть независимым или зависеть от второго. Кроме того, качество вменения можно повысить, если использовать больше компонентов NMF, см. Рисунок 4 Рена и др. (2020) за их иллюстрацию.

Текстовый майнинг

NMF можно использовать для приложений интеллектуального анализа текста . В этом процессе матрица документ-термин строится с весами различных терминов (обычно взвешенной информацией о частоте слов) из набора документов. Эта матрица факторизована в матрицу термина-признака и матрицу -признак-документ . Функции основаны на содержимом документов, а матрица документов-характеристик описывает кластеры данных связанных документов.

Одно конкретное приложение использовало иерархический NMF для небольшого подмножества научных рефератов из PubMed . Другая исследовательская группа сгруппировала части набора данных электронной почты Enron с 65 033 сообщениями и 91 133 терминами в 50 кластеров. NMF также применялся к данным цитирования, в одном из примеров кластеризации статей английской Википедии и научных журналов на основе исходящих научных цитат в английской Википедии.

Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) предложили алгоритмы с полиномиальным временем для изучения тематических моделей с использованием NMF. Алгоритм предполагает, что тематическая матрица удовлетворяет условию разделимости, которое часто выполняется в этих параметрах.

Хассани, Иранманеш и Мансури (2019) предложили метод агломерации признаков для матриц терминов-документов, который работает с использованием NMF. Алгоритм сокращает матрицу термина-документа до меньшей матрицы, более подходящей для кластеризации текста.

Спектральный анализ данных

NMF также используется для анализа спектральных данных; одно из таких применений - классификация космических объектов и мусора.

Масштабируемое прогнозирование расстояния в Интернете

NMF применяется для масштабируемого прогнозирования расстояния в Интернете (времени приема-передачи). Для сети с хостами с помощью NMF можно предсказать расстояния всех сквозных соединений после проведения только измерений. Этот метод был впервые представлен в службе оценки расстояния в Интернете (IDES). Затем в качестве полностью децентрализованного подхода предлагается сетевая система координат Phoenix. Он обеспечивает лучшую общую точность прогноза за счет введения концепции веса.

Нестационарное шумоподавление речи

Шумоподавление речи было давней проблемой при обработке аудиосигналов . Существует множество алгоритмов шумоподавления, если шум является стационарным. Например, фильтр Винера подходит для аддитивного гауссовского шума . Однако, если шум нестационарный, классические алгоритмы шумоподавления обычно имеют низкую производительность, поскольку статистическую информацию о нестационарном шуме трудно оценить. Schmidt et al. используйте NMF для шумоподавления речи при нестационарном шуме, что полностью отличается от классических статистических подходов. Ключевая идея состоит в том, что чистый речевой сигнал может быть редко представлен речевым словарем, а нестационарный шум - нет. Точно так же нестационарный шум также может быть редко представлен с помощью словаря шума, но речь не может.

Алгоритм шумоподавления NMF выглядит следующим образом. Два словаря, один для речи и один для шума, необходимо обучать в автономном режиме. Как только звучит шумная речь, мы сначала вычисляем величину кратковременного преобразования Фурье. Во-вторых, разделите его на две части с помощью NMF: одна может быть редко представлена ​​речевым словарем, а другая часть может быть редко представлена ​​словарем шума. В-третьих, часть, представленная речевым словарем, будет оцененной чистой речью.

Популяционная генетика

Разреженный NMF используется в популяционной генетике для оценки индивидуальных коэффициентов примеси, обнаружения генетических кластеров индивидов в выборке популяции или оценки генетической примеси в выбранных геномах. В генетической кластеризации человека алгоритмы NMF обеспечивают оценки, аналогичные оценкам компьютерной программы STRUCTURE, но алгоритмы более эффективны в вычислительном отношении и позволяют анализировать большие наборы геномных данных населения.

Биоинформатика

NMF успешно применяется в биоинформатике для кластеризации данных экспрессии генов и метилирования ДНК и поиска генов, наиболее репрезентативных для кластеров. При анализе мутаций рака он использовался для выявления общих паттернов мутаций, которые встречаются при многих видах рака и, вероятно, имеют разные причины. Методы NMF могут идентифицировать источники вариаций, такие как типы клеток, подтипы заболеваний, стратификация населения, состав ткани и клональность опухоли.

Ядерная визуализация

NMF, также называемый в этой области факторным анализом, используется с 1980-х годов для анализа последовательностей изображений в динамической медицинской визуализации SPECT и PET . Неуникальность NMF решалась с помощью ограничений разреженности.

Текущее исследование

Текущие исследования (с 2010 г.) в области факторизации неотрицательной матрицы включают, но не ограничиваются,

  1. Алгоритмический: поиск глобальных минимумов факторов и инициализация факторов.
  2. Масштабируемость: как факторизовать матрицы размером миллион на миллиард, которые являются обычным явлением в интеллектуальном анализе данных в веб-масштабе, например, см. Раздел «Факторизация распределенной неотрицательной матрицы (DNMF)», «Масштабируемая факторизация неотрицательной матрицы (ScalableNMF)», «Распределенная стохастическая разложение по сингулярным значениям».
  3. Онлайн: как обновить факторизацию при поступлении новых данных без пересчета с нуля, например, см. Онлайн CNSC
  4. Коллективная (совместная) факторизация: факторизация нескольких взаимосвязанных матриц для обучения с несколькими представлениями, например, кластеризация с несколькими представлениями, см. CoNMF и MultiNMF
  5. Проблема Коэна и Ротблюма 1993: всегда ли рациональная матрица имеет НМФ минимальной внутренней размерности, факторы которой также рациональны. В последнее время на эту проблему ответили отрицательно.

Смотрите также

Источники и внешние ссылки

Примечания

Другие