Спектральная кластеризация - Spectral clustering

Пример двух связанных графов

В многомерных статистиках , спектральные кластеризации методы делают использование спектра ( собственные значения ) от подобия матрицы данных для выполнения сокращения размерности , прежде чем кластеризации в меньшем количестве измерений. Матрица подобия предоставляется в качестве входных данных и состоит из количественной оценки относительного сходства каждой пары точек в наборе данных.

Применительно к сегментации изображений спектральная кластеризация известна как категоризация объектов на основе сегментации .

Определения

Учитывая пронумерованный набор точек данных, матрица подобия может быть определена как симметричная матрица , где представляет меру сходства между точками данных с индексами и . Общий подход к спектральной кластеризации заключается в использовании стандартной кластеризации метода (существует много таких методов, K -средних обсуждаются ниже ) на соответствующих собственных векторах одного лапласиана матрицы из . Есть много разных способов определения лапласиана, которые имеют разные математические интерпретации, поэтому кластеризация также будет иметь разные интерпретации. Релевантными собственными векторами являются те, которые соответствуют нескольким наименьшим собственным значениям лапласиана, за исключением наименьшего собственного значения, которое будет иметь значение 0. Для вычислительной эффективности эти собственные векторы часто вычисляются как собственные векторы, соответствующие нескольким наибольшим собственным значениям a. функция лапласиана.

Хорошо известно, что спектральная кластеризация связана с разделением системы масса-пружина, где каждая масса связана с точкой данных, а каждая жесткость пружины соответствует весу края, описывающему сходство двух связанных точек данных. В частности, классическая ссылка объясняет, что задача на собственные значения, описывающая поперечные режимы колебаний системы масса-пружина, в точности совпадает с проблемой собственных значений для матрицы Лапласа графа, определенной как

,

где - диагональная матрица

Массы, которые тесно связаны пружинами в системе масса-пружина, очевидно, перемещаются вместе из положения равновесия в низкочастотных режимах колебаний, так что компоненты собственных векторов, соответствующие наименьшим собственным значениям лапласиана графа, могут использоваться для значимого кластеризация масс.

Популярным родственным методом спектральной кластеризации является алгоритм нормализованных отсечений или алгоритм Ши – Малика, представленный Джианбо Ши и Джитендрой Малик, обычно используемый для сегментации изображений . Это разделяет точки на две группы на основе собственного вектора , соответствующего второму-наименьшее собственное значение из симметричной нормализуется лапласиан определяется как

Математически алгоритм эквивалентно принимает собственный вектор , соответствующий величине собственного значения от случайного блуждания нормализуется смежности матрицы .

Зная собственные векторы, разбиение может быть выполнено различными способами, например, путем вычисления медианы компонентов второго наименьшего собственного вектора и размещения всех точек, компонент которых больше, чем in , а остальные - внутрь . Алгоритм можно использовать для иерархической кластеризации , многократно разделяя подмножества таким образом.

Алгоритмы

Базовый алгоритм
  1. Вычислите лапласиан (или нормализованный лапласиан)
  2. Вычислите первые собственные векторы (собственные векторы, соответствующие наименьшим собственным значениям )
  3. Рассмотрим матрицу, образованную первыми собственными векторами; -й строка определяет особенность узла графа
  4. Кластеризация узлов графа на основе этих функций (например, с использованием кластеризации k-средних )

Если матрица подобия еще не была построена явно, эффективность спектральной кластеризации может быть улучшена, если решение соответствующей проблемы собственных значений выполняется безматричным способом (без явного манипулирования или даже вычисления матрицы подобия), как в Алгоритм Ланцоша .

Для графов большого размера второе собственное значение (нормализованной) матрицы Лапласа графа часто плохо обусловлено , что приводит к медленной сходимости итерационных решателей собственных значений. Предварительная подготовка - это ключевая технология, ускоряющая сходимость, например, в безматричном методе LOBPCG . Спектральная кластеризация успешно применялась к большим графам, сначала определяя структуру их сообществ , а затем группируя сообщества.

Спектральная кластеризация тесно связана с нелинейным уменьшением размерности , и методы уменьшения размерности, такие как локально-линейное встраивание, могут использоваться для уменьшения ошибок из-за шума или выбросов.

Программное обеспечение

Свободное программное обеспечение реализация спектральной кластеризации доступно в крупных проектах с открытым исходным кодом , как Scikit-Learn использования LOBPCG с многосеточным предобусловливанием или ARPACK , MLlib для псевдо-собственных векторов кластеризации с использованием мощности итераций методы и R .

Связь с другими методами кластеризации

Идеи, лежащие в основе спектральной кластеризации, могут быть не сразу очевидны. Может быть полезно выделить отношения с другими методами. В частности, его можно описать в контексте методов кластеризации ядра, что обнаруживает некоторые сходства с другими подходами.

Отношения с k- средними

Проблема ядра k- средних является расширением проблемы k- средних, где точки входных данных нелинейно отображаются в пространство признаков более высокой размерности через функцию ядра . Проблема взвешенного ядра k- средних еще больше расширяет эту проблему, определяя вес для каждого кластера как величину, обратную количеству элементов в кластере,

Предположим , это матрица нормализующих коэффициентов для каждой точки для каждого кластера, если и ноль в противном случае. Предположим, есть матрица ядра для всех точек. Взвешенная ядерная k- средняя задача с n точками и k кластерами задается как,

такой, что

такой что . Кроме того, существуют ограничения идентичности, заданные выражением

где представляет собой вектор единиц. Эту задачу можно переформулировать как

Эта проблема эквивалентна проблеме спектральной кластеризации, когда ограничения идентичности ослаблены. В частности, проблема k- средних взвешенных ядер может быть переформулирована как проблема спектральной кластеризации (разбиения графа) и наоборот. Результатом работы алгоритмов являются собственные векторы, которые не удовлетворяют требованиям идентичности для индикаторных переменных, определенных в . Следовательно, для обеспечения эквивалентности задач требуется постобработка собственных векторов. Преобразование проблемы спектральной кластеризации в задачу взвешенного ядра с k- средними значительно снижает вычислительную нагрузку.

Связь с DBSCAN

Спектральная кластеризация также связана с кластеризацией DBSCAN , которая находит связанные по плотности компоненты. Связанные компоненты соответствуют оптимальным спектральным кластерам (без сечения краев); а DBSCAN использует асимметричный соседний граф с удаленными ребрами, когда исходные точки не являются плотными. Таким образом, DBSCAN - это частный случай спектральной кластеризации, но тот, который позволяет использовать более эффективные алгоритмы (в худшем случае , во многих практических случаях гораздо быстрее с индексами).

Меры для сравнения кластеризации

Рави Каннан, Сантош Вемпала и Адриан Ветта предложили двухкритериальную меру для определения качества данной кластеризации. Они сказали, что кластеризация является (α, ε) -кластеризацией, если проводимость каждого кластера (в кластеризации) была не менее α, а вес межкластерных краев составлял не более ε доли от общего веса всех кластеров. ребра в графе. Они также рассматривают два алгоритма аппроксимации в той же статье.

Примерные решения

Спектральная кластеризация требует больших вычислительных ресурсов, если только граф не является разреженным и матрица подобия не может быть эффективно построена. Если матрица подобия представляет собой матрицу ядра RBF, спектральная кластеризация обходится дорого. Существуют приблизительные алгоритмы для повышения эффективности спектральной кластеризации: степенной метод, метод Нистрома и т. Д. Однако недавние исследования выявили проблемы со спектральной кластеризацией с методом Нистрома; в частности, матрица подобия с приближением Нистрома не является элементарно положительной, что может быть проблематичным.

История и родственная литература

Спектральная кластеризация имеет долгую историю. Спектральную кластеризацию как метод машинного обучения популяризировали Ши и Малик, Нг, Джордан и Вайс.

Идеи и сетевые меры, связанные со спектральной кластеризацией, также играют важную роль в ряде приложений, очевидно, отличных от задач кластеризации. Например, сетям с более сильным спектральным разделением требуется больше времени, чтобы сходиться в моделях обновления общественного мнения, используемых в социологии и экономике.

Смотрите также

использованная литература

  1. ^ Дж. Деммель, [1] , CS267: Заметки к лекции 23, 9 апреля 1999 г., разделение графа, часть 2
  2. ^ a b c Джианбо Ши и Джитендра Малик, «Нормализованные сокращения и сегментация изображений» , IEEE Transactions on PAMI, Vol. 22, No. 8, август 2000 г.
  3. ^ Марина Мейла и Джианбо Ши, « Сегментация обучения с помощью случайных блужданий », Системы обработки нейронной информации 13 (NIPS 2000), 2001, стр. 873–879.
  4. ^ Заре, Хабил; П. Шоштари; А. Гупта; Р. Бринкман (2010). «Обработка данных для спектральной кластеризации для анализа данных высокопроизводительной проточной цитометрии» . BMC Bioinformatics . 11 : 403. DOI : 10,1186 / 1471-2105-11-403 . PMC  2923634 . PMID  20667133 .
  5. ^ Arias-Кастро, Е. и Чэнь, Г. и Лерман, G. (2011), "Спектральный кластеризации на основе локальных линейных приближений.", Электронный журнал статистики , 5 : 1537-1587, Arxiv : 1001,1323 , DOI : 10,1214 / 11-ejs651 , S2CID  88518155CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ http://scikit-learn.org/stable/modules/clustering.html#spectral-clustering
  7. Князев, Андрей В. (2003). Болей; Диллон; Гош; Коган (ред.). Современные предварительно подготовленные собственные преобразователи для спектральной сегментации изображения и деления графа пополам . Кластеризация больших наборов данных; Третья Международная конференция IEEE по интеллектуальному анализу данных (ICDM 2003) Мельбурн, Флорида: Компьютерное общество IEEE. С. 59–62.
  8. Князев, Андрей В. (2006). Многомасштабная сегментация спектрального изображения. Многомасштабная предварительная подготовка для вычисления собственных значений лапласианов графа при сегментации изображений . Семинар по быстрому обучению многообразию, WM Williamburg, VA. DOI : 10,13140 / RG.2.2.35280.02565 .
  9. Князев, Андрей В. (2006). Многомасштабное разбиение спектрального графа и сегментация изображений . Семинар по алгоритмам для современных массивов данных Стэнфордский университет и Yahoo! Исследовать.
  10. ^ http://spark.apache.org/docs/latest/mllib-clustering.html#power-iteration-clustering-pic
  11. ^ https://cran.r-project.org/web/packages/kernlab
  12. ^ Filippone М., Camastra Ф., Masulli Ф., Rovetta, S. (январь 2008). «Обзор ядерных и спектральных методов кластеризации». Распознавание образов . 41 (1): 176–190. Bibcode : 2008PatRe..41..176F . DOI : 10.1016 / j.patcog.2007.05.018 .CS1 maint: несколько имен: список авторов ( ссылка ) CS1 maint: дата и год ( ссылка )
  13. ^ Диллон, IS и Гуань Ю. и Кулис, B. (2004). «Ядро K -средние: спектральная кластеризация и нормированные порезы». Материалы десятой международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . С. 551–556.CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Диллон, Индерджит; Юйцян Гуань; Брайан Кулис (ноябрь 2007 г.). «Взвешенные сокращения графа без собственных векторов: многоуровневый подход». IEEE Transactions по анализу шаблонов и машинному анализу . 29 (11): 1944–1957. CiteSeerX  10.1.1.131.2635 . DOI : 10.1109 / tpami.2007.1115 . PMID  17848776 . S2CID  9402790 .
  15. ^ Шуберт, Эрих; Гесс, Сибилла; Морик, Катарина (2018). Связь DBSCAN с матричной факторизацией и спектральной кластеризацией (PDF) . LWDA. С. 330–334.
  16. ^ Каннан, Рави; Вемпала, Сантош; Ветта, Адриан (2004). «О кластеризациях: хорошее, плохое и призрачное». Журнал ACM . 51 (3): 497–515. DOI : 10.1145 / 990308.990313 . S2CID  207558562 .
  17. ^ Boutsidis, Christos (2015). «Спектральная кластеризация с помощью доказуемого метода мощности» (PDF) . Международная конференция по машинному обучению .
  18. ^ Fowlkes, C (2004). «Спектральная группировка по методу Нистрома» . IEEE Transactions по анализу шаблонов и машинному анализу . 26 (2): 214–25. DOI : 10.1109 / TPAMI.2004.1262185 . PMID  15376896 . S2CID  2384316 .
  19. С. Ван, А. Гиттенс и М. В. Махони (2019). "Масштабируемая кластеризация K-средних средств ядра с приближением Нистрома: границы относительной ошибки". Журнал исследований в области машинного обучения . 20 : 1–49. arXiv : 1706.02803 .CS1 maint: несколько имен: список авторов ( ссылка )
  20. ^ Чигер, Джефф (1969). «Нижняя оценка наименьшего собственного значения лапласиана». Материалы Принстонской конференции в честь профессора С. Бохнера .
  21. ^ Уильям Донат и Алан Хоффман (1972). «Алгоритмы разбиения графов и компьютерной логики на основе собственных векторов матриц связей». Бюллетень технического раскрытия информации IBM .
  22. ^ Фидлер, Мирослав (1973). «Алгебраическая связность графов» . Чехословацкий математический журнал . 23 (2): 298–305. DOI : 10.21136 / CMJ.1973.101168 .
  23. ^ Стивен Гваттери и Гэри Л. Миллер (1995). «О производительности методов разбиения спектральных графов». Ежегодный симпозиум ACM-SIAM по дискретным алгоритмам .
  24. Дэниел А. Спилман и Шан-Хуа Тенг (1996). «Работы по разделению спектра: планарные графы и сетки конечных элементов». Ежегодный симпозиум IEEE по основам компьютерных наук .
  25. ^ a b Ng, Эндрю Y и Джордан, Майкл I и Вайс, Яир (2002). «О спектральной кластеризации: анализ и алгоритм» (PDF) . Достижения в системах обработки нейронной информации .CS1 maint: несколько имен: список авторов ( ссылка )
  26. ^ DeMarzo, PM; Vayanos, D .; Цвибель, Дж. (1 августа 2003 г.). «Предубеждение убеждения, социальное влияние и одномерные мнения» . Ежеквартальный журнал экономики . Издательство Оксфордского университета (ОУП). 118 (3): 909–968. DOI : 10.1162 / 00335530360698469 . ISSN  0033-5533 .
  27. ^ Голуб, Вениамин; Джексон, Мэтью О. (26.07.2012). «Как гомофилия влияет на скорость обучения и динамику наилучшего отклика». Ежеквартальный журнал экономики . Издательство Оксфордского университета (ОУП). 127 (3): 1287–1338. DOI : 10.1093 / qje / qjs021 . ISSN  0033-5533 .