t-распределенное стохастическое вложение соседей - t-distributed stochastic neighbor embedding

t-распределенное стохастическое встраивание соседей ( t-SNE ) - это статистический метод для визуализации данных большой размерности путем присвоения каждой точке данных местоположения на двух- или трехмерной карте. Он основан на стохастическом соседнем встраивании, первоначально разработанном Сэмом Роуисом и Джеффри Хинтоном , где Лоренс ван дер Маатен предложил вариант с t- распределением . Это метод нелинейного уменьшения размерности , хорошо подходящий для встраивания данных большой размерности для визуализации в двух- или трехмерном пространстве низкой размерности. В частности, он моделирует каждый многомерный объект двух- или трехмерной точкой таким образом, что аналогичные объекты моделируются ближайшими точками, а разнородные объекты моделируются удаленными точками с высокой вероятностью.

Алгоритм t-SNE состоит из двух основных этапов. Во-первых, t-SNE строит распределение вероятностей по парам объектов большой размерности таким образом, что сходным объектам назначается более высокая вероятность, а разным точкам - более низкая вероятность. Во-вторых, t-SNE определяет аналогичное распределение вероятностей по точкам на карте малой размерности и минимизирует расхождение Кульбака – Лейблера (расхождение KL) между двумя распределениями относительно расположения точек на карте. Хотя исходный алгоритм использует евклидово расстояние между объектами в качестве основы для метрики подобия, его можно при необходимости изменить.

t-SNE использовался для визуализации в широком спектре приложений, включая геномику , исследования компьютерной безопасности , обработку естественного языка, анализ музыки , исследования рака , биоинформатику , интерпретацию геологической области и обработку биомедицинских сигналов.

В то время как графики t-SNE часто кажутся отображающими кластеры , на визуальные кластеры может сильно влиять выбранная параметризация, и поэтому необходимо хорошее понимание параметров для t-SNE. Такие «кластеры» могут появляться даже в некластеризованных данных и, следовательно, могут быть ложными выводами. Таким образом, для выбора параметров и проверки результатов может потребоваться интерактивное исследование. Было продемонстрировано, что t-SNE часто может восстанавливать хорошо разделенные кластеры и при специальном выборе параметров приближается к простой форме спектральной кластеризации .

Подробности

Учитывая набор многомерных объектов , t-SNE сначала вычисляет вероятности , которые пропорциональны сходству объектов и , как показано ниже.

Для определения

и поставил . Обратите внимание, что для всех .

Как объяснили Ван дер Маатен и Хинтон: «Сходство точки данных с точкой данных является условной вероятностью, которая будет выбрана в качестве своего соседа, если соседи будут выбраны пропорционально их плотности вероятности при гауссовском центре с центром в ».

Теперь определим

и заметим , что , и .

Пропускная способность гауссовского зерна , устанавливаются таким образом, чтобы недоумения условного распределения равно предопределенное недоумение , используя метод половинного деления . В результате полоса пропускания адаптируется к плотности данных: меньшие значения используются в более плотных частях пространства данных.

Поскольку ядро ​​Гаусса использует евклидово расстояние , на него влияет проклятие размерности , и в данных большой размерности, когда расстояния теряют способность различать, они становятся слишком похожими (асимптотически они сходятся к константе). Было предложено регулировать расстояния с помощью степенного преобразования на основе внутреннего размера каждой точки, чтобы облегчить это.

t-SNE стремится изучить -мерную карту (с ), которая максимально хорошо отражает сходство . С этой целью он измеряет сходство между двумя точками на карте и , используя очень похожий подход. В частности, для определим как

и поставил . Здесь t-распределение Стьюдента с тяжелым хвостом (с одной степенью свободы, которое совпадает с распределением Коши ) используется для измерения сходства между точками низкой размерности, чтобы позволить разнородным объектам моделироваться далеко друг от друга на карте. .

Расположение точек на карте определяется путем минимизации (несимметричного) расхождения Кульбака – Лейблера распределения от распределения , то есть:

Минимизация расходимости Кульбака – Лейблера по точкам выполняется с помощью градиентного спуска . Результатом этой оптимизации является карта, которая отражает сходство между многомерными входными данными.

Программное обеспечение

  • В R пакет Rtsne реализует т-SnE в R .
  • ELKI содержит tSNE, также с приближением Барнса-Хата
  • Scikit-learn , популярный набор инструментов для машинного обучения на Python, реализует t-SNE как с точными решениями, так и с приближением Барнса-Хата.
  • Tensorboard, набор для визуализации, связанный с TensorFlow , также реализует t-SNE ( онлайн-версия )

использованная литература

внешние ссылки