Регуляризация спектральной фильтрацией - Regularization by spectral filtering

Спектральная регуляризация - это любой из классов методов регуляризации , используемых в машинном обучении для управления воздействием шума и предотвращения переобучения . Спектральная регуляризация может использоваться в широком спектре приложений, от устранения размытости изображений до классификации электронных писем в папку для спама и папку без спама. Например, в примере классификации электронной почты спектральная регуляризация может использоваться для уменьшения воздействия шума и предотвращения переобучения, когда система машинного обучения обучается на помеченном наборе электронных писем, чтобы научиться распознавать спам и не спам. отдельно.

Алгоритмы спектральной регуляризации основаны на методах, которые были первоначально определены и изучены в теории некорректных обратных задач (например, см.), Фокусируясь на обращении линейного оператора (или матрицы), который, возможно, имеет плохое число обусловленности или неограниченный обратный. В этом контексте регуляризация сводится к замене исходного оператора ограниченным оператором, называемым «оператором регуляризации», у которого есть число обусловленности, управляемое параметром регуляризации, классическим примером является регуляризация Тихонова . Для обеспечения стабильности этот параметр регуляризации настраивается в зависимости от уровня шума. Основная идея спектральной регуляризации заключается в том, что каждый оператор регуляризации может быть описан с использованием спектрального исчисления в качестве подходящего фильтра по собственным значениям оператора, который определяет проблему, и роль фильтра заключается в «подавлении колебательного поведения, соответствующего небольшим собственным значениям». . Следовательно, каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтрации (которая должна быть получена для этого конкретного алгоритма). Три наиболее часто используемых алгоритма регуляризации, для которых спектральная фильтрация хорошо изучена, - это регуляризация Тихонова, итерация Ландвебера и разложение по усеченным сингулярным числам (TSVD). Что касается выбора параметра регуляризации, примеры возможных методов вычисления этого параметра включают принцип несоответствия, обобщенную перекрестную проверку и критерий L-кривой.

Следует отметить, что понятие спектральной фильтрации, изучаемое в контексте машинного обучения, тесно связано с литературой по аппроксимации функций (при обработке сигналов).

Обозначение

Обучающий набор определяется как , где - входная матрица, а - выходной вектор. Там, где это применимо, функция ядра обозначается символом , а матрица ядра обозначается с помощью которого имеет элементы и обозначает гильбертово пространство воспроизводящего ядра (RKHS) с ядром . Параметр регуляризации обозначается как .

(Примечание: для и , с и, являющимися гильбертовыми пространствами, для данного линейного непрерывного оператора , предположим, что это верно. В этом случае прямая проблема будет заключаться в решении для данного, а обратная задача - в решении для данного . Если решение существует, единственна и устойчива, обратная задача (то есть проблема решения для ) корректна; в противном случае она некорректна.)

Отношение к теории некорректных обратных задач

Связь между задачей оценивания регуляризованных наименьших квадратов (RLS) (установка регуляризации Тихонова) и теорией некорректных обратных задач является примером того, как алгоритмы спектральной регуляризации связаны с теорией некорректных обратных задач.

Оценщик RLS решает

и RKHS позволяет выразить эту оценку RLS как где с . Термин пенализации используется для контроля плавности и предотвращения переобучения. Поскольку решение минимизации эмпирического риска может быть записано так , что добавление штрафной функции приводит к следующему изменению в системе, которое необходимо решить:

В этой настройке обучения матрица ядра может быть разложена как , с

и - соответствующие собственные векторы. Таким образом, в начальной настройке обучения выполняется следующее:

Таким образом, для небольших собственных значений даже небольшие возмущения в данных могут привести к значительным изменениям в решении. Следовательно, проблема плохо обусловлена, и решение этой проблемы RLS сводится к стабилизации, возможно, плохо обусловленной задачи обращения матрицы, которая изучается в теории некорректно поставленных обратных задач; в обеих задачах основная задача состоит в том, чтобы решить проблему численной устойчивости.

Реализация алгоритмов

Каждый алгоритм в классе алгоритмов спектральной регуляризации определяется подходящей функцией фильтрации, обозначенной здесь как . Если матрица ядра обозначена как , то она должна контролировать величину меньших собственных значений . В настройке фильтрации цель состоит в том, чтобы найти оценщики, где . Для этого определяется скалярная фильтрующая функция с использованием собственного разложения матрицы ядра:

что дает

Как правило, соответствующая функция фильтра должна иметь следующие свойства:

1. Как стремится к нулю, .

2. Величина (меньших) собственных значений контролируется .

Хотя приведенные выше пункты дают приблизительную характеристику общих свойств функций фильтрации для всех алгоритмов спектральной регуляризации, вывод функции фильтра (и, следовательно, ее точная форма) варьируется в зависимости от конкретного метода регуляризации, к которому применяется спектральная фильтрация.

Функция фильтра для регуляризации Тихонова

В настройке регуляризации Тихонова функция фильтрации для RLS описана ниже. Как показано на, в этой настройке . Таким образом,

Нежелательные компоненты отфильтровываются с помощью регуляризации:

  • Если , то .
  • Если , то .

Таким образом, функция фильтра для регуляризации Тихонова определяется как:

Функция фильтра для итерации Ландвебера

Идея итерации Ландвебера заключается в градиентном спуске :

В этой настройке, если она больше, чем наибольшее собственное значение, указанная выше итерация сходится, выбирая в качестве размера шага :. Вышеупомянутая итерация эквивалентна минимизации (т.е. эмпирического риска) с помощью градиентного спуска; с помощью индукции можно доказать, что на -й итерации решение имеет вид

Таким образом, соответствующая функция фильтра определяется следующим образом:

Можно показать, что эта функция фильтра соответствует усеченному разложению по мощности ; чтобы увидеть это, обратите внимание, что отношение будет сохраняться, если его заменить матрицей; таким образом, если (матрица ядра) или, вернее , рассматривается, выполняется следующее:

В этой настройке количество итераций дает параметр регуляризации; грубо говоря, . Если он большой, может возникнуть проблема переобучения. Если она небольшая, может возникнуть проблема сглаживания. Таким образом, выбор подходящего времени для ранней остановки итераций обеспечивает эффект регуляризации.

Функция фильтра для ЦВД

В настройке TSVD, учитывая собственное разложение и используя заданный порог , регуляризованная инверсия может быть сформирована для матрицы ядра путем отбрасывания всех собственных значений, которые меньше этого порога. Таким образом, функцию фильтра для TSVD можно определить как

Можно показать, что TSVD эквивалентен (неконтролируемой) проекции данных с использованием (ядра) анализа главных компонентов (PCA), и что он также эквивалентен минимизации эмпирического риска для прогнозируемых данных (без регуляризации). Обратите внимание, что количество компонентов, сохраняемых для проекции, является единственным свободным параметром здесь.

Ссылки