Регуляризация (математика) - Regularization (mathematics)

И зеленая, и синяя функции несут нулевые потери в заданных точках данных. Выученную модель можно склонить к предпочтению функции зеленого, которая может лучше обобщаться на большее количество точек, извлеченных из основного неизвестного распределения, путем корректировки веса члена регуляризации.

В математике , статистике , финансах , информатике , особенно в машинном обучении и обратных задачах , регуляризация - это процесс добавления информации для решения некорректно поставленной задачи или предотвращения переобучения .

Регуляризация может применяться к целевым функциям в некорректных задачах оптимизации. Член регуляризации, или штраф, накладывает затраты на функцию оптимизации, чтобы сделать оптимальное решение уникальным.

Независимо от проблемы или модели всегда есть термин данных, который соответствует вероятности измерения, и член регуляризации, который соответствует априорному. Объединив их с использованием байесовской статистики, можно вычислить апостериорную оценку, которая включает оба источника информации и, следовательно, стабилизирует процесс оценки. Комментируя обе цели, можно сделать выбор в пользу большей зависимости от данных или принудительного обобщения (для предотвращения переобучения). Есть целая исследовательская ветка, занимающаяся всевозможными регуляризациями. Рабочий процесс обычно состоит в том, что каждый пытается выполнить конкретную регуляризацию, а затем вычисляет плотность вероятности, которая соответствует этой регуляризации, чтобы оправдать выбор. Это также может быть физически мотивировано здравым смыслом или интуицией, что сложнее.

В машинном обучении термин данных соответствует обучающим данным, а регуляризация - это либо выбор модели, либо модификации алгоритма. Он всегда предназначен для уменьшения ошибки обобщения, т. Е. Оценки ошибки с обученной моделью на оценочном наборе, а не с данными обучения.

Одно из первых применений регуляризации связано с методом наименьших квадратов. Вычисленная плотность вероятности - это гауссово распределение, которое теперь известно под названием «регуляризация Тихонова».


Классификация

Эмпирическое изучение классификаторов (из конечного набора данных) всегда является недооцененной проблемой, потому что оно пытается вывести функцию любых заданных только примеров .

Член регуляризации (или регуляризатор) добавляется к функции потерь :

где - лежащая в основе функция потерь, которая описывает стоимость прогнозирования того, когда метка , например, потери площади или потери на шарнире ; и является параметром, который контролирует важность члена регуляризации. обычно выбирается, чтобы наложить штраф на сложность . Используемые конкретные понятия сложности включают ограничения на гладкость и границы нормы векторного пространства .

Теоретическим обоснованием регуляризации является то, что она пытается наложить на раствор бритву Оккама (как показано на рисунке выше, где более простая функция зеленого цвета может быть предпочтительнее). С байесовской точки зрения многие методы регуляризации соответствуют наложению определенных априорных распределений на параметры модели.

Регуляризация может служить нескольким целям, включая изучение более простых моделей, уменьшение количества моделей и введение групповой структуры в проблему обучения.

Та же идея возникла во многих областях науки . Простая форма регуляризации, применяемая к интегральным уравнениям ( регуляризация Тихонова ), по сути, представляет собой компромисс между подгонкой данных и уменьшением нормы решения. В последнее время стали популярными методы нелинейной регуляризации, включая регуляризацию полной вариации .

Обобщение

Регуляризацию можно использовать как метод улучшения обобщения усвоенной модели.

Цель этой задачи обучения - найти функцию, которая соответствует или предсказывает результат (метку), которая минимизирует ожидаемую ошибку по всем возможным входам и меткам. Ожидаемая ошибка функции :

где и - области входных данных и их метки соответственно.

Обычно в задачах обучения доступна только часть входных данных и меток, измеренных с некоторым шумом. Следовательно, ожидаемая ошибка неизмерима, и лучший доступный суррогат - это эмпирическая ошибка по доступным выборкам:

Без ограничений на сложность доступного функционального пространства (формально, гильбертова пространства воспроизводящего ядра ) будет изучена модель, которая несет нулевые потери на суррогатную эмпирическую ошибку. Если измерения (например, ) были выполнены с шумом, эта модель может страдать от переобучения и отображать плохую ожидаемую ошибку. Регуляризация вводит штраф за исследование определенных областей функционального пространства, используемого для построения модели, что может улучшить обобщение.

Тихоновская регуляризация

Эти методы названы в честь Андрея Николаевича Тихонова , который применил регуляризацию к интегральным уравнениям и внес важный вклад во многие другие области.

При изучении линейной функции , характеризующейся неизвестном вектором таким образом, что можно добавить -норм вектора к выражению потери для того , предпочитать решения с меньшими нормами. Тихоновская регуляризация - одна из самых распространенных форм. Это также известно как регресс гребня. Это выражается как:

,

где будет представлять образцы, используемые для обучения.

В случае общей функции норма функции в ее воспроизводящем ядре гильбертовом пространстве равна:

Поскольку норма дифференцируема , обучение можно продвигать путем градиентного спуска .

Регуляризованные по Тихонову наименьшие квадраты

Задачу обучения с функцией потерь по методу наименьших квадратов и регуляризацией Тихонова можно решить аналитически. Записанный в матричной форме, оптимальным считается тот, для которого градиент функции потерь по отношению к равен 0.

   ( условие первого порядка )

При построении задачи оптимизации другие значения дают большие значения для функции потерь. В этом можно убедиться, исследуя вторую производную .

Во время обучения этот алгоритм требует времени . Члены соответствуют обращению матрицы и вычислению соответственно. Тестирование требует времени.

Ранняя остановка

Раннюю остановку можно рассматривать как упорядочение во времени. Интуитивно понятно, что процедура обучения, такая как градиентный спуск, имеет тенденцию изучать все более и более сложные функции с увеличением количества итераций. Регуляризация по времени позволяет контролировать сложность модели, улучшая обобщение.

Ранняя остановка реализуется с использованием одного набора данных для обучения, одного статистически независимого набора данных для проверки и другого для тестирования. Модель обучается до тех пор, пока производительность на проверочном наборе не перестанет улучшаться, а затем применяется к набору тестов.

Теоретическая мотивация методом наименьших квадратов

Рассмотрим конечную аппроксимацию ряда Неймана для обратимой матрицы A, где :

Это можно использовать для аппроксимации аналитического решения нерегуляризованных наименьших квадратов, если ввести γ, чтобы гарантировать, что норма меньше единицы.

Точное решение нерегулярной задачи обучения методом наименьших квадратов сводит к минимуму эмпирическую ошибку, но может потерпеть неудачу. Ограничивая T , единственный свободный параметр в приведенном выше алгоритме, проблема регулируется по времени, что может улучшить ее обобщение.

Вышеупомянутый алгоритм эквивалентен ограничению количества итераций градиентного спуска для эмпирического риска

с обновлением градиентного спуска:

Базовый случай тривиален. Индуктивный случай доказывается следующим образом:

Регуляризаторы для разреженности

Предположим, что словарь с размерностью задан таким образом, что функция в функциональном пространстве может быть выражена как:

Сравнение шара L1 и шара L2 в двух измерениях дает интуитивное представление о том, как регуляризация L1 обеспечивает разреженность.

Применение ограничения разреженности может привести к более простым и интерпретируемым моделям. Это полезно во многих реальных приложениях, таких как вычислительная биология . Примером может служить разработка простого прогностического теста на заболевание, чтобы свести к минимуму затраты на выполнение медицинских тестов при максимальной прогностической способности.

Разумное ограничение разреженности - это норма , определяемая как количество ненулевых элементов в . Однако решение регуляризованной проблемы обучения оказалось NP-трудным .

Норма (смотрите также Нормы ) может быть использована для аппроксимации оптимальной нормы с помощью выпуклой релаксации. Можно показать, что норма порождает разреженность. В случае метода наименьших квадратов эта проблема известна как LASSO в статистике и поиск базиса в обработке сигналов.

Упругая сетевая регуляризация

регуляризация может иногда приводить к неуникальным решениям. На рисунке представлен простой пример, когда пространство возможных решений лежит на линии под углом 45 градусов. Это может быть проблематичным для определенных приложений и преодолеваться путем комбинирования с регуляризацией в эластичной сетевой регуляризации , которая принимает следующую форму:

Упругая чистая регуляризация имеет тенденцию иметь эффект группировки, когда коррелированным входным характеристикам присваиваются равные веса.

Упругая сетевая регуляризация широко используется на практике и реализована во многих библиотеках машинного обучения.

Проксимальные методы

В то время как норма не приводит к NP-трудной проблеме, норма выпуклая, но не является строго дифференцируемой из-за перегиба при x = 0. Субградиентные методы, которые полагаются на субпроизводную, могут использоваться для решения регуляризованных задач обучения. Однако более быстрая сходимость может быть достигнута проксимальными методами.

Для такой задачи , которая является выпуклой, непрерывной, дифференцируемой, с непрерывным липшицевым градиентом (например, функцией потерь по методу наименьших квадратов), а также выпуклой, непрерывной и правильной, тогда ближайший метод решения проблемы выглядит следующим образом. Сначала определим проксимальный оператор

а затем повторить

Проксимальный метод итеративно выполняет градиентный спуск, а затем проецирует результат обратно в пространство, разрешенное .

Когда - регуляризатор, проксимальный оператор эквивалентен оператору мягкой пороговой обработки,

Это позволяет проводить эффективные вычисления.

Групповая разреженность без перекрытий

Группы функций можно упорядочить с помощью ограничения разреженности, которое может быть полезно для выражения определенных предварительных знаний в задаче оптимизации.

В случае линейной модели с неперекрывающимися известными группами можно определить регуляризатор:

где

Это можно рассматривать как введение регуляризатора по норме по членам каждой группы, за которой следует норма по группам.

Это может быть решено с помощью проксимального метода, где проксимальный оператор представляет собой блочную функцию мягкой пороговой обработки:

Групповая разреженность с перекрытиями

Алгоритм, описанный для разреженности групп без перекрытий, может быть применен к случаю, когда группы действительно перекрываются, в определенных ситуациях. Это, вероятно, приведет к появлению некоторых групп со всеми нулевыми элементами и других групп с некоторыми ненулевыми и некоторыми нулевыми элементами.

Если желательно сохранить структуру группы, можно определить новый регуляризатор:

Для каждого , определяется как вектор, такой, что ограничение группы равняется, а все остальные элементы равны нулю. Регуляризатор находит оптимальное разделение на части. Его можно рассматривать как дублирование всех элементов, которые существуют в нескольких группах. Проблемы обучения с помощью этого регуляризатора также могут быть решены проксимальным методом с некоторыми осложнениями. Ближайший оператор не может быть вычислен в замкнутой форме, но может быть эффективно решен итеративно, вызывая внутреннюю итерацию в ближайшей итерации метода.

Регуляризаторы для обучения без учителя

Когда сбор меток обходится дороже, чем входные примеры, может быть полезно полу-контролируемое обучение. Регуляризаторы были разработаны, чтобы направлять алгоритмы обучения для изучения моделей, которые учитывают структуру неконтролируемых обучающих выборок. Если дана симметричная весовая матрица , можно определить регуляризатор:

Если кодирует результат некоторой метрики расстояния для точек и , желательно, чтобы . Этот регуляризатор отражает эту интуицию и эквивалентен:

где - матрица Лапласа графа, индуцированного .

Задача оптимизации может быть решена аналитически, если ограничение применяется ко всем контролируемым выборкам. Поэтому отмеченная часть вектора очевидна. Непомеченная часть решается за:

Обратите внимание, что псевдообратное значение может быть взято, поскольку оно имеет тот же диапазон, что и .

Регуляризаторы для многозадачного обучения

В случае многозадачного обучения проблемы рассматриваются одновременно, каждая из которых каким-то образом связана. Цель состоит в том, чтобы изучить функции, в идеале заимствуя силу из взаимосвязи задач, которые обладают предсказательной силой. Это эквивалентно изучению матрицы .

Разреженный регуляризатор по столбцам

Этот регуляризатор определяет норму L2 для каждого столбца и норму L1 для всех столбцов. Ее можно решить проксимальными методами.

Регуляризация ядерной нормы

где это собственные значения в сингулярном разложении в .

Регуляризация с ограничениями по среднему значению

Этот регуляризатор ограничивает функции, изученные для каждой задачи, подобными общему среднему значению функций для всех задач. Это полезно для выражения предыдущей информации, которую каждая задача, как ожидается, поделится с другой задачей. Примером может служить прогнозирование уровня железа в крови, измеренного в разное время дня, где каждая задача представляет собой отдельного человека.

Кластерная регуляризация с ограничениями по среднему значению

где кластер задач.

Этот регуляризатор похож на регуляризатор с ограничениями по среднему, но вместо этого обеспечивает сходство между задачами в одном кластере. Это может захватить более сложную априорную информацию. Этот метод использовался для прогнозирования рекомендаций Netflix . Кластер соответствует группе людей, разделяющих схожие предпочтения.

Сходство на основе графа

В более общем плане, чем указано выше, сходство между задачами может быть определено функцией. Регуляризатор побуждает модель изучать аналогичные функции для аналогичных задач.

для данной симметричной матрицы подобия .

Другие варианты использования регуляризации в статистике и машинном обучении

Байесовские методы обучения используют априорную вероятность, которая (обычно) дает более низкую вероятность более сложным моделям. Хорошо известные методы выбора модели включают информационный критерий Акаике (AIC), минимальную длину описания (MDL) и байесовский информационный критерий (BIC). Альтернативные методы контроля переобучения, не связанные с регуляризацией, включают перекрестную проверку .

Примеры применения различных методов регуляризации к линейной модели :

Модель Подходящая мера Мера энтропии
AIC / BIC
Регрессия хребта
Лассо
Основное стремление к шумоподавлению
Модель Рудина – Ошера – Фатеми (ТВ)
Модель Поттса
RLAD
Селектор Данцига
СКЛОН

Смотрите также

Заметки

Рекомендации