Тихоновская регуляризация - Tikhonov regularization

Тихонов регуляризация , названный в честь Андрея Тихонова , является метод регуляризации в некорректных задач . Также известная как гребневая регрессия , она особенно полезна для смягчения проблемы мультиколлинеарности в линейной регрессии , которая обычно возникает в моделях с большим количеством параметров. В общем, этот метод обеспечивает повышенную эффективность в задачах оценки параметров в обмен на допустимую величину смещения (см. Компромисс смещения и дисперсии ).

В простейшем случае проблема матрицы моментов, близких к сингулярным , облегчается добавлением положительных элементов к диагоналям , тем самым уменьшая ее число обусловленности . По аналогии с обычной оценкой методом наименьших квадратов , простая оценка гребня в этом случае имеет вид

где - регрессион , - матрица плана , - единичная матрица , а параметр гребня служит константой, смещающей диагонали матрицы моментов. Можно показать, что эта оценка является решением задачи наименьших квадратов с учетом ограничения , которое может быть выражено в виде лагранжиана:

что показывает, что это не что иное, как множитель Лагранжа ограничения. В случае , когда ограничение не является обязательным , оценка гребня сводится к обычным методам наименьших квадратов . Более общий подход к регуляризации Тихонова обсуждается ниже.

История

Тихоновская регуляризация была изобретена независимо во многих различных контекстах. Он стал широко известен благодаря его применению к интегральным уравнениям из работ Андрея Тихонова и Дэвида Л. Филлипса. Некоторые авторы используют термин регуляризация Тихонова – Филлипса . Конечномерный случай был изложен Артуром Э. Хорлом , который использовал статистический подход, и Манусом Фостером, который интерпретировал этот метод как фильтр Винера – Колмогорова (Кригинга) . Вслед за Хёрлом в статистической литературе она известна как гребневая регрессия.

Тихоновская регуляризация

Предположим, что для известной матрицы и вектора мы хотим найти такой вектор , что

Стандартный подход - это обычная линейная регрессия методом наименьших квадратов . Однако, если ни один из них не удовлетворяет уравнению или удовлетворяет более одного - то есть решение не единственное, - проблема считается некорректной . В таких случаях обычная оценка методом наименьших квадратов приводит к переопределенной или, чаще, недоопределенной системе уравнений. Большинство реальных явлений имеют эффект фильтров нижних частот в прямом направлении , в котором сопоставляется с . Следовательно, при решении обратной задачи обратное отображение работает как фильтр верхних частот, который имеет нежелательную тенденцию к усилению шума ( собственные значения / сингулярные значения являются наибольшими при обратном отображении, где они были наименьшими при прямом отображении). Кроме того, обычный метод наименьших квадратов неявно обнуляет каждый элемент реконструированной версии, который находится в нулевом пространстве , вместо того, чтобы позволить использовать модель в качестве априорной для . Обычный метод наименьших квадратов стремится минимизировать сумму квадратов остатков , которую можно компактно записать как

где - евклидова норма .

Чтобы отдать предпочтение конкретному решению с желаемыми свойствами, в эту минимизацию можно включить член регуляризации:

для некоторой правильно подобранной матрицы Тихонова . Во многих случаях эта матрица выбирается как кратная единичной матрице ( ), отдавая предпочтение решениям с меньшими нормами ; это известно как регуляризация L 2 . В других случаях могут использоваться высокочастотные операторы (например, оператор разности или взвешенный оператор Фурье ) для обеспечения гладкости, если основной вектор считается в основном непрерывным. Эта регуляризация улучшает условия задачи, что позволяет получить прямое численное решение. Явное решение, обозначенное как , дается формулой

Эффект регуляризации может варьироваться в зависимости от масштаба матрицы . Для этого сводится к решению нерегуляризованное наименьших квадратов, при условии , что (А Т А) -1 существует.

Регуляризация L 2 используется во многих контекстах, помимо линейной регрессии, таких как классификация с логистической регрессией или вспомогательные векторные машины , а также матричная факторизация.

Обобщенная тихоновская регуляризация

Для общих многомерных нормальных распределений для и ошибки данных можно применить преобразование переменных, чтобы свести их к описанному выше случаю. Точно так же можно стремиться минимизировать

где мы привыкли обозначать квадрат взвешенной нормы (сравните с расстоянием Махаланобиса ). В байесовской интерпретации является обратной матрицей ковариаций из , представляет собой ожидаемое значение из , и является обратной ковариационной матрицей . Затем матрица Тихонова задается как факторизация матрицы (например, факторизация Холецкого ) и считается отбеливающим фильтром .

Эта обобщенная задача имеет оптимальное решение, которое можно явно записать по формуле

или эквивалентно

Лаврентьевская регуляризация

В некоторых ситуациях можно избежать использования транспонирования , предложенного Михаилом Лаврентьевым . Например, if является симметричным положительно определенным, т. Е. То же самое и обратным ему , которое, таким образом, может использоваться для установки квадрата взвешенной нормы в обобщенной регуляризации Тихонова, что приводит к минимизации

или, что то же самое, с точностью до постоянного члена,

.

Эта задача минимизации имеет оптимальное решение, которое можно явно записать по формуле

,

что есть не что иное, как решение обобщенной проблемы Тихонова, где

Регуляризация Лаврентьева, если применима, выгодна исходной регуляризации Тихонова, поскольку матрица Лаврентьева может быть лучше обусловлена, т. Е. Иметь меньшее число обусловленности , по сравнению с матрицей Тихонова

Регуляризация в гильбертовом пространстве

Обычно дискретные линейные плохо обусловленные задачи возникают в результате дискретизации интегральных уравнений , и можно сформулировать регуляризацию Тихонова в исходном бесконечномерном контексте. Вышесказанное мы можем интерпретировать как компактный оператор в гильбертовых пространствах , и как элементы в области определения и области значений . Тогда оператор является самосопряженным ограниченным обратимым оператором.

Связь с сингулярным разложением и фильтром Винера

При этом решение методом наименьших квадратов может быть проанализировано особым образом с использованием разложения по сингулярным числам . Учитывая разложение по сингулярным числам

с сингулярными значениями регуляризованное решение Тихонова может быть выражено как

где имеет диагональные значения

и равен нулю в других местах. Это демонстрирует влияние параметра Тихонова на число обусловленности регуляризованной задачи. Для обобщенного случая аналогичное представление может быть получено с помощью обобщенного разложения по сингулярным числам .

Наконец, это связано с фильтром Винера :

где веса Винера и является ранг из .

Определение фактора Тихонова

Оптимальный параметр регуляризации обычно неизвестен и часто в практических задачах определяется специальным методом. Возможный подход основан на байесовской интерпретации, описанной ниже. Другие подходы включают принцип несоответствия , перекрестную проверку , метод L-кривой , ограничение максимального правдоподобия и непредвзятую прогнозную оценку риска . Грейс Вахба доказала, что оптимальный параметр в смысле перекрестной проверки без исключения минимизирует

где - остаточная сумма квадратов , - эффективное число степеней свободы .

Используя предыдущую декомпозицию SVD, мы можем упростить приведенное выше выражение:

а также

Отношение к вероятностной формулировке

Вероятностная формулировка обратной задачи вводит (когда все неопределенности являются гауссовыми) ковариационная матрица, представляющая априорные неопределенности для параметров модели, и ковариационную матрицу, представляющую неопределенности для наблюдаемых параметров. В частном случае, когда эти две матрицы являются диагональными и изотропными, и , и, в этом случае, уравнения обратной теории сводятся к уравнениям выше, с .

Байесовская интерпретация

Хотя поначалу выбор решения этой регуляризованной проблемы может показаться искусственным, да и сама матрица кажется довольно произвольной, этот процесс может быть оправдан с байесовской точки зрения . Обратите внимание, что для некорректно поставленной задачи необходимо обязательно ввести некоторые дополнительные предположения, чтобы получить единственное решение. Статистически априорное распределение вероятностей иногда считается многомерным нормальным распределением . Для простоты здесь сделаны следующие предположения: средние значения равны нулю; их компоненты независимы; компоненты имеют одинаковое стандартное отклонение . Данные также подвержены ошибкам, и ошибки также считаются независимыми с нулевым средним и стандартным отклонением . При этих предположениях регуляризованное по Тихонову решение является наиболее вероятным решением с учетом данных и априорного распределения согласно теореме Байеса .

Если предположение о нормальности заменено предположениями о гомоскедастичности и некоррелированности ошибок , и если все еще предполагается нулевое среднее, то теорема Гаусса – Маркова влечет за собой, что решение является минимальной несмещенной линейной оценкой .

Смотрите также

Примечания

использованная литература

дальнейшее чтение