Компромисс смещения и дисперсии - Bias–variance tradeoff

Функциональные и зашумленные данные.
спред = 5
спред = 1
спред = 0,1
Функция (красный) аппроксимируется с использованием радиальных базисных функций (синий). На каждом графике показано несколько испытаний. Для каждого испытания несколько точек данных с зашумлением предоставляются в качестве обучающего набора (вверху). Для широкого разброса (изображение 2) смещение велико: RBF не могут полностью аппроксимировать функцию (особенно центральный провал), но разница между различными испытаниями мала. По мере уменьшения разброса (изображения 3 и 4) смещение уменьшается: синие кривые более точно соответствуют красному. Однако в зависимости от шума в разных испытаниях разница между испытаниями увеличивается. На самом нижнем изображении приближенные значения для x = 0 сильно различаются в зависимости от того, где были расположены точки данных.
Смещение и дисперсия в зависимости от сложности модели

В статистике и машинном обучении компромисс между смещением и дисперсией является тем свойством модели, что дисперсия параметра, оцененного по выборкам, может быть уменьшена путем увеличения смещения в оцененных параметрах . Смещения Вариативности дилеммы или проблема смещения Вариативности является конфликтом в попытке одновременно минимизировать эти два источника ошибки , мешающее наблюдение обучения алгоритмов обобщающих за их обучающий набор :

  • Смещения ошибка ошибка от ошибочных предположений в учебном алгоритме . Сильное смещение может привести к тому, что алгоритм упустит релевантные отношения между функциями и целевыми выходными данными (недостаточная подгонка).
  • Дисперсия является ошибкой от чувствительности к малым колебаниям в обучающем наборе. Высокая дисперсия может быть результатом алгоритма, моделирующего случайный шум в обучающих данных ( переобучение ).

Разложение диагонально-дисперсия является способ анализа учебного алгоритма ожидаемой ошибки обобщения относительно конкретной задачи в виде суммы трех слагаемых, смещения, дисперсии и величины называется неприводимым ошибки , в результате чего из -за шума в самой задачи.

Мотивация

Компромисс между смещением и дисперсией - центральная проблема в обучении с учителем. В идеале нужно выбрать модель, которая не только точно фиксирует закономерности обучающих данных, но и хорошо обобщается на невидимые данные. К сожалению, сделать и то и другое одновременно невозможно. Методы обучения с высокой дисперсией могут хорошо представлять свой обучающий набор, но при этом существует риск переобучения зашумленным или нерепрезентативным обучающим данным. Напротив, алгоритмы с высоким смещением обычно создают более простые модели, которые могут не улавливать важные закономерности (т. Е. Не соответствовать) в данных.

Часто ошибочно полагают, что сложные модели должны иметь высокую дисперсию; Модели с высокой дисперсией в некотором смысле «сложны», но обратное не обязательно. Кроме того, нужно быть осторожным при определении сложности: в частности, количество параметров, используемых для описания модели, является плохим показателем сложности. Это проиллюстрировано примером, адаптированным из: Модель имеет только два параметра ( ), но она может интерполировать любое количество точек, колеблясь с достаточно высокой частотой, что приводит как к высокому смещению, так и к большой дисперсии.

Интуитивно понятно, что смещение уменьшается за счет использования только локальной информации, тогда как дисперсию можно уменьшить только путем усреднения по нескольким наблюдениям, что по сути означает использование информации из более крупного региона. Поучительный пример см. В разделе о k-ближайших соседях или на рисунке справа. Чтобы сбалансировать, сколько информации используется из соседних наблюдений, модель может быть сглажена с помощью явной регуляризации , такой как усадка .

Разложение среднеквадратичной ошибки по смещению – дисперсии

Предположим, что у нас есть обучающий набор, состоящий из набора точек и реальных значений, связанных с каждой точкой . Мы предполагаем, что существует функция с шумом , в которой шум имеет нулевое среднее значение и дисперсию .

Мы хотим найти функцию , которая как можно лучше аппроксимирует истинную функцию , с помощью некоторого алгоритма обучения, основанного на обучающем наборе данных (выборке) . Мы делаем «насколько это возможно» точным, измеряя среднеквадратичную ошибку между и : мы хотим быть минимальными как для, так и для точек за пределами нашей выборки . Конечно, мы не можем надеяться сделать это идеально, поскольку они содержат шум ; это означает, что мы должны быть готовы допустить непоправимую ошибку в любой придуманной нами функции.

Нахождение обобщающего на точки за пределами обучающего набора может быть выполнено с помощью любого из бесчисленных алгоритмов, используемых для обучения с учителем. Оказывается, какую бы функцию мы ни выбрали, мы можем разложить ее ожидаемую ошибку на невидимую выборку следующим образом:

куда

а также

Ожидаемые значения варьируются в зависимости от выбора обучающего набора , все они взяты из одного и того же совместного распределения . Три термина представляют:

  • квадрат смещения метода обучения, который можно рассматривать как ошибку, вызванную упрощающими допущениями, встроенными в метод. Например, при приближении нелинейной функции с использованием метода обучения для линейных моделей будет ошибка в оценках из-за этого предположения;
  • дисперсия методы обучения, или, интуитивно, насколько метод обучения будет двигаться вокруг его среднего;
  • неприводимая ошибка .

Поскольку все три члена неотрицательны, неприводимая ошибка образует нижнюю границу ожидаемой ошибки для невидимых выборок.

Чем сложнее модель , тем больше точек данных она захватит и тем меньше будет смещение. Однако сложность заставит модель «двигаться» больше для захвата точек данных, и, следовательно, ее дисперсия будет больше.

Вывод

Вывод разложения смещения – дисперсии для квадрата ошибки происходит следующим образом. Для удобства записи, мы сокращаем , и мы опускаем индекс наших операторов математического ожидания. Во-первых, напомним, что по определению для любой случайной величины мы имеем

Переставляя, получаем:

Так как это детерминированным , т.е. не зависит от ,

Таким образом, учитывая и (поскольку это шум), следует

Кроме того, поскольку

Таким образом, поскольку и независимы, мы можем написать

Наконец, функция потерь MSE (или отрицательная логарифм правдоподобия) получается путем взятия математического ожидания над :

Подходы

Уменьшение размерности и выбор функций могут уменьшить дисперсию за счет упрощения моделей. Точно так же более крупный обучающий набор имеет тенденцию уменьшать дисперсию. Добавление функций (предикторов) имеет тенденцию уменьшать смещение за счет введения дополнительной дисперсии. Алгоритмы обучения обычно имеют некоторые настраиваемые параметры, которые контролируют смещение и дисперсию; Например,

Один из способов решения этой проблемы - использовать смешанные модели и ансамблевое обучение . Например, бустинг объединяет множество «слабых» (с высоким смещением) моделей в ансамбль, который имеет меньшее смещение, чем отдельные модели, в то время как бугинг объединяет «сильных» учеников таким образом, чтобы уменьшить их дисперсию.

Методы проверки модели, такие как перекрестная проверка (статистика), могут использоваться для настройки моделей с целью оптимизации компромисса.

k -ближайшие соседи

В случае регрессии k- ближайших соседей , когда ожидание берется из возможной маркировки фиксированного обучающего набора, существует выражение в замкнутой форме, которое связывает разложение смещения-дисперсии с параметром k :

где являются к ближайшим соседям й в обучающем наборе. Смещение (первый член) является монотонно возрастающей функцией k , в то время как дисперсия (второй член) спадает при увеличении k . Фактически, при «разумных предположениях» смещение оценки первого ближайшего соседа (1-NN) полностью исчезает, когда размер обучающей выборки приближается к бесконечности.

Приложения

В регрессе

Декомпозиция смещения – дисперсии формирует концептуальную основу для методов регуляризации регрессии, таких как лассо и гребневая регрессия . Методы регуляризации вносят систематическую ошибку в регрессионное решение, которое может значительно уменьшить дисперсию по сравнению с обычным методом наименьших квадратов (МНК) . Хотя решение OLS обеспечивает непредвзятые оценки регрессии, решения с более низкой дисперсией, полученные с помощью методов регуляризации, обеспечивают превосходную производительность MSE.

В классификации

Разложение смещения – дисперсии было первоначально сформулировано для регрессии методом наименьших квадратов. Для случая классификации по убыткам 0-1 (коэффициент ошибочной классификации) можно найти аналогичное разложение. В качестве альтернативы, если проблема классификации может быть сформулирована как вероятностная классификация , то ожидаемая квадратичная ошибка предсказанных вероятностей относительно истинных вероятностей может быть разложена, как и раньше.

В обучении с подкреплением

Несмотря на то, что декомпозиция смещения и дисперсии не применяется напрямую в обучении с подкреплением , подобный компромисс также может характеризовать обобщение. Когда агент имеет ограниченную информацию о своей среде, субоптимальность алгоритма RL может быть разложена на сумму двух членов: члена, связанного с асимптотическим смещением, и члена, связанного с переобучением. Асимптотическое смещение напрямую связано с алгоритмом обучения (независимо от количества данных), в то время как условие переобучения происходит из-за того, что количество данных ограничено.

В человеческом обучении

Хотя эта дилемма широко обсуждалась в контексте машинного обучения, она была изучена в контексте человеческого познания , в первую очередь Гердом Гигеренцером и его коллегами в контексте усвоенной эвристики. Они утверждали (см. Ссылки ниже), что человеческий мозг решает дилемму в случае обычно редких, плохо описанных обучающих наборов, предоставляемых опытом, путем принятия эвристики с высоким смещением / низкой дисперсией. Это отражает тот факт, что подход с нулевым смещением плохо переносится на новые ситуации, а также необоснованно предполагает точное знание истинного состояния мира. Результирующие эвристики относительно просты, но дают лучшие выводы в более широком спектре ситуаций.

Geman et al. утверждают, что дилемма смещения-дисперсии подразумевает, что такие способности, как универсальное распознавание объектов, не могут быть изучены с нуля, но требуют определенной степени «жесткой связи», которая позже настраивается на опыте. Это связано с тем, что безмодельные подходы к выводу требуют непрактично больших обучающих наборов, если они хотят избежать высокой дисперсии.

Смотрите также

использованная литература