Ошибка обобщения - Generalization error

Для поднадзорного обучения приложений в машинном обучении и статистической теории обучения , ошибках обобщения (также известная как вне образца ошибки или риска ) является мерой того , насколько точно алгоритм способен предсказать значение результата для невиданных данных. Поскольку алгоритмы обучения оцениваются на конечных выборках, оценка алгоритма обучения может быть чувствительной к ошибке выборки . В результате измерения ошибки прогнозирования для текущих данных могут не предоставить много информации о способности прогнозирования для новых данных. Ошибка обобщения может быть минимизирована, если не допустить переобучения алгоритма обучения. Эффективность алгоритма машинного обучения визуализируется графиками, которые показывают значения оценок ошибки обобщения в процессе обучения, которые называются кривыми обучения .

Определение

В задаче обучения цель состоит в том, чтобы разработать функцию, которая предсказывает выходные значения для каждого входного элемента данных . Нижний индекс указывает, что функция разработана на основе набора данных точек данных. Ошибка обобщения или ожидаемые потери или риска , в той или иной функции по всем возможным значениям и является:

где обозначает функцию потерь, а - неизвестное совместное распределение вероятностей для и .

Невозможно вычислить, не зная совместного распределения вероятностей . Вместо этого мы можем вычислить ошибку на выборочных данных, которая называется эмпирической ошибкой (или эмпирическим риском ). При заданных точках данных эмпирическая ошибка функции-кандидата составляет:

Алгоритм называется обобщающим, если:

Особое значение имеет ошибка обобщения функции , зависящей от данных, которая обнаруживается алгоритмом обучения на основе выборки. Опять же, для неизвестного распределения вероятностей вычислить невозможно. Вместо этого цель многих задач в теории статистического обучения состоит в том, чтобы ограничить или охарактеризовать разницу ошибки обобщения и эмпирической ошибки в вероятности:

То есть цель состоит в том, чтобы охарактеризовать вероятность того, что ошибка обобщения меньше эмпирической ошибки плюс некоторая граница ошибки (обычно зависит от и ). Для многих типов алгоритмов было показано, что алгоритм имеет границы обобщения, если он удовлетворяет определенным критериям устойчивости . В частности, если алгоритм является симметричным (порядок входных данных не влияет на результат), имеет ограниченные потери и удовлетворяет двум условиям устойчивости, он будет обобщен. Первое условие стабильности, стабильность перекрестной проверки с исключением одного исключения , гласит, что для обеспечения стабильности ошибка прогнозирования для каждой точки данных, когда используется перекрестная проверка с исключением одного, должна сходиться к нулю как . Второе условие, устойчивость ожидаемой к исключению единичной ошибки (также известная как стабильность гипотез при работе в норме ), выполняется, если прогноз для оставленной точки данных не изменяется, когда одна точка данных удаляется из набор обучающих данных.

Эти условия можно формализовать как:

Стабильность перекрестной проверки без исключения

Алгоритм имеет стабильность, если для каждого из них существует и такое, что:

и и перейти к нулю, стремится к бесконечности.

Ожидаемая ошибка с отсутствием единичной ошибки Стабильность

Алгоритм имеет стабильность , если для каждого существует и такая , что:

с и стремится к нулю для .

Для устойчивости в норме с исключением одного-одного это то же самое, что и для устойчивости гипотезы:

с переходом к нулю, как и к бесконечности.

Алгоритмы с доказанной стабильностью

Доказано, что ряд алгоритмов стабильны и, как следствие, имеют ограничения на ошибку обобщения. Список этих алгоритмов и документов, доказавших стабильность, доступен здесь .

Отношение к переобучению

Этот рисунок иллюстрирует взаимосвязь между переобучением и ошибкой обобщения I [ f n ] - I S [ f n ]. Точки данных были сгенерированы из отношения y = x с добавлением белого шума к значениям y . В левом столбце набор тренировочных точек показан синим цветом. Полиномиальная функция седьмого порядка соответствовала обучающим данным. В правом столбце функция тестируется на данных, взятых из базового совместного распределения вероятностей x и y . В верхнем ряду функция соответствует образцу набора данных из 10 точек. В нижнем ряду функция соответствует набору данных из 100 точек. Как мы видим, для малых размеров выборки и сложных функций ошибка обучающего набора мала, но ошибка основного распределения данных велика, и мы переобучили данные. В результате ошибка обобщения велика. По мере увеличения количества точек выборки ошибка прогнозирования обучающих и тестовых данных сходится, а ошибка обобщения становится равной 0.

Понятия ошибки обобщения и переобучения тесно связаны. Переобучение происходит, когда изученная функция становится чувствительной к шуму в сэмпле. В результате функция будет хорошо работать на обучающем наборе, но не будет хорошо работать на других данных из совместного распределения вероятностей и . Таким образом, чем больше происходит переоснащение, тем больше ошибка обобщения.

Величину переобучения можно проверить с помощью методов перекрестной проверки , которые разбивают выборку на моделируемые обучающие выборки и тестовые выборки. Затем модель обучается на обучающей выборке и оценивается на тестовой выборке. Тестовая выборка ранее невидима для алгоритма и поэтому представляет собой случайную выборку из совместного распределения вероятностей и . Этот тестовый образец позволяет нам приблизить ожидаемую ошибку и, как результат, приблизить конкретную форму ошибки обобщения.

Существует множество алгоритмов предотвращения переобучения. Алгоритм минимизации может наказывать более сложные функции (известный как регуляризация Тихонова ), или пространство гипотез может быть ограничено либо явно в форме функций, либо путем добавления ограничений к функции минимизации (регуляризация Иванова).

Подход к поиску функции, которая не переоснащается, противоречит цели поиска функции, которая достаточно сложна, чтобы уловить конкретные характеристики данных. Это известно как компромисс между смещением и дисперсией . Сохранение простой функции во избежание переобучения может привести к смещению в результирующих прогнозах, в то время как допустимость усложнения функции приведет к переобучению и более высокой дисперсии прогнозов. Невозможно свести к минимуму и то, и другое одновременно.

Рекомендации

дальнейшее чтение