Статистическая теория обучения - Statistical learning theory

Теория статистического обучения - это основа для машинного обучения, основанная на статистике и функциональном анализе . Статистическая теория обучения занимается проблемой поиска прогнозирующей функции на основе данных. Теория статистического обучения привела к успешным приложениям в таких областях, как компьютерное зрение , распознавание речи и биоинформатика .

Вступление

Цели обучения - понимание и предсказание. Обучение падает на множество категорий, в том числе подконтрольного обучения , неконтролируемого обучения , онлайн - обучения и обучения с подкреплением . С точки зрения теории статистического обучения, обучение с учителем понимается лучше всего. Обучение с учителем включает обучение на основе обучающего набора данных. Каждая точка в обучении представляет собой пару ввода-вывода, где ввод отображается на вывод. Проблема обучения состоит в том, чтобы вывести функцию, которая сопоставляет вход и выход, так что изученная функция может использоваться для прогнозирования выхода из будущих входных данных.

В зависимости от типа выходных данных задачи контролируемого обучения являются либо проблемами регрессии, либо проблемами классификации . Если выходные данные имеют непрерывный диапазон значений, это проблема регрессии. Используя в качестве примера закон Ома , можно выполнить регрессию с напряжением на входе и током на выходе. Регрессия обнаружит, что функциональная связь между напряжением и током будет такой, что

Классификационные проблемы - это те, для которых выводом будет элемент из дискретного набора меток. Классификация очень распространена для приложений машинного обучения. В знак признания лица , например, изображение лица человека будет вход, а метка вывода будет имя этого человека. Входные данные будут представлены большим многомерным вектором, элементы которого представляют пиксели изображения.

После изучения функции на основе данных обучающего набора, эта функция проверяется на тестовом наборе данных, данных, которые не появились в обучающем наборе.

Формальное описание

Возьмет быть векторным пространством всех возможных входов, и в векторном пространстве всех возможных выходов. Теория статистического обучения исходит из того, что существует какое-то неизвестное распределение вероятностей в пространстве продукта , т.е. существует какое-то неизвестное . Обучающий набор состоит из выборок из этого распределения вероятностей и обозначен

Every - это входной вектор из обучающих данных и соответствующий ему выход.

В этом формализме проблема вывода состоит в нахождении такой функции , что . Позвольте быть пространство функций, называемое пространством гипотез. Пространство гипотез - это пространство функций, которые алгоритм будет искать. Позвольте быть функцией потерь , метрикой разницы между прогнозируемым значением и фактическим значением . Ожидаемый риск определяется как

Целевая функция, наилучшая возможная функция, которую можно выбрать, задается тем, что удовлетворяет

Поскольку распределение вероятностей неизвестно, необходимо использовать косвенную меру ожидаемого риска. Эта мера основана на обучающем наборе, образце из этого неизвестного распределения вероятностей. Это называется эмпирическим риском.

Алгоритм обучения, который выбирает функцию, которая минимизирует эмпирический риск, называется минимизацией эмпирического риска .

Функции потерь

Выбор функции потерь является определяющим фактором для функции, которая будет выбрана алгоритмом обучения. Функция потерь также влияет на скорость сходимости алгоритма. Важно, чтобы функция потерь была выпуклой.

В зависимости от того, является ли проблема проблемой регрессии или классификации, используются разные функции потерь.

Регресс

Наиболее распространенной функцией потерь для регрессии является функция потерь в квадрате (также известная как L2-норма ). Эта знакомая функция потерь используется в регрессии обыкновенных наименьших квадратов . Форма такая:

Также иногда используется потеря абсолютного значения (также известная как L1-норма ):

Классификация

В некотором смысле индикаторная функция 0-1 является наиболее подходящей функцией естественной убыли для классификации. Он принимает значение 0, если прогнозируемый вывод совпадает с фактическим выводом, и принимает значение 1, если прогнозируемый вывод отличается от фактического вывода. Для бинарной классификации это:

где - ступенчатая функция Хевисайда .

Регуляризация

Это изображение представляет собой пример переобучения в машинном обучении. Красные точки представляют данные обучающего набора. Зеленая линия представляет истинную функциональную взаимосвязь, а синяя линия показывает изученную функцию, которая была переоборудована для данных обучающего набора.

В задачах машинного обучения основная проблема заключается в переобучении . Поскольку обучение - это проблема прогнозирования, цель состоит не в том, чтобы найти функцию, которая наиболее точно соответствует (ранее наблюдаемым) данным, а в том, чтобы найти такую, которая наиболее точно предсказывает выходные данные из будущих входных данных. Минимизация эмпирического риска сопряжена с риском переобучения: нахождения функции, которая точно соответствует данным, но плохо предсказывает будущие результаты.

Переоснащение симптомом нестабильных решений; небольшое возмущение в данных обучающей выборки вызовет большие вариации усвоенной функции. Можно показать, что если устойчивость решения может быть гарантирована, то гарантируются и обобщение, и непротиворечивость. Регуляризация может решить проблему переобучения и придать проблеме стабильность.

Регуляризация может быть достигнута путем ограничения пространства гипотез . Типичный пример - ограничение линейными функциями: это можно рассматривать как сокращение до стандартной проблемы линейной регрессии . также можно ограничить полиномом степени , экспонентой или ограниченными функциями на L1 . Ограничение пространства гипотез позволяет избежать переобучения, поскольку форма потенциальных функций ограничена и, следовательно, не позволяет выбрать функцию, которая дает эмпирический риск, произвольно близкий к нулю.

Одним из примеров регуляризации является регуляризация Тихонова . Это состоит из минимизации

где - фиксированный положительный параметр, параметр регуляризации. Регуляризация Тихонова обеспечивает существование, единственность и устойчивость решения.

Смотрите также

Рекомендации