Стабильность (теория обучения) - Stability (learning theory)

Стабильность , также известная как алгоритмическая стабильность , - это понятие в теории вычислительного обучения, касающееся того, как алгоритм машинного обучения нарушается небольшими изменениями его входных данных. Стабильный алгоритм обучения - это алгоритм, для которого прогноз не сильно меняется при незначительном изменении обучающих данных. Например, рассмотрим алгоритм машинного обучения, который обучается распознавать рукописные буквы алфавита, используя 1000 примеров рукописных букв и их меток (от «A» до «Z») в качестве обучающего набора. Один из способов изменить этот обучающий набор - исключить пример, чтобы было доступно только 999 примеров рукописных букв и их меток. Стабильный алгоритм обучения будет производить аналогичный классификатор с обучающими наборами из 1000 и 999 элементов.

Стабильность может быть изучена для многих типов учебных задач, от изучения языка до обратных задач в физике и инженерии, поскольку это свойство процесса обучения, а не тип изучаемой информации. Изучение устойчивости приобрело значение в теории вычислительного обучения в 2000-х годах, когда было показано, что оно связано с обобщением . Было показано, что для больших классов алгоритмов обучения, особенно для алгоритмов минимизации эмпирических рисков , определенные типы устойчивости обеспечивают хорошее обобщение.

История

Основная цель при разработке системы машинного обучения - гарантировать, что алгоритм обучения будет обобщать или точно работать на новых примерах после обучения на конечном их числе. В 1990-е годы были достигнуты вехи в получении оценок обобщения для алгоритмов обучения с учителем . Техника, исторически использовавшаяся для доказательства обобщения, заключалась в том, чтобы показать, что алгоритм был непротиворечивым , с использованием свойств равномерной сходимости эмпирических величин к их средним значениям. Этот метод был использован для получения оценок обобщения для большого класса алгоритмов минимизации эмпирического риска (ERM). Алгоритм ERM - это алгоритм, который выбирает решение из пространства гипотез таким образом, чтобы минимизировать эмпирическую ошибку на обучающем наборе . $H$ $S$

Общий результат, доказанный Владимиром Вапником для алгоритмов бинарной классификации ERM, заключается в том, что для любой целевой функции и входного распределения, любого пространства гипотез с VC-размерностью и обучающих примеров алгоритм согласован и будет давать ошибку обучения, равную большая часть (плюс логарифмические коэффициенты) от истинной ошибки. Позже результат был распространен на почти ERM-алгоритмы с функциональными классами, не имеющими уникальных минимизаторов. $H$ $d$ $n$ $O\left({\sqrt {\frac {d}{n}}}\right)$

В работе Вапника, используя то, что стало известно как теория ВК , была установлена связь между обобщением алгоритма обучения и свойствами пространства гипотез изучаемых функций. Однако эти результаты не могут быть применены к алгоритмам с пространствами гипотез неограниченной VC-размерности. Другими словами, эти результаты нельзя было применить, когда изучаемая информация имела сложность, слишком большую для измерения. Некоторые из простейших алгоритмов машинного обучения - например, для регрессии - имеют пространства гипотез с неограниченной VC-размерностью. Другой пример - алгоритмы изучения языка, которые могут создавать предложения произвольной длины. $H$

Анализ устойчивости был разработан в 2000-х годах для теории вычислительного обучения и является альтернативным методом получения оценок обобщения. Стабильность алгоритма - это свойство процесса обучения, а не прямое свойство пространства гипотез , и ее можно оценить в алгоритмах, которые имеют пространства гипотез с неограниченной или неопределенной VC-размерностью, например, ближайшего соседа. Стабильный алгоритм обучения - это алгоритм, для которого изученная функция не сильно меняется при незначительном изменении обучающей выборки, например, при отсутствии примера. Мера « Оставить одну ошибку» используется в алгоритме перекрестной проверки «Оставить одну без учета» (CVloo) для оценки устойчивости алгоритма обучения по отношению к функции потерь. Таким образом, анализ стабильности - это приложение анализа чувствительности к машинному обучению. $H$

Резюме классических результатов

Начало 1900-х - Стабильность в теории обучения впервые была описана в терминах непрерывности карты обучения , восходящей к Андрею Николаевичу Тихонову . $L$
1979 - Деврой и Вагнер заметили, что поведение алгоритма с исключением одного элемента связано с его чувствительностью к небольшим изменениям в выборке.
1999 - Кернс и Рон обнаружили связь между конечной размерностью ВК и стабильностью.
2002 - В знаменательной статье Буске и Элиссефф предложили понятие устойчивости единой гипотезы алгоритма обучения и показали, что оно подразумевает низкую ошибку обобщения. Однако единообразная стабильность гипотез является сильным условием, которое не применяется к большим классам алгоритмов, включая алгоритмы ERM с пространством гипотез только из двух функций.
2002 - Кутин и Нийоги расширили результаты Буске и Элиссеффа, предоставив оценки обобщения для нескольких более слабых форм устойчивости, которые они назвали стабильностью почти всюду . Кроме того, они сделали первый шаг в установлении взаимосвязи между стабильностью и согласованностью в алгоритмах ERM в настройке «Вероятно, приблизительно правильно» (PAC).
2004 - Поджио и др. доказали общую взаимосвязь между стабильностью и согласованностью ERM. Они предложили статистическую форму устойчивости по принципу исключения одного исключения, которую они назвали стабильностью CVEEEloo , и показали, что она а) достаточна для обобщения в классах с ограниченными потерями и б) необходима и достаточна для согласованности (и, следовательно, обобщения) алгоритмов ERM. для некоторых функций потерь, таких как квадратные потери, абсолютное значение и потери двоичной классификации.
2010 - Шалев Шварц и др. заметил проблемы с исходными результатами Vapnik из-за сложных отношений между пространством гипотез и классом потерь. Они обсуждают понятия стабильности, которые охватывают разные классы потерь и разные типы обучения, контролируемого и неконтролируемого.

Предварительные определения

Мы определяем несколько терминов, связанных с обучающими наборами алгоритмов, чтобы затем мы могли определить стабильность различными способами и представить теоремы с мест.

Алгоритм машинного обучения, также известный как обучающая карта , отображает набор обучающих данных, который представляет собой набор помеченных примеров , на функцию от до , где и находятся в том же пространстве обучающих примеров. Функции выбираются из пространства гипотез вызываемых функций . $L$ $(x,y)$ $f$ $X$ $Y$ $X$ $Y$ $f$ $H$

Обучающая совокупность, на которой обучается алгоритм, определяется как

$S=\{z_{1}=(x_{1},\ y_{1})\ ,..,\ z_{m}=(x_{m},\ y_{m})\}$

и имеет размер в $m$ $Z=X\times Y$

взят iid из неизвестного дистрибутива D.

Таким образом, обучающая карта определяется как отображение из в , отображение обучающего набора на функцию из в . Здесь мы рассматриваем только детерминированные алгоритмы, которые симметричны относительно , т.е. не зависят от порядка элементов в обучающей выборке. Кроме того, мы предполагаем, что все функции измеримы и все множества счетны. $L$ $Z_{m}$ $H$ $S$ $f_{S}$ $X$ $Y$ $L$ $S$

Утрата гипотезы относительно примера определяется как . $V$ $f$ $z=(x,y)$ $V(f,z)=V(f(x),y)$

Эмпирическая ошибка составляет . $f$ $I_{S}[f]={\frac {1}{n}}\sum V(f,z_{i})$

Истинная ошибка IS $f$ $I[f]=\mathbb {E} _{z}V(f,z)$

Для обучающего набора S размера m мы построим для всех i = 1 ...., m модифицированные обучающие наборы следующим образом:

Удалив i-й элемент

$S^{|i}=\{z_{1},...,\ z_{i-1},\ z_{i+1},...,\ z_{m}\}$

Заменив i-й элемент

$S^{i}=\{z_{1},...,\ z_{i-1},\ z_{i}',\ z_{i+1},...,\ z_{m}\}$

Определения стабильности

Стабильность гипотез

Алгоритм имеет гипотезу устойчивости β относительно функции потерь V, если выполняется следующее: $L$

$\forall i\in \{1,...,m\},\mathbb {E} _{S,z}[|V(f_{S},z)-V(f_{S^{|i}},z)|]\leq \beta .$

Точечная гипотеза устойчивости

Алгоритм имеет точечную устойчивость гипотез β относительно функции потерь V, если выполняется следующее: $L$

$\forall i\in \ \{1,...,m\},\mathbb {E} _{S}[|V(f_{S},z_{i})-V(f_{S^{|i}},z_{i})|]\leq \beta .$

Устойчивость к ошибкам

Алгоритм имеет устойчивость к ошибкам β относительно функции потерь V, если выполняется следующее: $L$

$\forall S\in Z^{m},\forall i\in \{1,...,m\},|\mathbb {E} _{z}[V(f_{S},z)]-\mathbb {E} _{z}[V(f_{S^{|i}},z)]|\leq \beta$

Равномерная стабильность

Алгоритм имеет равномерную устойчивость β относительно функции потерь V, если выполняется следующее: $L$

$\forall S\in Z^{m},\forall i\in \{1,...,m\},\sup _{z\in Z}|V(f_{S},z)-V(f_{S^{|i}},z)|\leq \beta$

Вероятностный вариант равномерной устойчивости β:

$\forall S\in Z^{m},\forall i\in \{1,...,m\},\mathbb {P} _{S}\{\sup _{z\in Z}|V(f_{S},z)-V(f_{S^{|i}},z)|\leq \beta \}\geq 1-\delta$

Алгоритм называется устойчивым , если значение уменьшается как . $\beta$ $O({\frac {1}{m}})$

Перекрестная проверка без исключения (CVloo) Стабильность

Алгоритм имеет CVloo-устойчивость β относительно функции потерь V, если выполняется следующее: $L$

$\forall i\in \{1,...,m\},\mathbb {P} _{S}\{|V(f_{S},z_{i})-V(f_{S^{|i}},z_{i})|\leq \beta _{CV}\}\geq 1-\delta _{CV}$

Определение (CVloo) устойчивости эквивалентно устойчивости поточечной гипотезы, рассмотренной ранее.

Ожидаемая ошибка исключения ( ) Стабильность $Eloo_{err}$

Алгоритм имеет устойчивость, если для каждого n существуют такие и такие, что: $L$ $Eloo_{err}$ $\beta _{EL}^{m}$ $\delta _{EL}^{m}$

$\forall i\in \{1,...,m\},\mathbb {P} _{S}\{|I[f_{S}]-{\frac {1}{m}}\sum _{i=1}^{m}V(f_{S^{|i}},z_{i})|\leq \beta _{EL}^{m}\}\geq 1-\delta _{EL}^{m}$ , с и стремясь к нулю для $\beta _{EL}^{m}$ $\delta _{EL}^{m}$ $m,\rightarrow \infty$

Классические теоремы

От Буске и Элиссефф (02) :

Для симметричных алгоритмов обучения с ограниченными потерями, если алгоритм имеет равномерную стабильность с вероятностным определением, приведенным выше, алгоритм обобщается.

Равномерная стабильность - это строгое условие, которое соблюдается не всеми алгоритмами, но, что удивительно, соблюдается большим и важным классом алгоритмов регуляризации. Оценка обобщения дается в статье.

Из Mukherjee et al. (06) :

Для алгоритмов симметричного обучения с ограниченными потерями, если алгоритм имеет как стабильность при перекрестной проверке с исключением одного исключения (CVloo), так и стабильность с ожидаемым исключением одного исключения ( ), как определено выше, то алгоритм обобщается. $Eloo_{err}$
Для обобщения недостаточно ни одного из условий. Однако оба вместе обеспечивают обобщение (в то время как обратное неверно).
В частности, для алгоритмов ERM (скажем, для квадратичных потерь), перекрестная проверка без исключения (CVloo) стабильность необходима и достаточна для согласованности и обобщения.

Это важный результат для основ теории обучения, поскольку он показывает, что два ранее не связанных свойства алгоритма, стабильность и согласованность, эквивалентны для ERM (и некоторых функций потерь). В статье дается оценка обобщения.

Стабильные алгоритмы

Это список алгоритмов, которые показали свою стабильность, и статья, в которой приведены соответствующие границы обобщения.

Линейная регрессия
Классификатор k-NN с функцией потерь {0-1}.
Классификация опорных векторов (SVM) с ограниченным ядром и где регуляризатор является нормой в гильбертовом пространстве воспроизводящего ядра. Большая константа регуляризации приводит к хорошей стабильности. $C$
Классификация Soft margin SVM.
Регрессионная регрессия методом наименьших квадратов.
Алгоритм минимальной относительной энтропии для классификации.
Вариант пакетных регуляризаторов с увеличением количества регрессоров с . $k$ $n$
Мультиклассовая классификация SVM.
Все алгоритмы обучения с регуляризацией Тихонова удовлетворяют критериям равномерной устойчивости и, таким образом, являются обобщаемыми.

использованная литература

дальнейшее чтение

Кутин С., Нийоги П. Практически везде алгоритмическая устойчивость и ошибка обобщения. В Proc. от UAI 18, 2002 г.
С. Рахлин, С. Мукерджи и Т. Поджио. Стабильность приводит к теории обучения. Анализ и приложения, 3 (4): 397–419, 2005.
В. Н. Вапник. Природа статистической теории обучения. Спрингер, 1995 г.
Вапник В. Статистическая теория обучения. Уайли, Нью-Йорк, 1998 г.
Поджио, Т., Рифкин, Р., Мукерджи, С. и Нийоги, П., "Теория обучения: общие условия предсказуемости", Nature, Vol. 428, 419-422, 2004 г.
Андре Элиссефф, Теодорос Евгениу, Массимилиано Понтил, Стабильность алгоритмов рандомизированного обучения, Журнал исследований машинного обучения 6, 55–79, 2010 г.
Элиссефф, А. Понтил, М., Ошибка исключения одного и того же и стабильность алгоритмов обучения с приложениями, NATO SCIENCE SERIES SUB SERIES III COMPUTER AND SYSTEMS SCIENCES, 2003, VOL 190, страницы 111-130
Шалев Шварц, С., Шамир, О., Сребро, Н., Шридхаран, К., Обучаемость, стабильность и равномерная конвергенция, Журнал исследований в области машинного обучения, 11 (октябрь): 2635-2670, 2010 г.

Languages

In other projects

Стабильность (теория обучения) - Stability (learning theory)

СОДЕРЖАНИЕ

История

Резюме классических результатов

Предварительные определения