Функции потерь для классификации - Loss functions for classification

Функции согласованных потерь по Байесу: потеря ноль-единица (серый), дикая потеря (зеленый), логистическая потеря (оранжевый), экспоненциальная потеря (фиолетовый), касательная потеря (коричневый), квадратная потеря (синий)

В машинном обучении и математической оптимизации , потеря функции для классификации являются вычислительно осуществимые функции потерь , представляющие цену , уплаченную за неточность прогнозов в задачах классификации (проблемы определения , к какой категории конкретное наблюдение принадлежит). Учитывая пространство всех возможных входов (обычно ) и набор меток (возможных выходов), типичная цель алгоритмов классификации состоит в том, чтобы найти функцию, которая наилучшим образом предсказывает метку для данного входа . Однако из-за неполной информации, шума в измерениях или вероятностных компонентов в базовом процессе одно и то же может генерировать разные . В результате цель проблемы обучения - минимизировать ожидаемые потери (также известные как риск), определяемые как

где - заданная функция потерь, а - функция плотности вероятности процесса, который сгенерировал данные, что эквивалентно может быть записано как

В рамках классификации несколько часто используемых функций потерь записываются исключительно в терминах произведения истинной метки и предсказанной метки . Следовательно, они могут быть определены как функции только одной переменной , так что с подходящим образом выбранной функцией . Они называются функциями потерь на основе маржи . Выбор функции потерь на основе маржи равносилен выбору . Выбор функции потерь в рамках этой структуры влияет на оптимум, который минимизирует ожидаемый риск.

В случае бинарной классификации можно упростить расчет ожидаемого риска на основе указанного выше интеграла. Конкретно,

Второе равенство следует из описанных выше свойств. Третье равенство следует из того факта, что 1 и −1 - единственные возможные значения для , а четвертое - потому что . Термин в скобках называется условным риском.

Можно найти минимизатор для , взяв функциональную производную последнего равенства по и установив производную равной 0. Это приведет к следующему уравнению

что также эквивалентно установке производной условного риска равной нулю.

Учитывая бинарный характер классификации, естественным отбором для функции потерь (при условии равной стоимости ложных срабатываний и ложных отрицаний ) будет функция потерь 0-1 ( индикаторная функция 0–1 ), которая принимает значение 0, если прогнозируемая классификация равна истинному классу или 1, если прогнозируемая классификация не соответствует истинному классу. Этот выбор смоделирован

где указывает ступенчатую функцию Хевисайда . Однако эта функция потерь невыпуклая и негладкая, и решение оптимального решения представляет собой NP-трудную задачу комбинаторной оптимизации. В результате лучше заменить суррогаты функции потерь, которые поддаются обработке для часто используемых алгоритмов обучения, поскольку они имеют удобные свойства, такие как выпуклость и гладкость. В дополнение к их вычислительной управляемости, можно показать, что решения проблемы обучения с использованием этих суррогатов потерь позволяют восстановить фактическое решение исходной проблемы классификации. Некоторые из этих суррогатов описаны ниже.

На практике распределение вероятностей неизвестно. Следовательно, использование обучающего набора независимо и одинаково распределенных точек выборки

взятые из выборки данных , стремятся минимизировать эмпирический риск

как показатель ожидаемого риска. (См. Более подробное описание в теории статистического обучения .)

Последовательность Байеса

Используя теорему Байеса , можно показать, что оптимальный , т. Е. Тот, который сводит к минимуму ожидаемый риск, связанный с потерей нуля или единицы, реализует правило оптимального решения Байеса для задачи двоичной классификации и имеет форму

.

Функция потерь называется калиброванной по классификации или согласованной по Байесу, если ее оптимальность такова, что она является оптимальной в соответствии с правилом принятия решения Байеса. Байесовская согласованная функция потерь позволяет нам найти байесовскую функцию оптимального решения , напрямую минимизируя ожидаемый риск и без необходимости явно моделировать функции плотности вероятности.

Для выпуклой потери маржи можно показать, что байесовская непротиворечивость тогда и только тогда, когда она дифференцируема в 0 и . Тем не менее, этот результат не исключает существования невыпуклых байесовских согласованных функций потерь. Более общий результат утверждает, что байесовские согласованные функции потерь могут быть сгенерированы с использованием следующей формулировки

,

где - любая обратимая функция такая, что и - любая дифференцируемая строго вогнутая функция такая, что . Таблица-I показывает сгенерированные байесовские согласованные функции потерь для некоторых примеров выбора и . Обратите внимание, что потери Savage и Tangent не являются выпуклыми. Было показано, что такие невыпуклые функции потерь полезны при работе с выбросами при классификации. Для всех функций потерь, полученных из (2), апостериорная вероятность может быть найдена с помощью функции обратимой связи как . Такие функции потерь, в которых апостериорная вероятность может быть восстановлена ​​с помощью обратимого звена, называются собственными функциями потерь .

Таблица-I
Имя потери
Экспоненциальный
Логистика
Квадратный
дикий
Касательная


Единственный минимизатор ожидаемого риска, связанный с сгенерированными выше функциями потерь, может быть непосредственно найден из уравнения (1) и показан как равный соответствующему . Это справедливо даже для невыпуклых функций потерь, что означает, что алгоритмы на основе градиентного спуска, такие как повышение градиента, могут использоваться для построения минимизатора.

Правильные функции потерь, маржа потерь и регуляризация

(Красный) стандартные логистические потери ( ) и (Синий) увеличенная маржа Логистические потери ( ).

Для правильных функций потерь запас потерь можно определить как и показать, что он напрямую связан со свойствами регуляризации классификатора. В частности, функция потерь с большим запасом увеличивает регуляризацию и дает лучшие оценки апостериорной вероятности. Например, маржа потерь может быть увеличена для логистических потерь путем введения параметра и записи логистических потерь в виде, где меньше увеличивает маржу потерь. Показано, что это прямо эквивалентно уменьшению скорости обучения при повышении градиента, где уменьшение улучшает регуляризацию усиленного классификатора. Теория проясняет, что, когда используется скорость обучения , правильная формула для получения апостериорной вероятности теперь .

В заключение, выбирая функцию потерь с большим запасом (меньшим ), мы увеличиваем регуляризацию и улучшаем наши оценки апостериорной вероятности, что, в свою очередь, улучшает кривую ROC окончательного классификатора.

Квадратная потеря

Хотя функция квадратичных потерь чаще используется в регрессии, ее можно переписать как функцию и использовать для классификации. Его можно сгенерировать с помощью (2) и Таблицы-I следующим образом.

Квадратная функция потерь бывает выпуклой и гладкой. Однако функция квадратичных потерь имеет тенденцию чрезмерно наказывать выбросы, что приводит к более медленным скоростям сходимости (в отношении сложности выборки), чем для функций логистических потерь или потерь на шарнирах. Кроме того, функции, которые дают высокие значения для некоторых, будут плохо работать с функцией квадратичных потерь, поскольку высокие значения будут строго наказываться, независимо от того, совпадают ли знаки и .

Преимущество функции квадратичных потерь состоит в том, что ее структура позволяет легко перекрестную проверку параметров регуляризации. В частности, для регуляризации Тихонова можно найти параметр регуляризации с помощью перекрестной проверки с исключением по одному за то же время, что и для решения одной задачи.

Минимизатор квадратичной функции потерь можно найти непосредственно из уравнения (1) как

Логистическая потеря

Функция логистических потерь может быть сгенерирована с использованием (2) и Таблицы-I следующим образом.

Логистические потери являются выпуклыми и линейно растут для отрицательных значений, что делает их менее чувствительными к выбросам. Логистическая потеря используется в алгоритме LogitBoost .

Минимизатор для функции логистических потерь может быть непосредственно найден из уравнения (1) как

Эта функция не определена, когда или (стремится к ∞ и −∞ соответственно), но предсказывает плавную кривую, которая растет при увеличении и равна 0, когда .

Легко проверить, что логистические потери и двоичные кросс-энтропийные потери (логарифмические потери) на самом деле одинаковы (с точностью до константы мультипликатора ). Потеря кросс-энтропии тесно связана с расхождением Кульбака – Лейблера между эмпирическим распределением и предсказанным распределением. Потеря кросс-энтропии широко распространена в современных глубоких нейронных сетях .

Экспоненциальный убыток

Экспоненциальная функция потерь может быть сгенерирована с использованием (2) и Таблицы-I следующим образом.

Экспоненциальные потери являются выпуклыми и экспоненциально растут для отрицательных значений, что делает их более чувствительными к выбросам. В алгоритме AdaBoost используется экспоненциальная потеря .

Минимизатор для экспоненциальной функции потерь может быть непосредственно найден из уравнения (1) как

Дикая потеря

Потери Savage могут быть сгенерированы с использованием (2) и Таблицы-I следующим образом

Потери по Сэвиджу квазивыпуклые и ограничены для больших отрицательных значений, что делает их менее чувствительными к выбросам. Потери Savage использовались в повышении градиента и алгоритме SavageBoost.

Минимизатор для функции потерь Сэвиджа может быть непосредственно найден из уравнения (1) как

Касательная потеря

Касательные потери могут быть сгенерированы с использованием (2) и Таблицы-I следующим образом.

Потери касательной квазивыпуклые и ограничены для больших отрицательных значений, что делает их менее чувствительными к выбросам. Интересно, что потеря касательной также назначает ограниченный штраф для точек данных, которые были классифицированы «слишком правильно». Это может помочь предотвратить перетренированность набора данных. Потеря касательной использовалась в повышении градиента , алгоритме TangentBoost и чередующихся лесах решений.

Минимизатор для функции потерь по касательной можно найти непосредственно из уравнения (1) как

Потеря шарнира

Функция потерь шарнира определяется как , где - функция положительной части .

Потеря на шарнире обеспечивает относительно жесткую, выпуклую верхнюю границу индикаторной функции 0–1 . В частности, потеря на шарнире равна индикаторной функции 0–1, когда и . Кроме того, минимизация эмпирического риска этих потерь эквивалентна классической формулировке для машин опорных векторов (SVM). Правильно классифицированные точки, лежащие за границами границ опорных векторов, не штрафуются, тогда как точки в пределах границ границ или на неправильной стороне гиперплоскости штрафуются линейно по сравнению с их расстоянием от правильной границы.

Хотя функция потерь шарнира является выпуклой и непрерывной, она не является гладкой (не дифференцируемой) в точке . Следовательно, функция потерь шарнира не может использоваться с методами градиентного спуска или методами стохастического градиентного спуска, которые полагаются на дифференцируемость по всей области. Однако потеря на шарнире имеет субградиент при , что позволяет использовать методы субградиентного спуска . SVM, использующие функцию потерь в шарнире, также могут быть решены с помощью квадратичного программирования .

Минимизатор для функции потерь шарнира равен

when , что соответствует функции индикатора 0–1. Этот вывод делает потерю петли весьма привлекательной, поскольку можно установить границы разницы между ожидаемым риском и знаком функции потерь петли. Потери на шарнире не могут быть выведены из (2), так как они не обратимы.

Обобщенная потеря плавности шарнира

Обобщенная функция потерь гладкого шарнира с параметром определяется как

где

Он монотонно увеличивается и достигает 0, когда .

Смотрите также

Рекомендации