Потеря петли - Hinge loss

График потери на шарнире (синий, измерено по вертикали) против потери ноль один (измерено по вертикали; неправильная классификация, зеленый: y <0 ) для t = 1 и переменной y (измерено по горизонтали). Обратите внимание, что потеря шарнира ухудшает предсказания y <1 , что соответствует понятию запаса в машине опорных векторов.

В машинном обучении , то потеря Петли является функция потерь используются для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», в первую очередь для машин опорных векторов (SVM).

Для предполагаемого выхода t = ± 1 и оценки классификатора y потеря петли прогноза y определяется как

Обратите внимание, что это должны быть «сырые» выходные данные функции решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM,, где - параметры гиперплоскости, а - входные переменные.

Когда t и y имеют одинаковый знак (это означает, что y предсказывает правильный класс), и потеря петли . Когда они имеют противоположные знаки, линейно увеличивается с y , и аналогичным образом, если , даже если они имеют тот же знак (правильный прогноз, но не с достаточным запасом).

Расширения

Хотя двоичные SVM обычно расширяются до мультиклассовой классификации по принципу « один против всех» или «один против одного», для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов потери петель в нескольких классах. Например, Краммер и Зингер определили его для линейного классификатора как

Где целевая метка, и параметры модели.

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимумом:

В структурированном прогнозировании потери на петлях могут быть расширены до структурированных выходных пространств. Структурированные SVM с изменением масштаба используют следующий вариант, где w обозначает параметры SVM, y прогнозы SVM, φ - функция совместной характеристики и Δ - потери Хэмминга :

Оптимизация

Потеря шарнира - это выпуклая функция , поэтому многие обычные выпуклые оптимизаторы, используемые в машинном обучении, могут работать с ней. Он не дифференцируемый , но имеет субградиент по отношению к параметрам модели w линейной SVM с функцией оценки, которая задается

График трех вариантов потери петли как функции z = ty : «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкий вариант Ренни и Сребро (красный).

Однако, поскольку производная потерь на шарнире при не определена, для оптимизации могут быть предпочтительны сглаженные версии, такие как варианты Ренни и Сребро.

или квадратично сглаженный

предложил Чжан. Модифицированная потеря Huber является частным случаем этой функции потерь с , в частности .

Смотрите также

использованная литература