Потеря петли - Hinge loss

График потери на шарнире (синий, измерено по вертикали) против потери ноль один (измерено по вертикали; неправильная классификация, зеленый:

y <0

) для

t = 1

и переменной

y

(измерено по горизонтали). Обратите внимание, что потеря шарнира ухудшает предсказания

y <1

, что соответствует понятию запаса в машине опорных векторов.

В машинном обучении , то потеря Петли является функция потерь используются для обучения классификаторов . Потери на шарнирах используются для классификации с «максимальным запасом», в первую очередь для машин опорных векторов (SVM).

Для предполагаемого выхода $t = \pm 1$ и оценки классификатора $y$ потеря петли прогноза $y$ определяется как

{\ Displaystyle \ ell (y) = \ макс (0,1-t \ cdot y)}

Обратите внимание, что это должны быть «сырые» выходные данные функции решения классификатора, а не прогнозируемая метка класса. Например, в линейных SVM,, где - параметры гиперплоскости, а - входные переменные. ${\ displaystyle y}$ ${\ displaystyle y = \ mathbf {w} \ cdot \ mathbf {x} + b}$ ${\ Displaystyle (\ mathbf {ш}, б)}$ ${\ displaystyle \ mathbf {x}}$

Когда $t$ и $y$ имеют одинаковый знак (это означает, что $y$ предсказывает правильный класс), и потеря петли . Когда они имеют противоположные знаки, линейно увеличивается с $y$ , и аналогичным образом, если , даже если они имеют тот же знак (правильный прогноз, но не с достаточным запасом). ${\ displaystyle | y | \ geq 1}$ ${\ displaystyle \ ell (y) = 0}$ ${\ displaystyle \ ell (y)}$ ${\ displaystyle | y | <1}$

Расширения

Хотя двоичные SVM обычно расширяются до мультиклассовой классификации по принципу « один против всех» или «один против одного», для этой цели также возможно расширить саму потерю шарнира. Было предложено несколько различных вариантов потери петель в нескольких классах. Например, Краммер и Зингер определили его для линейного классификатора как

{\ displaystyle \ ell (y) = \ max (0,1+ \ max _ {y \ neq t} \ mathbf {w} _ {y} \ mathbf {x} - \ mathbf {w} _ {t} \ mathbf {x})}

Где целевая метка, и параметры модели. ${\ displaystyle t}$ ${\ displaystyle \ mathbf {w} _ {t}}$ ${\ displaystyle \ mathbf {w} _ {y}}$

Уэстон и Уоткинс дали аналогичное определение, но с суммой, а не с максимумом:

{\ displaystyle \ ell (y) = \ sum _ {y \ neq t} \ max (0,1+ \ mathbf {w} _ {y} \ mathbf {x} - \ mathbf {w} _ {t} \ mathbf {x})}

В структурированном прогнозировании потери на петлях могут быть расширены до структурированных выходных пространств. Структурированные SVM с изменением масштаба используют следующий вариант, где $w$ обозначает параметры SVM, $y$ прогнозы SVM, $φ$ - функция совместной характеристики и $Δ$ - потери Хэмминга :

{\ displaystyle {\ begin {align} \ ell (\ mathbf {y}) & = \ max (0, \ Delta (\ mathbf {y}, \ mathbf {t}) + \ langle \ mathbf {w}, \ phi (\ mathbf {x}, \ mathbf {y}) \ rangle - \ langle \ mathbf {w}, \ phi (\ mathbf {x}, \ mathbf {t}) \ rangle) \\ & = \ max ( 0, \ max _ {y \ in {\ mathcal {Y}}} \ left (\ Delta (\ mathbf {y}, \ mathbf {t}) + \ langle \ mathbf {w}, \ phi (\ mathbf { x}, \ mathbf {y}) \ rangle \ right) - \ langle \ mathbf {w}, \ phi (\ mathbf {x}, \ mathbf {t}) \ rangle) \ end {align}}}

Оптимизация

Потеря шарнира - это выпуклая функция , поэтому многие обычные выпуклые оптимизаторы, используемые в машинном обучении, могут работать с ней. Он не дифференцируемый , но имеет субградиент по отношению к параметрам модели $w$ линейной SVM с функцией оценки, которая задается ${\ Displaystyle у = \ mathbf {ш} \ cdot \ mathbf {х}}$

{\ displaystyle {\ frac {\ partial \ ell} {\ partial w_ {i}}} = {\ begin {case} -t \ cdot x_ {i} & {\ text {if}} t \ cdot y <1 \\ 0 & {\ text {иначе}} \ end {case}}}

График трех вариантов потери петли как функции

z = ty

: «обычный» вариант (синий), его квадрат (зеленый) и кусочно-гладкий вариант Ренни и Сребро (красный).

Однако, поскольку производная потерь на шарнире при не определена, для оптимизации могут быть предпочтительны сглаженные версии, такие как варианты Ренни и Сребро. ${\ displaystyle ty = 1}$

{\ displaystyle \ ell (y) = {\ begin {cases} {\ frac {1} {2}} - ty & {\ text {if}} ~~ ty \ leq 0, \\ {\ frac {1} { 2}} (1-ty) ^ {2} & {\ text {if}} ~~ 0 <ty <1, \\ 0 & {\ text {if}} ~~ 1 \ leq ty \ end {cases}} }

или квадратично сглаженный

{\ displaystyle \ ell _ {\ gamma} (y) = {\ begin {case} {\ frac {1} {2 \ gamma}} \ max (0,1-ty) ^ {2} & {\ text { if}} ~~ ty \ geq 1- \ gamma \\ 1 - {\ frac {\ gamma} {2}} - ty & {\ text {иначе}} \ end {case}}}

предложил Чжан. Модифицированная потеря Huber является частным случаем этой функции потерь с , в частности . ${\ displaystyle L}$ ${\ displaystyle \ gamma = 2}$ ${\ Displaystyle L (t, y) = 4 \ ell _ {2} (y)}$

Смотрите также

Multivariate_adaptive_regression_spline # Hinge_functions

Languages

In other projects

Потеря петли - Hinge loss

СОДЕРЖАНИЕ

Расширения

Оптимизация

Смотрите также

использованная литература