Функции потерь для классификации - Loss functions for classification

Функции согласованных потерь по Байесу: потеря ноль-единица (серый), дикая потеря (зеленый), логистическая потеря (оранжевый), экспоненциальная потеря (фиолетовый), касательная потеря (коричневый), квадратная потеря (синий)

В машинном обучении и математической оптимизации , потеря функции для классификации являются вычислительно осуществимые функции потерь , представляющие цену , уплаченную за неточность прогнозов в задачах классификации (проблемы определения , к какой категории конкретное наблюдение принадлежит). Учитывая пространство всех возможных входов (обычно ) и набор меток (возможных выходов), типичная цель алгоритмов классификации состоит в том, чтобы найти функцию, которая наилучшим образом предсказывает метку для данного входа . Однако из-за неполной информации, шума в измерениях или вероятностных компонентов в базовом процессе одно и то же может генерировать разные . В результате цель проблемы обучения - минимизировать ожидаемые потери (также известные как риск), определяемые как ${\ Displaystyle {\ mathcal {X}}}$ ${\ Displaystyle {\ mathcal {X}} \ subset \ mathbb {R} ^ {d}}$ ${\ Displaystyle {\ mathcal {Y}} = \ {- 1,1 \}}$ ${\ displaystyle f: {\ mathcal {X}} \ mapsto \ mathbb {R}}$ ${\ displaystyle y}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle y}$

{\ displaystyle I [f] = \ displaystyle \ int _ {{\ mathcal {X}} \ times {\ mathcal {Y}}} V (f ({\ vec {x}}), y) p ({\ vec {x}}, y) \, d {\ vec {x}} \, dy}

где - заданная функция потерь, а - функция плотности вероятности процесса, который сгенерировал данные, что эквивалентно может быть записано как ${\ Displaystyle V (е ({\ vec {x}}), y)}$ ${\ displaystyle p ({\ vec {x}}, y)}$

{\ displaystyle p ({\ vec {x}}, y) = p (y \ mid {\ vec {x}}) p ({\ vec {x}}).}

В рамках классификации несколько часто используемых функций потерь записываются исключительно в терминах произведения истинной метки и предсказанной метки . Следовательно, они могут быть определены как функции только одной переменной , так что с подходящим образом выбранной функцией . Они называются функциями потерь на основе маржи . Выбор функции потерь на основе маржи равносилен выбору . Выбор функции потерь в рамках этой структуры влияет на оптимум, который минимизирует ожидаемый риск. ${\ displaystyle y}$ ${\ displaystyle f ({\ vec {x}})}$ ${\ displaystyle \ upsilon = yf ({\ vec {x}})}$ ${\ Displaystyle В (е ({\ vec {x}}), y) = \ phi (yf ({\ vec {x}})) = \ phi (\ upsilon)}$ ${\ Displaystyle \ phi: \ mathbb {R} \ to \ mathbb {R}}$ ${\ displaystyle \ phi}$ ${\ displaystyle f _ {\ phi} ^ {*}}$

В случае бинарной классификации можно упростить расчет ожидаемого риска на основе указанного выше интеграла. Конкретно,

{\ displaystyle {\ begin {align} I [f] & = \ int _ {{\ mathcal {X}} \ times {\ mathcal {Y}}} V (f ({\ vec {x}}), y ) p ({\ vec {x}}, y) \, d {\ vec {x}} \, dy \\ [6pt] & = \ int _ {\ mathcal {X}} \ int _ {\ mathcal { Y}} \ phi (yf ({\ vec {x}})) p (y \ mid {\ vec {x}}) p ({\ vec {x}}) \, dy \, d {\ vec { x}} \\ [6pt] & = \ int _ {\ mathcal {X}} [\ phi (f ({\ vec {x}})) p (1 \ mid {\ vec {x}}) + \ phi (-f ({\ vec {x}})) p (-1 \ mid {\ vec {x}})] p ({\ vec {x}}) \, d {\ vec {x}} \ \ [6pt] & = \ int _ {\ mathcal {X}} [\ phi (f ({\ vec {x}})) p (1 \ mid {\ vec {x}}) + \ phi (-f ({\ vec {x}})) (1-p (1 \ mid {\ vec {x}}))] p ({\ vec {x}}) \, d {\ vec {x}} \ end {выровнено}}}

Второе равенство следует из описанных выше свойств. Третье равенство следует из того факта, что 1 и −1 - единственные возможные значения для , а четвертое - потому что . Термин в скобках называется условным риском. ${\ displaystyle y}$ ${\ Displaystyle р (-1 \ середина х) = 1-р (1 \ середина х)}$ ${\ displaystyle [\ phi (е ({\ vec {x}})) p (1 \ mid {\ vec {x}}) + \ phi (-f ({\ vec {x}})) (1- p (1 \ mid {\ vec {x}}))]}$

Можно найти минимизатор для , взяв функциональную производную последнего равенства по и установив производную равной 0. Это приведет к следующему уравнению ${\ displaystyle I [f]}$ ${\ displaystyle f}$

{\ displaystyle {\ frac {\ partial \ phi (f)} {\ partial f}} \ eta + {\ frac {\ partial \ phi (-f)} {\ partial f}} (1- \ eta) = 0 \; \; \; \; \; (1)}

что также эквивалентно установке производной условного риска равной нулю.

Учитывая бинарный характер классификации, естественным отбором для функции потерь (при условии равной стоимости ложных срабатываний и ложных отрицаний ) будет функция потерь 0-1 ( индикаторная функция 0–1 ), которая принимает значение 0, если прогнозируемая классификация равна истинному классу или 1, если прогнозируемая классификация не соответствует истинному классу. Этот выбор смоделирован

{\ Displaystyle В (е ({\ vec {x}}), y) = H (-yf ({\ vec {x}}))}

где указывает ступенчатую функцию Хевисайда . Однако эта функция потерь невыпуклая и негладкая, и решение оптимального решения представляет собой NP-трудную задачу комбинаторной оптимизации. В результате лучше заменить суррогаты функции потерь, которые поддаются обработке для часто используемых алгоритмов обучения, поскольку они имеют удобные свойства, такие как выпуклость и гладкость. В дополнение к их вычислительной управляемости, можно показать, что решения проблемы обучения с использованием этих суррогатов потерь позволяют восстановить фактическое решение исходной проблемы классификации. Некоторые из этих суррогатов описаны ниже. ${\ displaystyle H}$

На практике распределение вероятностей неизвестно. Следовательно, использование обучающего набора независимо и одинаково распределенных точек выборки ${\ displaystyle p ({\ vec {x}}, y)}$ ${\ displaystyle n}$

{\ displaystyle S = \ {({\ vec {x}} _ {1}, y_ {1}), \ dots, ({\ vec {x}} _ {n}, y_ {n}) \}}

взятые из выборки данных , стремятся минимизировать эмпирический риск

{\ displaystyle I_ {S} [f] = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (f ({\ vec {x}} _ {i}), y_ {i})}

как показатель ожидаемого риска. (См. Более подробное описание в теории статистического обучения .)

Последовательность Байеса

Используя теорему Байеса , можно показать, что оптимальный , т. Е. Тот, который сводит к минимуму ожидаемый риск, связанный с потерей нуля или единицы, реализует правило оптимального решения Байеса для задачи двоичной классификации и имеет форму ${\ displaystyle f_ {0/1} ^ {*}}$

{\ displaystyle f_ {0/1} ^ {*} ({\ vec {x}}) \; = \; {\ begin {cases} \; \; \; 1 & {\ text {if}} p (1 \ mid {\ vec {x}})> p (-1 \ mid {\ vec {x}}) \\\; \; \; 0 & {\ text {if}} p (1 \ mid {\ vec { x}}) = p (-1 \ mid {\ vec {x}}) \\ - 1 & {\ text {if}} p (1 \ mid {\ vec {x}}) <p (-1 \ mid {\ vec {x}}) \ end {case}}}

.

Функция потерь называется калиброванной по классификации или согласованной по Байесу, если ее оптимальность такова, что она является оптимальной в соответствии с правилом принятия решения Байеса. Байесовская согласованная функция потерь позволяет нам найти байесовскую функцию оптимального решения , напрямую минимизируя ожидаемый риск и без необходимости явно моделировать функции плотности вероятности. ${\ displaystyle f _ {\ phi} ^ {*}}$ ${\ displaystyle f_ {0/1} ^ {*} ({\ vec {x}}) = \ operatorname {sgn} (f _ {\ phi} ^ {*} ({\ vec {x}}))}$ ${\ displaystyle f _ {\ phi} ^ {*}}$

Для выпуклой потери маржи можно показать, что байесовская непротиворечивость тогда и только тогда, когда она дифференцируема в 0 и . Тем не менее, этот результат не исключает существования невыпуклых байесовских согласованных функций потерь. Более общий результат утверждает, что байесовские согласованные функции потерь могут быть сгенерированы с использованием следующей формулировки ${\ displaystyle \ phi (\ upsilon)}$ ${\ displaystyle \ phi (\ upsilon)}$ ${\ displaystyle \ phi '(0) = 0}$

{\ Displaystyle \ фи (v) = С [е ^ {- 1} (v)] + (1-е ^ {- 1} (v)) С '[е ^ {- 1} (v)] \; \; \; \; \; (2)}

,

где - любая обратимая функция такая, что и - любая дифференцируемая строго вогнутая функция такая, что . Таблица-I показывает сгенерированные байесовские согласованные функции потерь для некоторых примеров выбора и . Обратите внимание, что потери Savage и Tangent не являются выпуклыми. Было показано, что такие невыпуклые функции потерь полезны при работе с выбросами при классификации. Для всех функций потерь, полученных из (2), апостериорная вероятность может быть найдена с помощью функции обратимой связи как . Такие функции потерь, в которых апостериорная вероятность может быть восстановлена с помощью обратимого звена, называются собственными функциями потерь . ${\ Displaystyle е (\ эта), (0 \ leq \ eta \ leq 1)}$ ${\ Displaystyle f ^ {- 1} (- v) = 1-f ^ {- 1} (v)}$ ${\ Displaystyle C (\ eta)}$ ${\ Displaystyle С (\ эта) = С (1- \ эта)}$ ${\ Displaystyle C (\ eta)}$ ${\ displaystyle f ^ {- 1} (v)}$ ${\ displaystyle p (y = 1 | {\ vec {x}})}$ ${\ Displaystyle p (y = 1 | {\ vec {x}}) = \ eta = f ^ {- 1} (v)}$

Таблица-I
Имя потери	${\ displaystyle \ phi (v)}$	${\ Displaystyle C (\ eta)}$	${\ displaystyle f ^ {- 1} (v)}$	${\ displaystyle f (\ eta)}$
Экспоненциальный	${\ displaystyle e ^ {- v}}$	${\ displaystyle 2 {\ sqrt {\ eta (1- \ eta)}}}$	${\ displaystyle {\ frac {e ^ {2v}} {1 + e ^ {2v}}}}$	${\ displaystyle {\ frac {1} {2}} \ log ({\ frac {\ eta} {1- \ eta}})}$
Логистика	${\ displaystyle {\ frac {1} {\ log (2)}} \ log (1 + e ^ {- v})}$	${\ Displaystyle {\ гидроразрыва {1} {\ log (2)}} [- \ eta \ log (\ eta) - (1- \ eta) \ log (1- \ eta)]}$	${\ Displaystyle {\ гидроразрыва {е ^ {v}} {1 + е ^ {v}}}}$	${\ displaystyle \ log ({\ гидроразрыва {\ eta} {1- \ eta}})}$
Квадратный	${\ displaystyle (1-v) ^ {2}}$	${\ displaystyle 4 \ eta (1- \ eta)}$	${\ displaystyle {\ frac {1} {2}} (v + 1)}$	${\ displaystyle 2 \ eta -1}$
дикий	${\ Displaystyle {\ гидроразрыва {1} {(1 + е ^ {v}) ^ {2}}}}$	${\ displaystyle \ eta (1- \ eta)}$	${\ Displaystyle {\ гидроразрыва {е ^ {v}} {1 + е ^ {v}}}}$	${\ displaystyle \ log ({\ гидроразрыва {\ eta} {1- \ eta}})}$
Касательная	${\ Displaystyle (2 \ arctan (v) -1) ^ {2}}$	${\ displaystyle 4 \ eta (1- \ eta)}$	${\ displaystyle \ arctan (v) + {\ frac {1} {2}}}$	${\ displaystyle \ tan (\ eta - {\ frac {1} {2}})}$

Единственный минимизатор ожидаемого риска, связанный с сгенерированными выше функциями потерь, может быть непосредственно найден из уравнения (1) и показан как равный соответствующему . Это справедливо даже для невыпуклых функций потерь, что означает, что алгоритмы на основе градиентного спуска, такие как повышение градиента, могут использоваться для построения минимизатора. ${\ displaystyle f _ {\ phi} ^ {*}}$ ${\ displaystyle f (\ eta)}$

Правильные функции потерь, маржа потерь и регуляризация

(Красный) стандартные логистические потери ( ) и (Синий) увеличенная маржа Логистические потери ( ).

{\ Displaystyle \ гамма = 1, \ му = 2}

{\ displaystyle \ gamma = 0,2}

Для правильных функций потерь запас потерь можно определить как и показать, что он напрямую связан со свойствами регуляризации классификатора. В частности, функция потерь с большим запасом увеличивает регуляризацию и дает лучшие оценки апостериорной вероятности. Например, маржа потерь может быть увеличена для логистических потерь путем введения параметра и записи логистических потерь в виде, где меньше увеличивает маржу потерь. Показано, что это прямо эквивалентно уменьшению скорости обучения при повышении градиента, где уменьшение улучшает регуляризацию усиленного классификатора. Теория проясняет, что, когда используется скорость обучения , правильная формула для получения апостериорной вероятности теперь . ${\ displaystyle \ mu _ {\ phi} = - {\ frac {\ phi '(0)} {\ phi' '(0)}}}$ ${\ displaystyle \ gamma}$ ${\ displaystyle {\ frac {1} {\ gamma}} \ log (1 + e ^ {- \ gamma v})}$ ${\ Displaystyle 0 <\ гамма <1}$ ${\ Displaystyle F_ {m} (x) = F_ {m-1} (x) + \ gamma h_ {m} (x),}$ ${\ displaystyle \ gamma}$ ${\ displaystyle \ gamma}$ ${\ Displaystyle \ eta = е ^ {- 1} (\ гамма F (х))}$

В заключение, выбирая функцию потерь с большим запасом (меньшим ), мы увеличиваем регуляризацию и улучшаем наши оценки апостериорной вероятности, что, в свою очередь, улучшает кривую ROC окончательного классификатора. ${\ displaystyle \ gamma}$

Квадратная потеря

Хотя функция квадратичных потерь чаще используется в регрессии, ее можно переписать как функцию и использовать для классификации. Его можно сгенерировать с помощью (2) и Таблицы-I следующим образом. ${\ displaystyle \ phi (yf ({\ vec {x}}))}$

{\ Displaystyle \ phi (v) = C [е ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = 4 ({\ frac {1} {2}} (v + 1)) (1 - {\ frac {1} {2}} (v + 1)) + (1 - {\ frac {1} {2}} (v + 1)) (4-8 ({\ frac {1} {2}} (v + 1))) = (1-v) ^ {2}.}

Квадратная функция потерь бывает выпуклой и гладкой. Однако функция квадратичных потерь имеет тенденцию чрезмерно наказывать выбросы, что приводит к более медленным скоростям сходимости (в отношении сложности выборки), чем для функций логистических потерь или потерь на шарнирах. Кроме того, функции, которые дают высокие значения для некоторых, будут плохо работать с функцией квадратичных потерь, поскольку высокие значения будут строго наказываться, независимо от того, совпадают ли знаки и . ${\ displaystyle f ({\ vec {x}})}$ ${\ displaystyle x \ in X}$ ${\ displaystyle yf ({\ vec {x}})}$ ${\ displaystyle y}$ ${\ displaystyle f ({\ vec {x}})}$

Преимущество функции квадратичных потерь состоит в том, что ее структура позволяет легко перекрестную проверку параметров регуляризации. В частности, для регуляризации Тихонова можно найти параметр регуляризации с помощью перекрестной проверки с исключением по одному за то же время, что и для решения одной задачи.

Минимизатор квадратичной функции потерь можно найти непосредственно из уравнения (1) как ${\ displaystyle I [f]}$

{\ displaystyle f _ {\ text {Square}} ^ {*} = 2 \ eta -1 = 2p (1 \ mid x) -1.}

Логистическая потеря

Функция логистических потерь может быть сгенерирована с использованием (2) и Таблицы-I следующим образом.

{\ Displaystyle {\ begin {align} \ phi (v) & = C [f ^ {- 1} (v)] + \ left (1-f ^ {- 1} (v) \ right) \, C ' \ left [f ^ {- 1} (v) \ right] \\ & = {\ frac {1} {\ log (2)}} \ left [{\ frac {-e ^ {v}} {1+ e ^ {v}}} \ log {\ frac {e ^ {v}} {1 + e ^ {v}}} - \ left (1 - {\ frac {e ^ {v}} {1 + e ^ {v}}} \ right) \ log \ left (1 - {\ frac {e ^ {v}} {1 + e ^ {v}}} \ right) \ right] + \ left (1 - {\ frac {e ^ {v}} {1 + e ^ {v}}} \ right) \ left [{\ frac {-1} {\ log (2)}} \ log \ left ({\ frac {\ frac { e ^ {v}} {1 + e ^ {v}}} {1 - {\ frac {e ^ {v}} {1 + e ^ {v}}}}} \ right) \ right] \\ & = {\ frac {1} {\ log (2)}} \ log (1 + e ^ {- v}). \ end {align}}}

Логистические потери являются выпуклыми и линейно растут для отрицательных значений, что делает их менее чувствительными к выбросам. Логистическая потеря используется в алгоритме LogitBoost .

Минимизатор для функции логистических потерь может быть непосредственно найден из уравнения (1) как ${\ displaystyle I [f]}$

{\ displaystyle f _ {\ text {Logistic}} ^ {*} = \ log \ left ({\ frac {\ eta} {1- \ eta}} \ right) = \ log \ left ({\ frac {p ( 1 \ mid x)} {1-p (1 \ mid x)}} \ right).}

Эта функция не определена, когда или (стремится к ∞ и −∞ соответственно), но предсказывает плавную кривую, которая растет при увеличении и равна 0, когда . ${\ Displaystyle р (1 \ середина х) = 1}$ ${\ displaystyle p (1 \ mid x) = 0}$ ${\ Displaystyle р (1 \ середина х)}$ ${\ displaystyle p (1 \ mid x) = 0,5}$

Легко проверить, что логистические потери и двоичные кросс-энтропийные потери (логарифмические потери) на самом деле одинаковы (с точностью до константы мультипликатора ). Потеря кросс-энтропии тесно связана с расхождением Кульбака – Лейблера между эмпирическим распределением и предсказанным распределением. Потеря кросс-энтропии широко распространена в современных глубоких нейронных сетях . ${\ displaystyle {\ frac {1} {\ log (2)}}}$

Экспоненциальный убыток

Экспоненциальная функция потерь может быть сгенерирована с использованием (2) и Таблицы-I следующим образом.

{\ Displaystyle \ phi (v) = C [е ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = 2 {\ sqrt {({\ frac {e ^ {2v}} {1 + e ^ {2v}}}) (1 - {\ frac {e ^ {2v}} {1 + e ^ {2v}}}) }} + (1 - {\ frac {e ^ {2v}} {1 + e ^ {2v}}}) ({\ frac {1 - {\ frac {2e ^ {2v}} {1 + e ^ { 2v}}}} {\ sqrt {{\ frac {e ^ {2v}} {1 + e ^ {2v}}} (1 - {\ frac {e ^ {2v}} {1 + e ^ {2v}) }})}}}) = e ^ {- v}}

Экспоненциальные потери являются выпуклыми и экспоненциально растут для отрицательных значений, что делает их более чувствительными к выбросам. В алгоритме AdaBoost используется экспоненциальная потеря .

Минимизатор для экспоненциальной функции потерь может быть непосредственно найден из уравнения (1) как ${\ displaystyle I [f]}$

{\ displaystyle f _ {\ text {Exp}} ^ {*} = {\ frac {1} {2}} \ log \ left ({\ frac {\ eta} {1- \ eta}} \ right) = { \ frac {1} {2}} \ log \ left ({\ frac {p (1 \ mid x)} {1-p (1 \ mid x)}} \ right).}

Дикая потеря

Потери Savage могут быть сгенерированы с использованием (2) и Таблицы-I следующим образом

{\ displaystyle \ phi (v) = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1} (v)] = ( {\ frac {e ^ {v}} {1 + e ^ {v}}}) (1 - {\ frac {e ^ {v}} {1 + e ^ {v}}}) + (1- { \ frac {e ^ {v}} {1 + e ^ {v}}}) (1 - {\ frac {2e ^ {v}} {1 + e ^ {v}}}) = {\ frac {1 } {(1 + e ^ {v}) ^ {2}}}.}

Потери по Сэвиджу квазивыпуклые и ограничены для больших отрицательных значений, что делает их менее чувствительными к выбросам. Потери Savage использовались в повышении градиента и алгоритме SavageBoost.

Минимизатор для функции потерь Сэвиджа может быть непосредственно найден из уравнения (1) как ${\ displaystyle I [f]}$

{\ displaystyle f _ {\ text {Savage}} ^ {*} = \ log \ left ({\ frac {\ eta} {1- \ eta}} \ right) = \ log \ left ({\ frac {p ( 1 \ mid x)} {1-p (1 \ mid x)}} \ right).}

Касательная потеря

Касательные потери могут быть сгенерированы с использованием (2) и Таблицы-I следующим образом.

{\ displaystyle {\ begin {align} \ phi (v) & = C [f ^ {- 1} (v)] + (1-f ^ {- 1} (v)) C '[f ^ {- 1 } (v)] = 4 (\ arctan (v) + {\ frac {1} {2}}) (1 - (\ arctan (v) + {\ frac {1} {2}})) + (1 - (\ arctan (v) + {\ frac {1} {2}})) (4-8 (\ arctan (v) + {\ frac {1} {2}})) \\ & = (2 \ arctan (v) -1) ^ {2}. \ end {выравнивается}}}

Потери касательной квазивыпуклые и ограничены для больших отрицательных значений, что делает их менее чувствительными к выбросам. Интересно, что потеря касательной также назначает ограниченный штраф для точек данных, которые были классифицированы «слишком правильно». Это может помочь предотвратить перетренированность набора данных. Потеря касательной использовалась в повышении градиента , алгоритме TangentBoost и чередующихся лесах решений.

Минимизатор для функции потерь по касательной можно найти непосредственно из уравнения (1) как ${\ displaystyle I [f]}$

{\ displaystyle f _ {\ text {Tangent}} ^ {*} = \ tan (\ eta - {\ frac {1} {2}}) = \ tan (p (1 \ mid x) - {\ frac {1 } {2}}).}

Потеря шарнира

Функция потерь шарнира определяется как , где - функция положительной части . ${\ Displaystyle \ фи (\ ипсилон) = \ макс (0,1- \ ипсилон) = [1- \ ипсилон] _ {+}}$ ${\ Displaystyle [а] _ {+} = \ макс (0, а)}$

{\ Displaystyle В (е ({\ vec {x}}), y) = \ max (0,1-yf ({\ vec {x}})) = [1-yf ({\ vec {x}}) )] _ {+}.}

Потеря на шарнире обеспечивает относительно жесткую, выпуклую верхнюю границу индикаторной функции 0–1 . В частности, потеря на шарнире равна индикаторной функции 0–1, когда и . Кроме того, минимизация эмпирического риска этих потерь эквивалентна классической формулировке для машин опорных векторов (SVM). Правильно классифицированные точки, лежащие за границами границ опорных векторов, не штрафуются, тогда как точки в пределах границ границ или на неправильной стороне гиперплоскости штрафуются линейно по сравнению с их расстоянием от правильной границы. ${\ displaystyle \ operatorname {sgn} (f ({\ vec {x}})) = y}$ ${\ displaystyle | yf ({\ vec {x}}) | \ geq 1}$

Хотя функция потерь шарнира является выпуклой и непрерывной, она не является гладкой (не дифференцируемой) в точке . Следовательно, функция потерь шарнира не может использоваться с методами градиентного спуска или методами стохастического градиентного спуска, которые полагаются на дифференцируемость по всей области. Однако потеря на шарнире имеет субградиент при , что позволяет использовать методы субградиентного спуска . SVM, использующие функцию потерь в шарнире, также могут быть решены с помощью квадратичного программирования . ${\ displaystyle yf ({\ vec {x}}) = 1}$ ${\ displaystyle yf ({\ vec {x}}) = 1}$

Минимизатор для функции потерь шарнира равен ${\ displaystyle I [f]}$

{\ displaystyle f _ {\ text {Hinge}} ^ {*} ({\ vec {x}}) \; = \; {\ begin {cases} 1 & {\ text {if}} p (1 \ mid {\ vec {x}})> p (-1 \ mid {\ vec {x}}) \\ - 1 & {\ text {if}} p (1 \ mid {\ vec {x}}) <p (-1 \ mid {\ vec {x}}) \ end {case}}}

when , что соответствует функции индикатора 0–1. Этот вывод делает потерю петли весьма привлекательной, поскольку можно установить границы разницы между ожидаемым риском и знаком функции потерь петли. Потери на шарнире не могут быть выведены из (2), так как они не обратимы. ${\ Displaystyle р (1 \ середина х) \ neq 0,5}$ ${\ displaystyle f _ {\ text {шарнир}} ^ {*}}$