Функция потерь - Loss function

В математической оптимизации и теории принятия решений , функция потерь или функция затрат (иногда также называется функция ошибки ) является функцией , которая отображает события или значения одного или несколько переменных на вещественное число интуитивно , представляющее некоторые «стоимость» , связанную с событием. Задача оптимизации стремится к минимизации функции потерь. Целевая функция является либо функцией потерь или его противоположность (в определенных областях, по- разному называется функция вознаграждения , а функция прибыли , а функция полезности , в функции пригодности и т.д.), в этом случае он должен быть максимальными.

В статистике обычно для оценки параметров используется функция потерь , а рассматриваемое событие является некоторой функцией разницы между оценочными и истинными значениями для экземпляра данных. Эта старая, как Лаплас , концепция была вновь введена в статистику Абрахамом Вальдом в середине 20 века. В контексте экономики , например, это обычно экономическая цена или сожаление . В классификации это штраф за неправильную классификацию примера. В актуарной науке он используется в контексте страхования для моделирования выплат, выплачиваемых сверх страховых взносов, особенно после работ Харальда Крамера в 1920-х годах. При оптимальном управлении потеря - это штраф за неспособность достичь желаемого значения. В управлении финансовыми рисками функция отображается на денежный убыток.

Примеры

Сожалеть

Леонард Дж. Сэвидж утверждал, что при использовании небайесовских методов, таких как минимакс , функция потерь должна основываться на идее сожаления , т. Е. Потеря, связанная с решением, должна быть разницей между последствиями лучшего решения, которое могло быть принято. если бы были известны основные обстоятельства дела и фактическое решение, которое было принято до того, как они стали известны.

Квадратичная функция потерь

Часто используется квадратичная функция потерь, например, при использовании метода наименьших квадратов . Часто она более математически поддается обработке, чем другие функции потерь, из-за свойств дисперсии , а также из-за того , что она симметрична: ошибка выше целевого значения вызывает такие же потери, как и такая же величина ошибки ниже целевого значения. Если целью является t , то квадратичная функция потерь равна

для некоторой константы C ; значение константы не влияет на решение и может быть проигнорировано, установив его равным 1.

Многие общие статистические данные , включая t-тесты , регрессионные модели, план экспериментов и многое другое, используют методы наименьших квадратов, применяемые с использованием теории линейной регрессии , которая основана на квадратичной функции потерь.

Квадратичная функция потерь также используется в линейно-квадратичных задачах оптимального управления . В этих задачах, даже при отсутствии неопределенности, может оказаться невозможным достичь желаемых значений всех целевых переменных. Часто потери выражаются квадратичной формой отклонений интересующих переменных от их желаемых значений; этот подход приемлем, потому что он приводит к линейным условиям первого порядка . В контексте стохастического управления используется математическое ожидание квадратичной формы.

0-1 функция потерь

В статистике и теории принятия решений часто используемой функцией потерь является функция потерь 0-1.

где - индикаторная функция .

Построение функций потерь и целевых функций

Во многих приложениях целевые функции, включая функции потерь как частный случай, определяются постановкой задачи. В других ситуациях предпочтение лица, принимающего решения, должно быть выявлено и представлено скалярной функцией (называемой также функцией полезности ) в форме, подходящей для оптимизации - проблема, которую Рагнар Фриш выделил в своей лекции о Нобелевской премии. Существующие методы построения целевых функций собраны в трудах двух специализированных конференций. В частности, Андраник Тангян показал, что наиболее полезные целевые функции - квадратичные и аддитивные - определяются несколькими точками безразличия. Он использовал это свойство в моделях для построения этих целевых функций из порядковых или кардинальных данных, которые были получены с помощью компьютерных интервью с лицами, принимающими решения. Среди прочего, он построил целевые функции для оптимального распределения бюджетов для 16 университетов Вестфалии и европейских субсидий для выравнивания уровня безработицы между 271 регионом Германии.

Ожидаемый убыток

В некоторых контекстах, значение самой функции потерь является случайной величиной , поскольку она зависит от результатов случайной величины X .

Статистика

Как частотная, так и байесовская статистическая теория предполагают принятие решения на основе ожидаемого значения функции потерь; однако в этих двух парадигмах эта величина определяется по-разному.

Ожидаемый убыток Frequentist

Сначала мы определяем ожидаемые потери в частотном контексте. Это достигается путем принятия ожидаемого значения относительно распределения вероятностей, P & thetas , наблюдаемых данных, X . Это также называется функцией риска решающего правила δ и параметра θ . Здесь правило принятия решения зависит от исхода X . Функция риска определяется следующим образом:

Здесь θ - фиксированное, но, возможно, неизвестное состояние природы, X - вектор наблюдений, стохастически извлеченный из совокупности , - математическое ожидание по всем значениям совокупности X , dP θ - мера вероятности в пространстве событий X (параметризованная  θ ) , а интеграл вычисляется по всей поддержке в  X .

Байесовский ожидаемый убыток

В байесовском подходе математическое ожидание вычисляется с использованием апостериорного распределения π * параметра  θ :

Затем следует выбрать действие a *, которое минимизирует ожидаемые убытки. Хотя это приведет к выбору того же действия, которое было бы выбрано с использованием частотного риска, акцент байесовского подхода заключается в том, что каждый заинтересован только в выборе оптимального действия в соответствии с фактическими наблюдаемыми данными, тогда как выбор фактического частотного оптимального правила принятия решения, которая является функцией всех возможных наблюдений, является гораздо более сложной проблемой.

Примеры в статистике

  • Для скалярного параметра θ решающая функция, выходом которой является оценка  θ , и квадратичная функция потерь ( квадратичная потеря ошибок )
функция риска становится среднеквадратической ошибкой оценки,
функция риска становится средним интегрированным квадратом ошибки

Экономический выбор в условиях неопределенности

В экономике принятие решений в условиях неопределенности часто моделируется с использованием функции полезности фон Неймана – Моргенштерна для неопределенной переменной, представляющей интерес, такой как богатство на конец периода. Поскольку значение этой переменной является неопределенным, неопределенным является и значение функции полезности; это ожидаемое значение полезности, которое максимизируется.

Правила принятия решений

Правило принятия решений делает выбор , используя критерий оптимальности. Некоторые часто используемые критерии:

  • Минимакс : выберите правило принятия решения с наименьшим наихудшим убытком, то есть минимизируйте наихудший (максимально возможный) убыток:
  • Инвариантность : выберите оптимальное правило принятия решения, которое удовлетворяет требованию инвариантности.
  • Выберите правило принятия решения с наименьшими средними потерями (т.е. минимизируйте ожидаемое значение функции потерь):

Выбор функции потерь

Надежная статистическая практика требует выбора оценщика, соответствующего фактическим допустимым отклонениям, наблюдаемым в контексте конкретной прикладной задачи. Таким образом, при прикладном использовании функций потерь выбор статистического метода для моделирования прикладной задачи зависит от знания потерь, которые будут понесены из-за ошибки в конкретных обстоятельствах проблемы.

Типичный пример включает оценку « местоположения ». При типичных статистических допущениях среднее или среднее - это статистика для оценки местоположения, которая минимизирует ожидаемые потери при использовании функции потерь квадратичной ошибки , в то время как медиана является оценкой, которая минимизирует ожидаемые потери, возникающие при использовании функции потерь абсолютной разницы. Тем не менее, другие оценки были бы оптимальными при других, менее распространенных обстоятельствах.

В экономике, когда агент нейтрален к риску , целевая функция просто выражается как ожидаемое значение денежной величины, такой как прибыль, доход или богатство на конец периода. Для агентов, не склонных к риску или любящих риск , потери измеряются как отрицательное значение функции полезности , а целевая функция, которая должна быть оптимизирована, представляет собой ожидаемое значение полезности.

Возможны и другие меры стоимости, например смертность или заболеваемость в области общественного здравоохранения или техники безопасности .

Для большинства алгоритмов оптимизации желательно иметь глобально непрерывную и дифференцируемую функцию потерь .

Два очень часто используемые функции потерь являются квадратом потери , и абсолютная потеря , . Однако абсолютная потеря имеет тот недостаток, что ее нельзя дифференцировать . Квадрат потерь имеет недостаток, заключающийся в том, что в нем преобладают выбросы - при суммировании по набору (как в ) окончательная сумма, как правило, является результатом нескольких особенно больших a- значений, а не выражение среднего a -значения.

Выбор функции потерь не является произвольным. Он очень ограничен, и иногда функция потерь может характеризоваться своими желательными свойствами. К принципам выбора относятся, например, требование полноты класса симметричной статистики в случае iid- наблюдений, принцип полной информации и некоторые другие.

У. Эдвардс Деминг и Нассим Николас Талеб утверждают, что эмпирическая реальность, а не хорошие математические свойства, должны быть единственной основой для выбора функций потерь, а реальные потери часто не являются математически хорошими и недифференцируемыми, непрерывными, симметричными и т. Д. Например, человек, который прибывает до закрытия выхода на самолет, все еще может совершить посадку, но человек, который прибывает после, не может, прерывистость и асимметрия, которые делают прибытие с небольшим опозданием намного более дорогостоящим, чем прибытие с небольшим опозданием. При дозировании лекарства стоимость слишком малого количества лекарства может быть недостаточной, в то время как цена слишком большого количества может быть переносимой токсичностью, еще одним примером асимметрии. Движение, трубы, балки, экология, климат и т. Д. Могут выдерживать повышенную нагрузку или стресс с небольшими заметными изменениями до определенного момента, а затем становятся резервными или катастрофически ломаются. Эти ситуации, как утверждают Деминг и Талеб, обычны в реальных задачах, возможно, более распространены, чем классические гладкие, непрерывные, симметричные, дифференциальные случаи.

Смотрите также

использованная литература

дальнейшее чтение

  • Горовиц, Энн Р. (1987). «Убыточные функции и публичная политика». Журнал макроэкономики . 9 (4): 489–504. DOI : 10.1016 / 0164-0704 (87) 90016-4 .
  • Во, Роджер Н. (1976). «Асимметричные полезные функции разработчика политики и оптимальная политика в условиях неопределенности». Econometrica . 44 (1): 53–66. DOI : 10.2307 / 1911380 . JSTOR  1911380 .