Максимальная апостериорная оценка - Maximum a posteriori estimation

В статистике байесовских , A максимальной апостериорной вероятности ( МАР ) оценка является оценкой неизвестной величиной, которая равна режим от заднего распределения . MAP можно использовать для получения точечной оценки ненаблюдаемой величины на основе эмпирических данных. Он тесно связан с методом оценки максимального правдоподобия (ML), но использует расширенную цель оптимизации, которая включает в себя предварительное распределение (которое количественно определяет дополнительную информацию, доступную через предварительное знание связанного события) по количеству, которое необходимо оценить. Таким образом, оценку MAP можно рассматривать как регуляризацию оценки максимального правдоподобия.

Описание

Предположим, что мы хотим оценить ненаблюдаемый параметр популяции на основе наблюдений . Пусть будет распределение выборки из , так что есть вероятность , когда основной параметр населения . Тогда функция:

называется функцией правдоподобия и оценкой:

оценка максимального правдоподобия .

Теперь предположим , что априорное распределение более не существует. Это позволяет нам рассматривать как случайную величину, как в байесовской статистике . Мы можем вычислить заднее распределение в использовании теоремы Байеса :

где - функция плотности , - область определения .

Затем метод максимальной апостериорной оценки оценивает как моду апостериорного распределения этой случайной величины:

Знаменатель апостериорного распределения (так называемое маржинальное правдоподобие ) всегда положительный, не зависит от и, следовательно, не играет никакой роли в оптимизации. Обратите внимание, что оценка MAP совпадает с оценкой ML, когда априорная оценка равномерна (т. Е. Является постоянной функцией ).

Когда функция потерь имеет вид

при переходе к 0 байесовская оценка приближается к оценке MAP при условии, что распределение является квазивогнутым. Но обычно оценка MAP не является байесовской оценкой, если она не является дискретной .

Вычисление

Оценки MAP можно вычислить несколькими способами:

  1. Аналитически, когда режим (ы) апостериорного распределения может быть дан в закрытом виде . Это тот случай, когда используются сопряженные априорные числа .
  2. С помощью численной оптимизации, такой как метод сопряженных градиентов или метод Ньютона . Обычно для этого требуются первые или вторые производные , которые необходимо оценивать аналитически или численно.
  3. Через модификацию алгоритма максимизации ожидания . Для этого не требуются производные от апостериорной плотности.
  4. Через методом Монте - Карло с использованием имитации отжига

Ограничения

Хотя для того, чтобы оценка MAP была ограничивающим случаем байесовской оценки (при функции потерь 0–1), требуются только мягкие условия , она не очень репрезентативна для байесовских методов в целом. Это связано с тем, что оценки MAP являются точечными оценками, тогда как байесовские методы характеризуются использованием распределений для обобщения данных и вывода выводов: таким образом, байесовские методы, как правило, вместо этого сообщают апостериорное среднее или медианное значение вместе с достоверными интервалами . Причина в том, что эти оценщики оптимальны при квадратичной ошибке и потере линейной ошибки соответственно - которые более репрезентативны для типичных функций потерь - и для непрерывного апостериорного распределения нет функции потерь, которая предполагает, что MAP является оптимальной точечной оценкой. Кроме того, апостериорное распределение часто может не иметь простой аналитической формы: в этом случае распределение может быть смоделировано с использованием методов Монте-Карло цепи Маркова , в то время как оптимизация для нахождения его режима (-ов) может быть затруднена или невозможна.

Пример плотности бимодального распределения, в котором самая высокая мода нехарактерна для большей части распределения.

Во многих типах моделей, таких как смешанные модели , апостериор может быть мультимодальным . В таком случае обычно рекомендуется выбирать самый высокий режим: это не всегда возможно ( глобальная оптимизация - сложная проблема), а в некоторых случаях даже возможно (например, когда возникают проблемы с идентифицируемостью ). Кроме того, самая высокая мода может быть нехарактерна для большинства задних зубов.

Наконец, в отличие от оценок ML, оценка MAP не инвариантна при повторной параметризации . Переход от одной параметризации к другой включает введение якобиана, влияющего на положение максимума.

В качестве примера разницы между упомянутыми выше байесовскими оценками (средние и медианные оценки) и использованием оценки MAP рассмотрим случай, когда необходимо классифицировать исходные данные как положительные или отрицательные (например, ссуды как рискованные или безопасные). Предположим , что существует только три возможных гипотез о правильном методе классификации , и с апостериорных 0,4, 0,3 и 0,3 соответственно. Пусть дан новый экземпляр, , классифицирует его как положительный, в то время как два других классифицировать его как негативный. Используя оценку MAP для правильного классификатора , классифицируются как положительные, в то время как оценщики Байеса бы усреднить все гипотезы и классифицировать как негативные.

Пример

Предположим , что задана последовательность из IID случайных величин и предварительное распределение дается . Мы хотим найти оценку MAP . Обратите внимание, что нормальное распределение само по себе сопряжено с априорностью , поэтому мы сможем найти решение в замкнутой форме аналитически.

Максимизируемая функция тогда задается выражением

что эквивалентно минимизации следующей функции :

Таким образом, мы видим, что оценка MAP для μ определяется выражением

которая оказывается линейной интерполяцией между априорным средним и средним выборочным, взвешенными по их соответствующим ковариациям.

Случай называется неинформативным априорным и приводит к плохо определенному априорному распределению вероятностей; в этом случае

Рекомендации

  • ДеГрут, М. (1970). Оптимальные статистические решения . Макгроу-Хилл. ISBN   0-07-016242-5 .
  • Соренсон, Гарольд В. (1980). Оценка параметров: принципы и проблемы . Марсель Деккер. ISBN   0-8247-6987-2 .
  • Халд, Андерс (2007). "Вывод Гаусса нормального распределения и метод наименьших квадратов, 1809". История параметрического статистического вывода от Бернулли до Фишера, 1713–1935 . Нью-Йорк: Спрингер. С. 55–61. ISBN   978-0-387-46409-1 .