Сопряжение приора - Conjugate prior

В байесовской теории вероятностей , если апостериорное распределение p ( θ  |  x ) находится в том же семействе распределений вероятностей, что и априорное распределение вероятностей p (θ), априорное и апостериорное распределение тогда называются сопряженными распределениями, а априорное - сопряженным априорным. для функции правдоподобия p (x | θ ).

Сопряженное предшествующее - это алгебраическое удобство, дающее выражение апостериорного выражения в закрытой форме ; в противном случае может потребоваться численное интегрирование . Кроме того, сопряженные априорные значения могут дать интуицию, более прозрачно показывая, как функция правдоподобия обновляет априорное распределение.

Это понятие, а также термин «сопряженный априор » были введены Говардом Райффой и Робертом Шлайфером в их работе по байесовской теории принятия решений . Подобная концепция была независимо открыта Джорджем Альфредом Барнардом .

Пример

Форма сопряженного априорного значения обычно может быть определена путем проверки плотности вероятности или функции массы вероятности распределения. Например, рассмотрим случайную величину, которая состоит из количества успехов в испытаниях Бернулли с неизвестной вероятностью успеха в [0,1]. Эта случайная величина будет следовать биномиальному распределению с функцией массы вероятности вида

Обычное сопряженное априорное распределение - это бета-распределение с параметрами ( , ):

где и выбраны, чтобы отразить любое существующее мнение или информацию ( = 1 и = 1 дадут равномерное распределение ), а Β ( ,  ) - бета-функция, действующая как нормализующая константа .

В этом контексте и называются гиперпараметрами (параметры предшествующей модели), чтобы отличать их от параметров базовой модели (здесь q ). Типичной характеристикой сопряженных априорных значений является то, что размерность гиперпараметров на единицу больше, чем размерность параметров исходного распределения. Если все параметры являются скалярными значениями, это означает, что гиперпараметров будет на один больше, чем параметра; но это также относится к параметрам с векторными и матричными значениями. (См общей статьи о показательной семье , и рассмотрит также распределение Уишарта , сопряженная приор ковариационной матрицы из более многомерного нормального распределения , для примера , в котором участвуют большую размерность.)

Если мы затем выберем эту случайную переменную и получим s успехов и f неудач, мы получим

что является еще одним бета-распределением с параметрами ( + s , + f ). Это апостериорное распределение затем можно было бы использовать в качестве априорного для большего количества выборок, при этом гиперпараметры просто добавляли каждый дополнительный фрагмент информации по мере его поступления.

Интерпретации

Псевдо-наблюдения

Часто бывает полезно думать о гиперпараметрах сопряженного априорного распределения как о соответствующих наблюдениях определенного количества псевдонаблюдений со свойствами, заданными параметрами. Например, значения и из бета - распределения можно рассматривать как соответствующие успехи и неудачи , если задний режим используется , чтобы выбрать значение параметра оптимальной, или успехи и неудачи , если задний средний используется , чтобы выбрать значение параметра оптимальной. В общем, почти для всех сопряженных априорных распределений гиперпараметры можно интерпретировать в терминах псевдонаблюдений. Это может помочь как в обеспечении интуиции за часто беспорядочными уравнениями обновления, так и в выборе разумных гиперпараметров для априорных.


Аналогия с собственными функциями

Сопряженные априорные функции аналогичны собственным функциям в теории операторов в том смысле, что они представляют собой распределения, на которых "обусловливающий оператор" действует хорошо понятным образом, рассматривая процесс перехода от предшествующего к апостериорному как оператор.

Как в собственных функциях, так и в сопряженных априорных функциях существует конечномерное пространство, которое сохраняется оператором: выход имеет ту же форму (в том же пространстве), что и вход. Это значительно упрощает анализ, поскольку в противном случае рассматривается бесконечномерное пространство (пространство всех функций, пространство всех распределений).

Однако процессы только аналогичны, а не идентичны: обусловливание не является линейным, поскольку пространство распределений не замыкается линейной комбинацией , только выпуклой комбинацией , а апостериор имеет только ту же форму, что и предыдущий, а не скалярное кратное.

Подобно тому, как можно легко проанализировать, как линейная комбинация собственных функций эволюционирует под действием оператора (поскольку по отношению к этим функциям оператор диагонализуется ), можно легко проанализировать, как выпуклая комбинация сопряженных априорных функций эволюционирует при обусловливании; это называется использованием hyperprior , и соответствует , используя плотность смеси сопряженных априорий, а не одного конъюгата до.

Динамическая система

Можно рассматривать обусловливание сопряженных априорных значений как определение разновидности (дискретного времени) динамической системы : из заданного набора гиперпараметров входящие данные обновляют эти гиперпараметры, поэтому можно рассматривать изменение гиперпараметров как своего рода «эволюцию во времени» система, соответствующая «обучению». Начало в разных точках дает разные потоки с течением времени. Это снова аналогично динамической системе, определяемой линейным оператором, но обратите внимание, что, поскольку разные выборки приводят к разным выводам, это зависит не просто от времени, а скорее от данных с течением времени. Для связанных подходов см. Рекурсивное байесовское оценивание и Ассимиляция данных .

Практический пример

Допустим, в вашем городе работает прокат автомобилей. Водители могут выгружать и забирать автомобили в любом месте в черте города. Найти и арендовать автомобили можно с помощью приложения.

Предположим, вы хотите найти вероятность того, что вы сможете найти арендованный автомобиль на небольшом расстоянии от вашего домашнего адреса в любое время суток.

В течение трех дней вы смотрите в приложение и обнаруживаете следующее количество автомобилей недалеко от вашего домашнего адреса:

Если мы предположим, что данные поступают из распределения Пуассона , мы можем вычислить оценку максимального правдоподобия параметров модели, которая. Используя эту оценку максимального правдоподобия, мы можем вычислить вероятность того, что в данный день будет доступен хотя бы один автомобиль:

Это распределение Пуассона, которое с наибольшей вероятностью привело к наблюдаемым данным . Но данные также могли быть получены из другого распределения Пуассона, например, с , или и т. Д. На самом деле существует бесконечное количество распределений Пуассона, которые могли бы сгенерировать наблюдаемые данные, и с относительно небольшим количеством точек данных мы должны быть совершенно не уверены в том, какие Эти данные были получены с помощью точного распределения Пуассона. Интуитивно мы должны вместо этого взять средневзвешенное значение вероятности для каждого из этих распределений Пуассона, взвешенное в зависимости от того, насколько они вероятны, учитывая данные, которые мы наблюдали .

Как правило, эта величина известна как апостериорное прогнозирующее распределение, где - новая точка данных, это наблюдаемые данные и параметры модели. Используя теорему Байеса, мы можем расширить, поэтому, как правило, этот интеграл трудно вычислить. Однако, если вы выберете сопряженное предварительное распределение , можно получить выражение в закрытой форме. Это столбец апостериорного прогноза в таблицах ниже.

Возвращаясь к нашему примеру, если мы выберем гамма-распределение в качестве нашего предварительного распределения по скорости распределений Пуассона, то апостериорным прогнозом будет отрицательное биномиальное распределение, как видно из последнего столбца в таблице ниже. Гамма-распределение параметризуется двумя гиперпараметрами, которые мы должны выбрать. Глядя на графики гамма-распределения, мы выбираем , что кажется разумным предварительным значением для среднего количества автомобилей. Выбор априорных гиперпараметров по своей сути субъективен и основан на предварительных знаниях.

Учитывая априорные гиперпараметры и мы можем вычислить апостериорные гиперпараметры и

Учитывая апостериорные гиперпараметры, мы, наконец, можем вычислить апостериорное предсказание

Эта гораздо более консервативная оценка отражает неопределенность параметров модели, которую учитывает апостериорный прогноз.

Таблица сопряженных распределений

Пусть n обозначает количество наблюдений. Во всех нижеприведенных случаях предполагается, что данные состоят из n точек (которые будут случайными векторами в многомерных случаях).

Если функция правдоподобия принадлежит к экспоненциальному семейству , тогда существует сопряженная априорная величина, часто также в экспоненциальном семействе; см. Экспоненциальное семейство: сопряженные распределения .

Когда функция правдоподобия представляет собой дискретное распределение

Вероятность Параметры модели Сопряженное предварительное распределение Априорные гиперпараметры Задние гиперпараметры Интерпретация гиперпараметров Задний прогностический
Бернулли p (вероятность) Бета успехи, неудачи
Биномиальный p (вероятность) Бета успехи, неудачи
( бета-бином )
Отрицательный бином
с известным числом отказов, r
p (вероятность) Бета общие успехи, неудачи (т. е. эксперименты, предполагающие, что остаются фиксированными)

(бета-отрицательный бином)

Пуассон λ (ставка) Гамма всего вхождений в интервалы
( отрицательный бином )
всего вхождений в интервалы
( отрицательный бином )
Категоричный p (вектор вероятности), k (количество категорий; т. е. размер p ) Дирихле где - количество наблюдений в категории i вхождения категории
Полиномиальный p (вектор вероятности), k (количество категорий; т. е. размер p ) Дирихле вхождения категории
( Дирихле-многочлен )
Гипергеометрический
при известной общей численности населения, N
M (количество целевых членов) Бета-биномиальный успехи, неудачи
Геометрический p 0 (вероятность) Бета эксперименты, полные неудачи

Когда функция правдоподобия представляет собой непрерывное распределение

Вероятность Параметры модели Сопряженное предварительное распределение Априорные гиперпараметры Задние гиперпараметры Интерпретация гиперпараметров Задний прогностический
Нормальный
с известной дисперсией σ 2
μ (среднее) Обычный среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним
Нормальный
с известной точностью τ
μ (среднее) Обычный среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним
Нормальный
с известным средним μ
σ 2 (дисперсия) Обратная гамма дисперсия была оценена на основе наблюдений с выборочной дисперсией (то есть с суммой квадратов отклонений , где отклонения от известного среднего )
Нормальный
с известным средним μ
σ 2 (дисперсия) Масштабированный обратный хи-квадрат дисперсия была оценена на основе наблюдений с выборочной дисперсией
Нормальный
с известным средним μ
τ (точность) Гамма точность оценивалась на основе наблюдений с выборочной дисперсией (т.е. суммой квадратов отклонений , где отклонения от известного среднего )
Обычный μ и σ 2
Предполагая заменяемость
Нормально-обратная гамма
  • выборочное среднее
среднее значение оценивалось по наблюдениям с помощью выборочного среднего ; дисперсия оценивалась по наблюдениям с использованием выборочного среднего и суммы квадратов отклонений.
Обычный μ и τ
Предполагая заменяемость
Нормальная гамма
  • выборочное среднее
среднее значение оценивалось по наблюдениям с использованием выборочного среднего , а точность оценивалась по наблюдениям с помощью выборочного среднего и суммы квадратов отклонений.
Многомерная нормаль с известной ковариационной матрицей Σ μ (средний вектор) Многомерный нормальный
  • выборочное среднее
среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним
Многомерная нормаль с известной матрицей точности Λ μ (средний вектор) Многомерный нормальный
  • выборочное среднее
среднее значение было оценено на основе наблюдений с полной точностью (сумма всех индивидуальных точности) и с выборочным средним
Многомерный нормальный с известным средним μ Σ (ковариационная матрица) Инверс-Уишарт ковариационная матрица оценивалась по наблюдениям суммой произведений попарных отклонений
Многомерный нормальный с известным средним μ Λ (матрица точности) Wishart ковариационная матрица оценивалась по наблюдениям суммой произведений попарных отклонений
Многомерный нормальный μ (средний вектор) и Σ (ковариационная матрица) нормальный-обратный-Wishart
  • выборочное среднее
среднее значение оценивалось по наблюдениям с помощью выборочного среднего ; ковариационная матрица оценивалась по наблюдениям с выборочным средним и суммой произведений парных отклонений.
Многомерный нормальный μ (средний вектор) и Λ (матрица точности) нормальный-Wishart
  • выборочное среднее
среднее значение оценивалось по наблюдениям с помощью выборочного среднего ; ковариационная матрица оценивалась по наблюдениям с выборочным средним и суммой произведений парных отклонений.
Униформа Парето наблюдения с максимальным значением
Парето
с известным минимумом x m
k (форма) Гамма наблюдения с суммой по порядку величины каждого наблюдения (т.е. логарифм отношения каждого наблюдения к минимуму )
Вейбулла
с известной формой β
θ (масштаб) Обратная гамма Наблюдения с суммой в Р» й степени каждого наблюдения
Лог-нормальный То же, что и для нормального распределения после применения натурального логарифма к данным для апостериорных гиперпараметров. Пожалуйста, обратитесь к Финку (1997 , стр. 21–22), чтобы узнать подробности.
Экспоненциальный λ (ставка) Гамма наблюдения, которые в сумме
( Распределение Lomax )
Гамма
с известной формой α
β (ставка) Гамма наблюдения с суммой
Обратная гамма
с известной формой α
β (обратная шкала) Гамма наблюдения с суммой
Гамма
с известной скоростью β
α (форма) или наблюдения ( для оценки , для оценки ) с продуктом
Гамма α (форма), β (обратный масштаб) было оценено на основе наблюдений с продуктом ; оценивается по наблюдениям суммой
Бета α , β и были оценены на основе наблюдений с продуктом и продуктом дополнений

Смотрите также

Примечания

использованная литература