Байесовская линейная регрессия - Bayesian linear regression

В статистике , байесовская линейная регрессия является подходом к линейной регрессии , в которой статистический анализ осуществляется в контексте вывода байесовского . Когда в регрессионной модели есть ошибки, которые имеют нормальное распределение , и если предполагается конкретная форма априорного распределения , доступны явные результаты для апостериорных вероятностных распределений параметров модели.

Настройка модели

Рассмотрим стандартную линейную регрессионную задачу, в которой для нас указать среднее значение условного распределения в данном виде предиктора : ${\ Displaystyle я = 1, \ ldots, п}$ ${\ displaystyle y_ {i}}$ ${\ Displaystyle к \ раз 1}$ ${\ Displaystyle \ mathbf {х} _ {я}}$

{\ displaystyle y_ {i} = \ mathbf {x} _ {i} ^ {\ rm {T}} {\ boldsymbol {\ beta}} + \ varepsilon _ {i},}

где - вектор, а - независимые и одинаково нормально распределенные случайные величины: ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ Displaystyle к \ раз 1}$ ${\ Displaystyle \ varepsilon _ {я}}$

{\ displaystyle \ varepsilon _ {i} \ sim N (0, \ sigma ^ {2}).}

Это соответствует следующей функции правдоподобия :

{\ displaystyle \ rho (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm { T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right).}

Обычным методом наименьших квадратов раствор используют для оценки вектора коэффициентов с использованием Псевдообращение Мура-Пенроуза :

{\ displaystyle {\ hat {\ boldsymbol {\ beta}}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y}}

где - матрица плана , каждая строка которой является вектором предиктора ; и является столбцом -вектором . ${\ displaystyle \ mathbf {X}}$ ${\ Displaystyle п \ раз (к + 1)}$ ${\ Displaystyle \ mathbf {х} _ {я} ^ {\ rm {T}}}$ ${\ displaystyle \ mathbf {y}}$ ${\ displaystyle n}$ ${\ Displaystyle [y_ {1} \; \ cdots \; y_ {n}] ^ {\ rm {T}}}$

Это частотный подход, и он предполагает, что существует достаточно измерений, чтобы сказать что-то значимое . В байесовском подходе данные дополняются дополнительной информацией в виде априорного распределения вероятностей . Априорное мнение о параметрах комбинируется с функцией правдоподобия данных в соответствии с теоремой Байеса, чтобы получить апостериорное представление о параметрах и . Предварительная информация может принимать различные функциональные формы в зависимости от предметной области и информации, которая доступна априори . ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle \ sigma}$

С сопряженными приорами

Сопряженное предварительное распределение

Для произвольного априорного распределения может не быть аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряженное априорное распределение, для которого апостериорное распределение может быть получено аналитически.

Предшествующая является сопряженной к этой функции правдоподобия , если она имеет такую же функциональную форму по отношению к и . Поскольку логарифм правдоподобия квадратичен по , логарифм правдоподобия переписывается так, что правдоподобие становится нормальным в . Писать ${\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2})}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle \ sigma}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}})}$

{\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta) }}) = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} { \ hat {\ boldsymbol {\ beta}}}) + ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}).}).

Вероятность теперь переписывается как

{\ displaystyle \ rho (\ mathbf {y} | \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v} {2}}} \ exp \ left (- {\ frac {vs ^ {2}} {2 {\ sigma} ^ {2}}} \ right) (\ sigma ^ {2}) ^ {- {\ frac {nv} {2}}} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ({\ boldsymbol {\ beta}} - {\ hat { \ boldsymbol {\ beta}}}) \ right),}

где

{\ displaystyle vs ^ {2} = (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}}) \ quad {\ text {and}} \ quad v = nk,}

где - количество коэффициентов регрессии. ${\ displaystyle k}$

Это предполагает форму для приора:

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2}) = \ rho (\ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ { 2}),}

где - обратное гамма-распределение ${\ displaystyle \ rho (\ sigma ^ {2})}$

{\ displaystyle \ rho (\ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- {\ frac {v_ {0}} {2}} - 1} \ exp \ left (- {\ гидроразрыв {v_ {0} s_ {0} ^ {2}} {2 \ sigma ^ {2}}} \ right).}

В обозначениях, введенных в статье об обратном гамма-распределении , это плотность распределения с и с и в качестве предшествующих значений и , соответственно. Эквивалентно, это также может быть описано как масштабированное обратное распределение хи-квадрат , ${\ displaystyle {\ text {Inv-Gamma}} (a_ {0}, b_ {0})}$ ${\ displaystyle a_ {0} = {\ tfrac {v_ {0}} {2}}}$ ${\ displaystyle b_ {0} = {\ tfrac {1} {2}} v_ {0} s_ {0} ^ {2}}$ ${\ displaystyle v_ {0}}$ ${\ displaystyle s_ {0} ^ {2}}$ ${\ displaystyle v}$ ${\ displaystyle s ^ {2}}$ ${\ displaystyle {\ text {Scale-inv -}} \ chi ^ {2} (v_ {0}, s_ {0} ^ {2}).}$

Кроме того, условная априорная плотность - это нормальное распределение , ${\ displaystyle \ rho ({\ boldsymbol {\ beta}} | \ sigma ^ {2})}$

{\ displaystyle \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac { 1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) \ right).}

В обозначениях нормального распределения условное априорное распределение имеет вид ${\ displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {0}, \ sigma ^ {2} \ mathbf {\ Lambda} _ {0} ^ {- 1} \ right) .}$

Заднее распространение

С указанием предыдущего момента апостериорное распределение может быть выражено как

{\ displaystyle {\ begin {align} \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) & \ propto \ rho (\ mathbf { y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma ^ {2}) \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}) \ rho (\ сигма ^ {2}) \\ & \ propto (\ sigma ^ {2}) ^ {- n / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) \ right) (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu} } _ {0}) \ right) (\ sigma ^ {2}) ^ {- (a_ {0} +1)} \ exp \ left (- {\ frac {b_ {0}} {\ sigma ^ {2 }}} \ right) \ end {выровнен}}}

При некоторой перекомпоновке апостериорное значение можно переписать так, чтобы апостериорное среднее вектора параметров можно было выразить в терминах оценщика наименьших квадратов и априорного среднего , с силой априорного значения, обозначенной матрицей априорной точности. ${\ displaystyle {\ boldsymbol {\ mu}} _ {n}}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle {\ hat {\ boldsymbol {\ beta}}}}$ ${\ displaystyle {\ boldsymbol {\ mu}} _ {0}}$ ${\ displaystyle {\ boldsymbol {\ Lambda}} _ {0}}$

{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {-1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ полужирный символ {\ mu}} _ {0}).}

Чтобы подтвердить, что это действительно апостериорное среднее значение, квадратичные члены в экспоненте могут быть преобразованы в квадратичную форму в . ${\ displaystyle {\ boldsymbol {\ mu}} _ {n}}$ ${\ displaystyle {\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}}$

{\ displaystyle (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta) }}) + ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {0}) = ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T }} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu }} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}.}

Теперь апостериорное распределение можно выразить как нормальное распределение, умноженное на обратное гамма-распределение :

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto (\ sigma ^ {2}) ^ {- k / 2} \ exp \ left (- {\ frac {1} {2 {\ sigma} ^ {2}}} ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}) ({\ boldsymbol {\ beta}} - {\ boldsymbol {\ mu}} _ {n}) \ right) (\ sigma ^ {2}) ^ {- {\ frac {n + 2a_ {0}} {2}} - 1} \ exp \ left (- { \ frac {2b_ {0} + \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) {\ boldsymbol {\ mu}} _ {n} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}} {2 \ sigma ^ {2}}} \ right ).}

Следовательно, апостериорное распределение можно параметризовать следующим образом.

{\ displaystyle \ rho ({\ boldsymbol {\ beta}}, \ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}) \ propto \ rho ({\ boldsymbol {\ beta}} \ mid \ sigma ^ {2}, \ mathbf {y}, \ mathbf {X}) \ rho (\ sigma ^ {2} \ mid \ mathbf {y}, \ mathbf {X}),}

где два фактора соответствуют плотностям и распределениям, параметры которых задаются выражением ${\ displaystyle {\ mathcal {N}} \ left ({\ boldsymbol {\ mu}} _ {n}, \ sigma ^ {2} {\ boldsymbol {\ Lambda}} _ {n} ^ {- 1} \ верно)\,}$ ${\ displaystyle {\ text {Inv-Gamma}} \ left (a_ {n}, b_ {n} \ right)}$

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + \ mathbf {\ Lambda} _ {0}), \ quad {\ boldsymbol {\ mu}} _ {n} = ({\ boldsymbol {\ Lambda}} _ {n}) ^ {- 1} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X } {\ hat {\ boldsymbol {\ beta}}} + {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0}),}

{\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}}, \ qquad b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf { y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu}} _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu} } _ {n}).}

Это можно интерпретировать как байесовское обучение, при котором параметры обновляются в соответствии со следующими уравнениями.

{\ displaystyle {\ boldsymbol {\ mu}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}) ^ {-1} ({\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} + \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ шляпа {\ boldsymbol {\ beta}}}),}

{\ displaystyle {\ boldsymbol {\ Lambda}} _ {n} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X} + {\ boldsymbol {\ Lambda}} _ {0}), }

{\ displaystyle a_ {n} = a_ {0} + {\ frac {n} {2}},}

{\ displaystyle b_ {n} = b_ {0} + {\ frac {1} {2}} (\ mathbf {y} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ mu} } _ {0} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {0} {\ boldsymbol {\ mu}} _ {0} - {\ boldsymbol {\ mu}} _ {n} ^ {\ rm {T}} {\ boldsymbol {\ Lambda}} _ {n} {\ boldsymbol {\ mu}} _ {n}).}

Типовое свидетельство

Модель доказательства есть вероятность данных , приведенных в модели . Он также известен как предельное правдоподобие и как априорная прогнозируемая плотность . Здесь, модель определяется с помощью функции правдоподобия и априорного распределения по параметрам, то есть . Свидетельства модели фиксируют одним числом, насколько хорошо такая модель объясняет наблюдения. Модельные доказательства модели байесовской линейной регрессии, представленные в этом разделе, могут быть использованы для сравнения конкурирующих линейных моделей путем сравнения байесовских моделей . Эти модели могут различаться по количеству и значениям переменных-предикторов, а также по своим априорным значениям для параметров модели. Сложность модели уже учтена в свидетельстве модели, потому что она исключает параметры путем интегрирования по всем возможным значениям и . ${\ Displaystyle р (\ mathbf {у} \ середина м)}$ ${\ displaystyle m}$ ${\ displaystyle p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma)}$ ${\ displaystyle p ({\ boldsymbol {\ beta}}, \ sigma)}$ ${\ displaystyle p (\ mathbf {y}, {\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {X})}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle \ sigma}$

{\ displaystyle p (\ mathbf {y} | m) = \ int p (\ mathbf {y} \ mid \ mathbf {X}, {\ boldsymbol {\ beta}}, \ sigma) \, p ({\ boldsymbol {\ beta}}, \ sigma) \, d {\ boldsymbol {\ beta}} \, d \ sigma}

Этот интеграл можно вычислить аналитически, и решение дается в следующем уравнении.

{\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {1} {(2 \ pi) ^ {n / 2}}} {\ sqrt {\ frac {\ det ({\ boldsymbol {\ Лямбда}} _ {0})} {\ det ({\ boldsymbol {\ Lambda}} _ {n})}}} \ cdot {\ frac {b_ {0} ^ {a_ {0}}} {b_ { n} ^ {a_ {n}}}} \ cdot {\ frac {\ Gamma (a_ {n})} {\ Gamma (a_ {0})}}}

Здесь обозначает гамма-функцию . Поскольку мы выбрали сопряженный априор, предельное правдоподобие также можно легко вычислить, оценив следующее равенство для произвольных значений и . ${\ displaystyle \ Gamma}$ ${\ displaystyle {\ boldsymbol {\ beta}}}$ ${\ displaystyle \ sigma}$

{\ displaystyle p (\ mathbf {y} \ mid m) = {\ frac {p ({\ boldsymbol {\ beta}}, \ sigma | m) \, p (\ mathbf {y} \ mid \ mathbf {X }, {\ boldsymbol {\ beta}}, \ sigma, m)} {p ({\ boldsymbol {\ beta}}, \ sigma \ mid \ mathbf {y}, \ mathbf {X}, m)}}}

Обратите внимание, что это уравнение - не что иное, как перестановка теоремы Байеса . Вставка формул для априорного, вероятностного и апостериорного выражений и упрощение результирующего выражения приводит к аналитическому выражению, приведенному выше.

Другие случаи

В общем, аналитический вывод апостериорного распределения может оказаться невозможным или непрактичным. Однако можно аппроксимировать апостериорную оценку с помощью приближенного метода байесовского вывода, такого как выборка Монте-Карло или вариационный байесовский метод .

Частный случай называется регрессией гребня . ${\ displaystyle {\ boldsymbol {\ mu}} _ {0} = 0, \ mathbf {\ Lambda} _ {0} = c \ mathbf {I}}$

Аналогичный анализ может быть выполнен для общего случая многомерной регрессии, и частично он обеспечивает байесовскую оценку ковариационных матриц : см. Байесовскую многомерную линейную регрессию .

Смотрите также

Заметки

Внешние ссылки

Байесовское оценивание линейных моделей (вики-книга по программированию на языке R) . Байесовская линейная регрессия , как реализуются в R .

Languages

In other projects