Байесовский информационный критерий - Bayesian information criterion

В статистике , то байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием для выбора модели среди конечного множества моделей; обычно предпочтительны модели с более низким BIC. Частично он основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подгонке моделей можно увеличить вероятность, добавив параметры, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; срок штрафа в BIC больше, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года, где он привел байесовский аргумент в пользу его принятия.

Определение

BIC формально определяется как

{\ displaystyle \ mathrm {BIC} = k \ ln (n) -2 \ ln ({\ widehat {L}}). \}

куда

${\ displaystyle {\ hat {L}}}$ = максимальное значение функции правдоподобия модели , т. е. где - значения параметров, которые максимизируют функцию правдоподобия; ${\ displaystyle M}$ ${\ displaystyle {\ hat {L}} = p (x \ mid {\ widehat {\ theta}}, M)}$ ${\ displaystyle {\ widehat {\ theta}}}$
${\ displaystyle x}$ = наблюдаемые данные;
${\ displaystyle n}$ = количество точек данных , количество наблюдений или, что эквивалентно, размер выборки; ${\ displaystyle x}$
${\ displaystyle k}$ = количество параметров, оцененных моделью. Например, в множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; Таким образом, . ${\ displaystyle q}$ ${\ Displaystyle к = д + 2}$

Кониси и Китагава получают BIC для аппроксимации распределения данных, интегрируя параметры с помощью метода Лапласа , исходя из следующих модельных свидетельств :

{\ Displaystyle п (х \ середина М) = \ инт р (х \ середина \ тета, М) \ пи (\ тета \ середина М) \, д \ тета}

где априор для подмодели . ${\ Displaystyle \ пи (\ тета \ середина М)}$ ${\ displaystyle \ theta}$ ${\ displaystyle M}$

Логарифмическая функция правдоподобия, , затем расширяется до второго порядка рядов Тейлора о MLE , , предполагая , что дважды дифференцируема следующим образом : ${\ Displaystyle \ пер (п (х | \ тета, М))}$ ${\ displaystyle {\ widehat {\ theta}}}$

{\ displaystyle \ ln (п (х \ mid \ theta, M)) = \ ln ({\ widehat {L}}) - 0,5 (\ theta - {\ widehat {\ theta}}) 'n {\ mathcal { I}} (\ theta) (\ theta - {\ widehat {\ theta}}) + R (x, \ theta),}

где - средняя наблюдаемая информация для каждого наблюдения , а штрих ( ) обозначает транспонирование вектора . В той степени, в которой это незначительно и относительно линейно близко , мы можем интегрировать, чтобы получить следующее: ${\ Displaystyle {\ mathcal {I}} (\ theta)}$ ${\ displaystyle '}$ ${\ displaystyle (\ theta - {\ widehat {\ theta}})}$ ${\ Displaystyle R (х, \ theta)}$ ${\ Displaystyle \ пи (\ тета \ середина М)}$ ${\ displaystyle {\ widehat {\ theta}}}$ ${\ displaystyle \ theta}$

{\ displaystyle p (x \ mid M) \ приблизительно {\ hat {L}} (2 \ pi / n) ^ {k / 2} | {\ mathcal {I}} ({\ widehat {\ theta}}) | ^ {- 1/2} \ pi ({\ widehat {\ theta}})}

По мере увеличения можно игнорировать и как они есть . Таким образом, ${\ displaystyle n}$ ${\ displaystyle | {\ mathcal {I}} ({\ widehat {\ theta}}) |}$ ${\ displaystyle \ pi ({\ widehat {\ theta}})}$ ${\ displaystyle O (1)}$

{\ Displaystyle п (х \ середина M) = \ ехр \ {\ ln {\ widehat {L}} - (k / 2) \ ln (n) + O (1) \} = \ exp (- \ mathrm { BIC} / 2 + O (1)),}

где BIC определен, как указано выше, и либо (a) - байесовский апостериорный режим, либо (b) использует MLE, а предшествующий имеет ненулевой наклон в MLE. Затем задняя ${\ displaystyle {\ widehat {L}}}$ ${\ Displaystyle \ пи (\ тета \ середина М)}$

{\ Displaystyle р (М \ середина х) \ пропто р (х \ середина М) п (М) \ приблизительно \ ехр (- \ mathrm {BIC} / 2) р (М)}

использование

При выборе из нескольких моделей обычно предпочтительны модели с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимые вариации зависимой переменной и количества независимых переменных увеличивают значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку он включает приближения, BIC является просто эвристикой. В частности, различия в BIC никогда не следует рассматривать как преобразованные байесовские факторы. ${\ displaystyle \ sigma _ {e} ^ {2}}$

Важно помнить, что BIC можно использовать для сравнения оценочных моделей только в том случае, если числовые значения зависимой переменной идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия .

Характеристики

BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .
Это не зависит от приора.
Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
Это примерно равно критерию минимальной длины описания, но с отрицательным знаком.
Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
Он тесно связан с другими оштрафованными критериями правдоподобия , такими как критерий информации девиантности и информационный критерий Акаика .

Ограничения

У BIC есть два основных ограничения.

Приведенное выше приближение справедливо только для размера выборки, намного превышающего количество параметров в модели. ${\ displaystyle n}$ ${\ displaystyle k}$
BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора функций ) в большой размерности.

Гауссовский частный случай

При предположении, что ошибки модели или возмущения независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифма правдоподобия по отношению к истинной дисперсии равна нулю, становится (с точностью до аддитивной константы , которая зависит только от n а не от модели):

{\ Displaystyle \ mathrm {BIC} = п \ ln ({\ widehat {\ sigma _ {e} ^ {2}}}) + к \ ln (n) \}

где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как ${\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}}}$

{\ displaystyle {\ widehat {\ sigma _ {e} ^ {2}}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (x_ {i} - {\ widehat {x_ {i}}}) ^ {2}.}

что является смещенной оценкой истинной дисперсии .

В терминах остаточной суммы квадратов (RSS) BIC равен

{\ Displaystyle \ mathrm {BIC} = п \ пер (RSS / п) + к \ пер (п) \}

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зрения отклонения как: ${\ displaystyle \ chi ^ {2}}$

{\ Displaystyle \ mathrm {BIC} = \ чи ^ {2} + к \ ln (п)}

где - количество параметров модели в тесте. ${\ displaystyle k}$

Смотрите также

Примечания

использованная литература

дальнейшее чтение

Бхат, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF) . Архивировано из оригинального (PDF) 28 марта 2012 года. Цитировать журнал требует |journal=( помощь )
Финдли, Д. Ф. (1991). «Контрпримеры к бережливости и БИК». Летопись Института статистической математики . 43 (3): 505–514. DOI : 10.1007 / BF00053369 .
Касс, RE; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации . 90 (431): 928–934. DOI : 10.2307 / 2291327 . JSTOR 2291327 .
Лиддл, АР (2007). «Информационные критерии выбора астрофизической модели». Ежемесячные уведомления Королевского астрономического общества . 377 (1): L74 – L78. arXiv : astro-ph / 0701113 . Bibcode : 2007MNRAS.377L..74L . DOI : 10.1111 / j.1745-3933.2007.00306.x .
McQuarrie, ADR; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов . World Scientific .

Languages

In other projects