Байесовский информационный критерий - Bayesian information criterion
В статистике , то байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием для выбора модели среди конечного множества моделей; обычно предпочтительны модели с более низким BIC. Частично он основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).
При подгонке моделей можно увеличить вероятность, добавив параметры, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; срок штрафа в BIC больше, чем в AIC.
BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года, где он привел байесовский аргумент в пользу его принятия.
Определение
BIC формально определяется как
куда
- = максимальное значение функции правдоподобия модели , т. е. где - значения параметров, которые максимизируют функцию правдоподобия;
- = наблюдаемые данные;
- = количество точек данных , количество наблюдений или, что эквивалентно, размер выборки;
- = количество параметров, оцененных моделью. Например, в множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; Таким образом, .
Кониси и Китагава получают BIC для аппроксимации распределения данных, интегрируя параметры с помощью метода Лапласа , исходя из следующих модельных свидетельств :
где априор для подмодели .
Логарифмическая функция правдоподобия, , затем расширяется до второго порядка рядов Тейлора о MLE , , предполагая , что дважды дифференцируема следующим образом :
где - средняя наблюдаемая информация для каждого наблюдения , а штрих ( ) обозначает транспонирование вектора . В той степени, в которой это незначительно и относительно линейно близко , мы можем интегрировать, чтобы получить следующее:
По мере увеличения можно игнорировать и как они есть . Таким образом,
где BIC определен, как указано выше, и либо (a) - байесовский апостериорный режим, либо (b) использует MLE, а предшествующий имеет ненулевой наклон в MLE. Затем задняя
использование
При выборе из нескольких моделей обычно предпочтительны модели с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимые вариации зависимой переменной и количества независимых переменных увеличивают значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку он включает приближения, BIC является просто эвристикой. В частности, различия в BIC никогда не следует рассматривать как преобразованные байесовские факторы.
Важно помнить, что BIC можно использовать для сравнения оценочных моделей только в том случае, если числовые значения зависимой переменной идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия .
Характеристики
- BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и k .
- Это не зависит от приора.
- Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
- Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
- Это примерно равно критерию минимальной длины описания, но с отрицательным знаком.
- Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
- Он тесно связан с другими оштрафованными критериями правдоподобия , такими как критерий информации девиантности и информационный критерий Акаика .
Ограничения
У BIC есть два основных ограничения.
- Приведенное выше приближение справедливо только для размера выборки, намного превышающего количество параметров в модели.
- BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора функций ) в большой размерности.
Гауссовский частный случай
При предположении, что ошибки модели или возмущения независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифма правдоподобия по отношению к истинной дисперсии равна нулю, становится (с точностью до аддитивной константы , которая зависит только от n а не от модели):
где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как
что является смещенной оценкой истинной дисперсии .
В терминах остаточной суммы квадратов (RSS) BIC равен
При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зрения отклонения как:
где - количество параметров модели в тесте.
Смотрите также
- Информационный критерий Акаике
- Байесовский фактор
- Сравнение байесовских моделей
- Информационный критерий отклонения
- Информационный критерий Ханнана – Куинна
- Расхождение Дженсена – Шеннона
- Дивергенция Кульбака – Лейблера
- Минимальная длина сообщения
Примечания
использованная литература
дальнейшее чтение
-
Бхат, HS; Кумар, Н. (2010). «О выводе байесовского информационного критерия» (PDF) . Архивировано из оригинального (PDF) 28 марта 2012 года. Цитировать журнал требует
|journal=
( помощь ) - Финдли, Д. Ф. (1991). «Контрпримеры к бережливости и БИК». Летопись Института статистической математики . 43 (3): 505–514. DOI : 10.1007 / BF00053369 .
- Касс, RE; Вассерман, Л. (1995). «Эталонный байесовский тест для вложенных гипотез и его связь с критерием Шварца». Журнал Американской статистической ассоциации . 90 (431): 928–934. DOI : 10.2307 / 2291327 . JSTOR 2291327 .
- Лиддл, АР (2007). «Информационные критерии выбора астрофизической модели». Ежемесячные уведомления Королевского астрономического общества . 377 (1): L74 – L78. arXiv : astro-ph / 0701113 . Bibcode : 2007MNRAS.377L..74L . DOI : 10.1111 / j.1745-3933.2007.00306.x .
- McQuarrie, ADR; Цай, К.-Л. (1998). Выбор модели регрессии и временных рядов . World Scientific .