Байесовский информационный критерий - Bayesian information criterion

В статистике , то байесовский информационный критерий ( BIC ) или информационный критерий Шварца (также SIC , SBC , SBIC ) является критерием для выбора модели среди конечного множества моделей; обычно предпочтительны модели с более низким BIC. Частично он основан на функции правдоподобия и тесно связан с информационным критерием Акаике (AIC).

При подгонке моделей можно увеличить вероятность, добавив параметры, но это может привести к переобучению . И BIC, и AIC пытаются решить эту проблему, вводя штрафной член для количества параметров в модели; срок штрафа в BIC больше, чем в AIC.

BIC был разработан Гидеоном Э. Шварцем и опубликован в статье 1978 года, где он привел байесовский аргумент в пользу его принятия.

Определение

BIC формально определяется как

куда

  • = максимальное значение функции правдоподобия модели , т. е. где - значения параметров, которые максимизируют функцию правдоподобия;
  • = наблюдаемые данные;
  • = количество точек данных , количество наблюдений или, что эквивалентно, размер выборки;
  • = количество параметров, оцененных моделью. Например, в множественной линейной регрессии оцениваемыми параметрами являются точка пересечения, параметры наклона и постоянная дисперсия ошибок; Таким образом, .

Кониси и Китагава получают BIC для аппроксимации распределения данных, интегрируя параметры с помощью метода Лапласа , исходя из следующих модельных свидетельств :

где априор для подмодели .

Логарифмическая функция правдоподобия, , затем расширяется до второго порядка рядов Тейлора о MLE , , предполагая , что дважды дифференцируема следующим образом :

где - средняя наблюдаемая информация для каждого наблюдения , а штрих ( ) обозначает транспонирование вектора . В той степени, в которой это незначительно и относительно линейно близко , мы можем интегрировать, чтобы получить следующее:

По мере увеличения можно игнорировать и как они есть . Таким образом,

где BIC определен, как указано выше, и либо (a) - байесовский апостериорный режим, либо (b) использует MLE, а предшествующий имеет ненулевой наклон в MLE. Затем задняя

использование

При выборе из нескольких моделей обычно предпочтительны модели с более низкими значениями BIC. BIC является возрастающей функцией дисперсии ошибки и возрастающей функцией k . То есть необъяснимые вариации зависимой переменной и количества независимых переменных увеличивают значение BIC. Однако более низкий BIC не обязательно означает, что одна модель лучше другой. Поскольку он включает приближения, BIC является просто эвристикой. В частности, различия в BIC никогда не следует рассматривать как преобразованные байесовские факторы.

Важно помнить, что BIC можно использовать для сравнения оценочных моделей только в том случае, если числовые значения зависимой переменной идентичны для всех сравниваемых моделей. Сравниваемые модели не обязательно должны быть вложенными , в отличие от случая, когда модели сравниваются с использованием F-теста или теста отношения правдоподобия .

Характеристики

  • BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике , хотя это зависит от размера n и относительной величины n и  k .
  • Это не зависит от приора.
  • Он может измерить эффективность параметризованной модели с точки зрения прогнозирования данных.
  • Он штрафует сложность модели, где сложность относится к количеству параметров в модели.
  • Это примерно равно критерию минимальной длины описания, но с отрицательным знаком.
  • Его можно использовать для выбора количества кластеров в соответствии с внутренней сложностью, присутствующей в конкретном наборе данных.
  • Он тесно связан с другими оштрафованными критериями правдоподобия , такими как критерий информации девиантности и информационный критерий Акаика .

Ограничения

У BIC есть два основных ограничения.

  1. Приведенное выше приближение справедливо только для размера выборки, намного превышающего количество параметров в модели.
  2. BIC не может обрабатывать сложные коллекции моделей, как в задаче выбора переменных (или выбора функций ) в большой размерности.

Гауссовский частный случай

При предположении, что ошибки модели или возмущения независимы и одинаково распределены в соответствии с нормальным распределением и что граничное условие, заключающееся в том, что производная логарифма правдоподобия по отношению к истинной дисперсии равна нулю, становится (с точностью до аддитивной константы , которая зависит только от n а не от модели):

где - дисперсия ошибки. Дисперсия ошибки в этом случае определяется как

что является смещенной оценкой истинной дисперсии .

В терминах остаточной суммы квадратов (RSS) BIC равен

При тестировании нескольких линейных моделей по сравнению с насыщенной моделью, BIC можно переписать с точки зрения отклонения как:

где - количество параметров модели в тесте.

Смотрите также

Примечания

использованная литература

дальнейшее чтение

внешние ссылки