Байесовская статистика - Bayesian statistics

Байесовская статистика - это теория в области статистики, основанная на байесовской интерпретации вероятности, где вероятность выражает степень уверенности в событии . Степень уверенности может основываться на предварительных знаниях о событии, таких как результаты предыдущих экспериментов, или на личных убеждениях о событии. Это отличается от ряда других интерпретаций вероятности , таких как частотная интерпретации , которая рассматривает вероятность как предел относительной частоты события после многих испытаний.

Байесовские статистические методы используют теорему Байеса для вычисления и обновления вероятностей после получения новых данных. Теорема Байеса описывает условную вероятность события на основе данных, а также предшествующей информации или убеждений о событии или условиях, связанных с событием. Например, в байесовском выводе теорема Байеса может использоваться для оценки параметров вероятностного распределения или статистической модели . Поскольку байесовская статистика рассматривает вероятность как степень уверенности, теорема Байеса может напрямую назначить распределение вероятностей, которое количественно определяет веру параметру или набору параметров.

Байесовская статистика названа в честь Томаса Байеса , который сформулировал конкретный случай теоремы Байеса в статье, опубликованной в 1763 году. В нескольких статьях, охватывающих период с конца 18 до начала 19 веков, Пьер-Симон Лаплас разработал байесовскую интерпретацию вероятности. Лаплас использовал методы, которые теперь стали бы считаться байесовскими, для решения ряда статистических задач. Многие байесовские методы были разработаны более поздними авторами, но этот термин обычно не использовался для описания таких методов до 1950-х годов. На протяжении большей части 20-го века многие статистики отрицательно относились к байесовским методам из-за философских и практических соображений. Многие байесовские методы требовали большого количества вычислений для завершения, и большинство методов, которые широко использовались в течение столетия, основывались на частотной интерпретации. Однако с появлением мощных компьютеров и новых алгоритмов, таких как цепь Маркова Монте-Карло , байесовские методы стали широко использоваться в статистике в 21 веке.

Теорема Байеса

Теорема Байеса используется в байесовских методах для обновления вероятностей, которые являются степенями уверенности, после получения новых данных. Учитывая два события и , условная вероятность того, что данное истинное, выражается следующим образом:

где . Хотя теорема Байеса является фундаментальным результатом теории вероятностей , она имеет особую интерпретацию в байесовской статистике. В приведенном выше уравнении обычно представляет предложение (например, утверждение о том, что монета падает орлом в пятидесяти процентах случаев) и представляет собой свидетельство или новые данные, которые необходимо принять во внимание (например, результат ряда монета подбрасывает). это априорная вероятность, о которой выражается убеждение до того, как доказательства будут приняты во внимание. Априорная вероятность также может количественно определять предшествующие знания или информацию о . - функция правдоподобия , которую можно интерпретировать как вероятность того, что данное свидетельство является истинным. Вероятность количественно определяет степень, в которой доказательства подтверждают предположение . - апостериорная вероятность , вероятность утверждения после принятия во внимание свидетельств . По сути, теорема Байеса обновляет предыдущие убеждения после рассмотрения новых доказательств .

Вероятность доказательства можно рассчитать по закону полной вероятности . Если это разбиение из выборочного пространства , которое является совокупностью всех результатов эксперимента, а затем,

Когда существует бесконечное количество исходов, необходимо интегрировать по всем исходам для вычисления с использованием закона полной вероятности. Часто это трудно вычислить, поскольку расчет будет включать в себя суммы или интегралы, оценка которых потребует много времени, поэтому часто учитывается только произведение априорного значения и вероятности, поскольку свидетельства не меняются в одном и том же анализе. Задняя часть пропорциональна этому продукту:

Максимальное апостериорный , который является режимом заднего и часто вычисляется в байесовской статистике с помощью математических оптимизации методов, остается тем же самым . Апостериор можно аппроксимировать даже без вычисления точного значения с помощью таких методов, как цепь Маркова Монте-Карло или вариационные байесовские методы .

Краткое описание байесовских методов

Общий набор статистических методов можно разделить на ряд действий, многие из которых имеют специальные байесовские версии.

Байесовский вывод

Байесовский вывод относится к статистическому выводу, при котором неопределенность выводов количественно оценивается с использованием вероятности. В классическом частотном выводе параметры модели и гипотезы считаются фиксированными. Вероятности не присваиваются параметрам или гипотезам в частотном выводе. Например, при частотном выводе не имеет смысла напрямую приписывать вероятность событию, которое может произойти только один раз, например результату следующего подбрасывания справедливой монеты. Однако имеет смысл констатировать, что доля орлов приближается к половине по мере увеличения числа подбрасываний монеты.

Статистические модели определяют набор статистических допущений и процессов, которые представляют, как генерируются данные выборки. Статистические модели имеют ряд параметров, которые можно изменять. Например, монета может быть представлена ​​в виде выборки из распределения Бернулли , которое моделирует два возможных результата. Распределение Бернулли имеет единственный параметр, равный вероятности одного исхода, который в большинстве случаев является вероятностью выпадения орла. Разработка хорошей модели для данных является центральным элементом байесовского вывода. В большинстве случаев модели только приближают истинный процесс и могут не учитывать определенные факторы, влияющие на данные. В байесовском выводе вероятности могут быть присвоены параметрам модели. Параметры могут быть представлены как случайные величины . Байесовский вывод использует теорему Байеса для обновления вероятностей после того, как будет получено или известно больше доказательств.

Статистическое моделирование

Формулировка статистических моделей с использованием байесовской статистики имеет идентифицирующую особенность, заключающуюся в том, что требуется спецификация априорных распределений для любых неизвестных параметров. В самом деле, параметры априорных распределений могут сами иметь априорные распределения, ведущие к байесовскому иерархическому моделированию , или могут быть взаимосвязаны, приводя к байесовским сетям .

Дизайн экспериментов

Байесовский дизайн экспериментов включает в себя концепцию под названием «Влияние предшествующих верований. Этот подход использует методы последовательного анализа , чтобы включить результаты предыдущих экспериментов в план следующего эксперимента. Это достигается обновлением «убеждений» за счет использования априорного и апостериорного распределения . Это позволяет при разработке экспериментов эффективно использовать ресурсы всех типов. Примером этого является проблема многорукого бандита .

Исследовательский анализ байесовских моделей

Исследовательский анализ байесовских моделей - это адаптация или расширение подхода исследовательского анализа данных к потребностям и особенностям байесовского моделирования. По словам Перси Диакониса:

Исследовательский анализ данных стремится выявить структуру или простые описания данных. Мы смотрим на числа или графики и пытаемся найти закономерности. Мы ищем варианты, подсказанные исходной информацией, воображением, воспринимаемыми закономерностями и опытом анализа других данных.

Процесс вывода генерирует апостериорное распределение, которое играет центральную роль в байесовской статистике, вместе с другими распределениями, такими как апостериорное предсказывающее распределение и априорное предсказывающее распределение. Правильная визуализация, анализ и интерпретация этих распределений являются ключом к правильному ответу на вопросы, которые мотивируют процесс вывода.

При работе с байесовскими моделями, помимо самого вывода, необходимо решить ряд связанных задач:

  • Диагнозы качества умозаключений, это необходимо при использовании численных методов , таких как Монте - Карло марковской цепи методов
  • Критика модели, включая оценку как допущений модели, так и предсказаний модели
  • Сравнение моделей, включая выбор модели или усреднение модели
  • Подготовка результатов для конкретной аудитории

Все эти задачи являются частью подхода исследовательского анализа байесовских моделей, и их успешное выполнение является центральным элементом итеративного и интерактивного процесса моделирования. Эти задачи требуют как числовых, так и визуальных сводок.

Смотрите также

использованная литература

дальнейшее чтение

внешние ссылки