Бета-распространение - Beta distribution

Бета
Функция плотности вероятности
Функция плотности вероятности для бета-распределения
Кумулятивная функция распределения
Кумулятивная функция распределения для бета-распределения
Обозначение Бета ( α , β )
Параметры α > 0 форма ( реальная )
β > 0 форма ( реальная )
Служба поддержки или
PDF
где и - гамма-функция .
CDF

( регуляризованная неполная бета-функция )
Иметь в виду



(см. функцию дигаммы и см. раздел: Среднее геометрическое )
Медиана
Режим

для α , β > 1

любое значение в для α , β = 1

{0, 1} (бимодальный) для α , β <1

0 для α ≤ 1, β > 1

1 для α > 1, β ≤ 1
Дисперсия

(см. функцию тригаммы и см. раздел: Геометрическая дисперсия )
Асимметрия
Бывший. эксцесс
Энтропия
MGF
CF (см. Конфлюэнтная гипергеометрическая функция )
Информация Fisher
см. раздел: Информационная матрица Fisher
Метод моментов

В теории вероятностей и статистике , то бета - распределение представляет собой семейство непрерывных вероятностных распределений , заданных на интервале [0, 1] спараметрированного два положительных параметров формы , обозначаемых альфа и бета , которые появляются в качестве показателей случайной величины и управления формой распределения. Обобщение на несколько переменных называется распределением Дирихле .

Бета-распределение применялось для моделирования поведения случайных величин, ограниченных интервалами конечной длины, в самых разных дисциплинах.

В байесовском выводе бета-распределение - это сопряженное априорное распределение вероятностей для распределений Бернулли , биномиального , отрицательного биномиального и геометрического распределений. Бета-распределение является подходящей моделью для случайного поведения процентов и пропорций.

Обсуждаемая здесь формулировка бета-распределения также известна как бета-распределение первого типа , тогда как бета-распределение второго типа является альтернативным названием для простого бета-распределения .

Определения

Функция плотности вероятности

Анимация бета-распределения для разных значений его параметров.

Функция плотности вероятности (pdf) бета-распределения для 0 ≤ x ≤ 1 и параметров формы α , β > 0 является степенной функцией переменной  x и ее отражения (1 - x ) следующим образом:

где Γ ( z ) - гамма-функция . Бета - функция , является константой нормировки , чтобы гарантировать , что суммарная вероятность равна 1. В приведенных выше уравнениях х является реализация -an наблюдаемое значение , которое фактически произошло из- случайный процесс X .  

Это определение включает оба конца x = 0 и x = 1 , что согласуется с определениями для других непрерывных распределений, поддерживаемых на ограниченном интервале, которые являются частными случаями бета-распределения, например, распределение арксинуса , и согласуется с несколькими авторами, такими как NL Джонсон и С. Коц . Однако включение x = 0 и x = 1 не работает для α , β <1 ; соответственно, несколько других авторов, в том числе В. Феллер , решили исключить концы x = 0 и x = 1 (так что два конца фактически не являются частью области определения функции плотности) и вместо этого рассматривают 0 < x <1 .

Некоторые авторы, в том числе Н.Л. Джонсон и С. Коц , используют символы p и q (вместо α и β ) для параметров формы бета-распределения, напоминающие символы, традиционно используемые для параметров распределения Бернулли , поскольку бета-версия распределение приближается к распределению Бернулли в пределе, когда оба параметра формы α и β приближаются к значению нуля.

Далее случайная величина X с бета-распределением параметров α и β будет обозначаться как:

Другие обозначения для бета-распределенных случайных величин, используемые в статистической литературе: и .

Кумулятивная функция распределения

CDF для симметричного бета-распределения в зависимости от x и  α  =  β
CDF для искаженного бета-распределения в зависимости от x и  β  = 5 α

Кумулятивная функция распределения является

где - неполная бета-функция и - регуляризованная неполная бета-функция .

Альтернативные параметризации

Два параметра

Среднее значение и размер выборки

Бета-распределение также может быть повторно параметризовано в терминах его среднего μ (0 < μ <1) и суммы двух параметров формы ν = α + β > 0 (стр. 83). Обозначение αPosterior и βPosterior параметров формы апостериорного бета-распределения, полученного в результате применения теоремы Байеса к биномиальной функции правдоподобия и априорной вероятности, интерпретация сложения обоих параметров формы как размер выборки = ν = α · Posterior + β · Апостериорная верна только для априорной вероятности Холдейна Бета (0,0). В частности, для байесовского (однородного) предшествующего бета (1,1) правильной интерпретацией будет размер выборки = α · Posterior + β  Posterior - 2 или ν = (размер выборки) + 2. Конечно, для размера выборки намного больше. чем 2, разница между этими двумя априорными числами становится незначительной. (См. Дополнительные сведения в разделе Байесовский вывод .) В остальной части этой статьи ν = α + β будет называться «размером выборки», но следует помнить, что, строго говоря, это «размер выборки» бинома. функция правдоподобия только при использовании беты Холдейна (0,0) до теоремы Байеса.

Эта параметризация может быть полезна при оценке байесовских параметров. Например, можно провести тест нескольким людям. Если предположить, что оценка каждого человека (0 ≤ θ ≤ 1) получена из бета-распределения на уровне популяции, то важной статистикой будет среднее значение этого распределения на уровне популяции. Параметры среднего и размера выборки связаны с параметрами формы α и β через

α = μν , β = (1 - μ ) ν

В соответствии с этой параметризацией можно поместить неинформативную априорную вероятность над средним и неопределенную априорную вероятность (такую ​​как экспоненциальное или гамма-распределение) над положительными действительными значениями для размера выборки, если они являются независимыми, и априорными данными и / или убеждениями. оправдать это.

Режим и концентрация

Режим и «концентрация» также могут использоваться для расчета параметров бета-распределения.

Средняя (частота аллелей) и генетическое расстояние (Райта) между двумя популяциями

Модель Болдинга-Николса - это двухпараметрическая параметризация бета-распределения, используемая в популяционной генетике . Это статистическое описание частот аллелей в компонентах подразделяемой популяции:

где и ; здесь F - генетическая дистанция (Райта) между двумя популяциями.

Дополнительную информацию см. В статьях Модель Болдинга – Николса , F-статистика , индекс фиксации и коэффициент взаимосвязи .

Среднее и дисперсия

Решая систему (связанных) уравнений, приведенную в предыдущих разделах как уравнения для среднего и дисперсии бета-распределения в терминах исходных параметров α и β , можно выразить параметры α и β через среднее ( μ ) и дисперсия (var):

Эта параметризация бета-распределения может привести к более интуитивному пониманию, чем то, которое основано на исходных параметрах α и β . Например, выражая режим, асимметрию, избыточный эксцесс и дифференциальную энтропию через среднее значение и дисперсию:

Распределение режима бета-версии для альфа- и бета-версии больше 1 - J. Rodal.jpgРаспределение режима бета-версии для альфа- и бета-версии больше 1 - другой вид - J. Rodal.jpg Бета-распределение асимметрии для среднего полного диапазона и дисперсии от 0,05 до 0,25 - д-р Дж. Родал.jpgБета-распределение асимметрии для среднего и дисперсии в полном диапазоне - J. Rodal.jpg Бета-распределение избыточного эксцесса со средним значением для всего диапазона и дисперсией от 0,05 до 0,25 - J. Rodal.jpgБета-распределение избыточного эксцесса со средним значением и дисперсией для всего диапазона - J. Rodal.jpg Бета-распределение дифференциальной энтропии со средним значением от 0,2 до 0,8 и дисперсией от 0,01 до 0,09 - J. Rodal.jpgБета-распределение дифференциальной энтропии со средним значением от 0,3 до 0,7 и дисперсией от 0 до 0,2 - J. Rodal.jpg

Четыре параметра

Бета-распределение с двумя параметрами формы α и β поддерживается в диапазоне [0,1] или (0,1). Можно изменить местоположение и масштаб распределения, введя два дополнительных параметра, представляющих минимальное, a и максимальное c ( c > a ), значения распределения, путем линейного преобразования, заменяющего безразмерную переменную x в терминах новой переменной y (с поддержкой [ a , c ] или ( a , c )) и параметров a и c :

Функция плотности вероятности четырехпараметрического бета-распределения равна двухпараметрическому распределению, масштабируемому по диапазону ( c - a ) (так, чтобы общая площадь под кривой плотности равнялась вероятности, равной единице), и с «y "переменная смещена и масштабирована следующим образом:

То, что случайная величина Y имеет бета-распределение с четырьмя параметрами α, β, a и c, будет обозначаться следующим образом:

Меры центрального расположения масштабируются (на ( c - a )) и смещаются (на a ) следующим образом:

(среднее геометрическое и среднее гармоническое не могут быть преобразованы линейным преобразованием так, как это могут сделать среднее значение, медиана и мода.)

Параметры формы Y могут быть записаны через его среднее значение и дисперсию как

Меры статистической дисперсии масштабируются (их не нужно сдвигать, потому что они уже сосредоточены на среднем значении) по диапазону (ca), линейно для среднего отклонения и нелинейно для дисперсии:

Поскольку асимметрия и избыточный эксцесс являются безразмерными величинами (как моменты с центром в среднем и нормированные на стандартное отклонение ), они не зависят от параметров a и c и, следовательно, равны выражениям, приведенным выше в терминах X (с поддержка [0,1] или (0,1)):

Характеристики

Меры центральной тенденции

Режим

Режим из беты - распределенный случайная величина X с & alpha ; , β > 1 является наиболее вероятным значением распределения (соответствующим пику в PDF), и задается следующим выражением:

Когда оба параметра меньше единицы ( α , β <1), это анти-режим: самая низкая точка кривой плотности вероятности.

Если принять α = β , выражение для режима упрощается до 1/2, показывая, что при α = β > 1 мода (соответственно, анти-мода, когда α , β <1 ) находится в центре распределения: это симметричный в тех случаях. См. Раздел « Фигуры » в этой статье для получения полного списка случаев режима для произвольных значений α и β . Для некоторых из этих случаев максимальное значение функции плотности приходится на один или оба конца. В некоторых случаях (максимальное) значение функции плотности, встречающееся в конце, конечно. Например, в случае α = 2, β = 1 (или α = 1, β = 2) функция плотности становится распределением прямоугольного треугольника, которое является конечным на обоих концах. В некоторых других случаях есть особенность на одном конце, где значение функции плотности стремится к бесконечности. Например, в случае α = β = 1/2, бета-распределение упрощается до арксинусного распределения . Среди математиков ведутся споры о некоторых из этих случаев и о том, могут ли концы ( x = 0 и x = 1) называться модами или нет.

Режим для бета-распределения для 1 ≤ α ≤ 5 и 1 ≤ β ≤ 5
  • Являются ли концы частью области определения функции плотности
  • Будь то особенность может когда - либо назвать режим
  • Следует ли называть случаи с двумя максимумами бимодальными?

Медиана

Медиана для бета-распределения для 0 ≤ α ≤ 5 и 0 ≤ β ≤ 5
(Среднее – Медиана) для бета-распределения по сравнению с альфа- и бета-версиями от 0 до 2

Медиана бета-распределения - это уникальное действительное число, для которого регуляризована неполная бета-функция . Не существует общего выражения в замкнутой форме для медианы бета-распределения для произвольных значений α и β . Далее следуют выражения в закрытой форме для конкретных значений параметров α и β :

  • Для симметричных случаев α = β , медиана = 1/2.
  • Для α = 1 и β > 0 медиана (этот случай является зеркальным отображением распределения степенной функции [0,1])
  • Для α > 0 и β = 1 медиана = (этот случай является распределением степенной функции [0,1])
  • При & alpha ; = 3 , и β = 2, медиана = 0,6142724318676105 ..., реальное решение уравнения четвертой степени 1 - 8 х 3 + 6 х 4 = 0, которая лежит в [0,1].
  • Для α = 2 и β = 3 медиана = 0,38572756813238945 ... = 1 - медиана (бета (3, 2))

Ниже приведены пределы с одним конечным параметром (отличным от нуля), а другой приближается к этим пределам:

Разумное приближение значения медианы бета-распределения, для обоих α и β больше или равных единице, дается формулой

Когда α, β ≥ 1, относительная ошибка ( абсолютная ошибка, деленная на медиану) в этом приближении составляет менее 4%, а для α ≥ 2 и β ≥ 2 она составляет менее 1%. Абсолютная погрешность делила на разности между средним значением и режимом является так же мала:

Abs [(Median-Appr.) / Median] для бета-распределения для 1 ≤ α ≤ 5 и 1 ≤ β ≤ 5Abs [(Median-Appr.) / (Mean-Mode)] для бета-распределения для 1≤α≤5 и 1≤β≤5

Иметь в виду

Среднее значение для бета-распределения для 0 ≤ α ≤ 5 и 0 ≤ β ≤ 5

Ожидаемое значение (среднее значение) ( μ ) из бета - распределения случайной величины Х с двумя параметрами альфа и β является функцией только соотношение β / & alpha ; из этих параметров:

Полагая α = β в приведенном выше выражении, получаем μ = 1/2 , показывая, что при α = β среднее значение находится в центре распределения: оно симметрично. Кроме того, из приведенного выше выражения можно получить следующие пределы:

Следовательно, при β / α → 0 или при α / β → ∞ среднее значение находится на правом конце, x = 1 . Для этих предельных соотношений бета-распределение становится одноточечным вырожденным распределением с выбросом дельта-функции Дирака на правом конце, x = 1 , с вероятностью 1 и нулевой вероятностью везде. На правом конце сосредоточена 100% вероятность (абсолютная уверенность), x = 1 .

Аналогично, при β / α → ∞ или при α / β → 0 среднее значение находится на левом конце, x = 0 . Бета-распределение становится 1-точечным вырожденным распределением с выбросом дельта-функции Дирака на левом конце, x = 0, с вероятностью 1 и нулевой вероятностью везде. 100% вероятность (абсолютная уверенность) сосредоточена на левом конце, x = 0. Ниже приведены пределы с одним конечным параметром (ненулевым), а другой приближается к этим пределам:

В то время как для типичных одномодальных распределений (с центрально расположенными модами, точками перегиба по обе стороны от моды и более длинными хвостами) (с Beta ( αβ ), таким, что α , β > 2 ) известно, что среднее значение выборки (как оценка местоположения) не так надежна, как медиана выборки, наоборот, для равномерных или "U-образных" бимодальных распределений (с Beta ( αβ ) таким, что α , β ≤ 1 ), с модами, расположенными в концы раздачи. Как отмечают Мостеллер и Тьюки (стр. 207), «среднее двух крайних наблюдений использует всю выборочную информацию. Это показывает, как для распределений с коротким хвостом крайние наблюдения должны иметь больший вес». Напротив, из этого следует, что медиана «U-образных» бимодальных распределений с модами на краю распределения (с Beta ( αβ ) такими, что α , β ≤ 1 ) не является устойчивой, поскольку медиана выборки снижает крайние выборочные наблюдения из рассмотрения. Практическое применение этого имеет место, например, для случайных блужданий , поскольку вероятность для времени последнего посещения исходной точки при случайном блуждании распределяется как распределение арксинусов Beta (1/2, 1/2): среднее значение количество реализаций случайного блуждания является гораздо более надежной оценкой, чем медиана (которая в данном случае является неподходящей оценкой выборочной меры).

Среднее геометрическое

(Среднее - GeometricMean) для бета-распределения в зависимости от α и β от 0 до 2, показывая асимметрию между α и β для среднего геометрического
Средние геометрические значения для бета-распределения Фиолетовый = G ( x ), желтый = G (1 -  x ), меньшие значения α и β спереди
Средние геометрические параметры для бета-распределения. фиолетовый = G ( x ), желтый = G (1 -  x ), большие значения α и β впереди

Логарифм среднего геометрического G X распределения со случайной величиной X - это среднее арифметическое ln ( X ) или, что то же самое, его математическое ожидание:

Для бета-распределения интеграл ожидаемого значения дает:

где ψ - дигамма-функция .

Следовательно, среднее геометрическое бета-распределения с параметрами формы α и β является экспонентой дигамма-функций α и β следующим образом:

В то время как для бета-распределения с равными параметрами формы α = β следует, что асимметрия = 0 и мода = среднее значение = медиана = 1/2, среднее геометрическое меньше 1/2: 0 < G X <1/2 . Причина этого в том, что логарифмическое преобразование сильно взвешивает значения X, близкие к нулю, поскольку ln ( X ) сильно стремится к отрицательной бесконечности, когда X приближается к нулю, а ln ( X ) выравнивается к нулю при X → 1 .

Вдоль линии α = β применяются следующие ограничения:

Ниже приведены пределы с одним конечным параметром (отличным от нуля), а другой приближается к этим пределам:

На прилагаемом графике показана разница между средним и средним геометрическим для параметров формы α и β от нуля до 2. Помимо того факта, что разница между ними приближается к нулю, когда α и β приближаются к бесконечности, и что разница становится большой для значений α и β приближаются к нулю, наблюдается явная асимметрия среднего геометрического относительно параметров формы α и β. Разница между средним геометрическим и средним значением больше для малых значений α по отношению к β, чем при обмене величинами β и α.

Н. Л. Джонсон и С. Коц предлагают логарифмическое приближение к дигамма-функции ψ ( α ) ≈ ln ( α  - 1/2), которое приводит к следующему приближению к среднему геометрическому:

Численные значения относительной ошибки в этом приближении следующие: [ ( α = β = 1): 9,39% ]; [ ( α = β = 2): 1,29% ]; [ ( α = 2, β = 3): 1,51% ]; [ ( α = 3, β = 2): 0,44% ]; [ ( α = β = 3): 0,51% ]; [ ( α = β = 4): 0,26% ]; [ ( α = 3, β = 4): 0,55% ]; [ ( α = 4, β = 3): 0,24% ].

Точно так же можно вычислить значение параметров формы, необходимых для того, чтобы среднее геометрическое было равно 1/2. Учитывая значение параметра β , каково значение другого параметра  α , необходимого для того, чтобы среднее геометрическое равнялось 1/2 ?. Ответ состоит в том, что (при β > 1 ) требуемое значение α стремится к β + 1/2 при β → ∞ . Например, все эти пары имеют одно и то же среднее геометрическое 1/2: [ β = 1, α = 1,4427 ], [ β = 2, α = 2,46958 ], [ β = 3, α = 3,47943 ], [ β = 4 , α = 4,48449 ], [ β = 5, α = 5,48756 ], [ β = 10, α = 10,4938 ], [ β = 100, α = 100,499 ].

Основным свойством среднего геометрического, которое может быть доказано, что оно неверно для любого другого среднего, является

Это делает геометрическое среднее единственным правильным средним при усреднении нормализованных результатов, то есть результатов, которые представлены как отношения к контрольным значениям. Это актуально, потому что бета-распределение является подходящей моделью для случайного поведения процентов и особенно подходит для статистического моделирования пропорций. Среднее геометрическое играет центральную роль в оценке максимального правдоподобия, см. Раздел «Оценка параметров, максимальное правдоподобие». Фактически, при выполнении оценки максимального правдоподобия, помимо среднего геометрического G X, основанного на случайной величине X, естественно появляется еще одно геометрическое среднее: среднее геометрическое, основанное на линейном преобразовании –– (1 - X ) , зеркальное отображение X , обозначаемый G (1 - X ) :

Вдоль линии α = β применяются следующие ограничения:

Ниже приведены пределы с одним конечным параметром (отличным от нуля), а другой приближается к этим пределам:

Он имеет следующее приблизительное значение:

Хотя и G X, и G (1 - X ) асимметричны, в случае, когда оба параметра формы равны α = β , геометрические средние равны: G X = G (1 - X ) . Это равенство следует из следующей симметрии, отображаемой между обоими геометрическими средними:

Гармоническое среднее

Среднее гармоническое для бета-распределения для 0 <  α  <5 и 0 <  β  <5
Среднее гармоническое для бета-распределения в зависимости от α и β от 0 до 2
Средние гармоники для бета-распределения Фиолетовый = H ( X ), желтый = H (1 -  X ), меньшие значения α и β спереди
Средние гармоники для бета-распределения Фиолетовый = H ( X ), желтый = H (1 -  X ), большие значения α и β впереди

Обратное значение гармонического среднего ( H X ) распределения со случайной величиной X является средним арифметическим 1 / X или, что то же самое, его ожидаемым значением. Следовательно, гармоническое среднее ( H X ) бета-распределения с параметрами формы α и β равно:

Гармоническое среднее ( Н Х ) из бета - распределения с α <1 не определен, так как его определение выражение не ограничено в [0, 1] для параметра формы α меньше единицы.

Полагая α = β в приведенном выше выражении, получаем

показывая, что при α = β среднее гармоническое колеблется от 0 при α = β = 1 до 1/2 при α = β → ∞.

Ниже приведены пределы с одним конечным параметром (отличным от нуля), а другой приближается к этим пределам:

Гармоническое среднее играет роль в оценке максимального правдоподобия для случая с четырьмя параметрами в дополнение к среднему геометрическому. Фактически, при выполнении оценки максимального правдоподобия для случая с четырьмя параметрами, помимо гармонического среднего H X, основанного на случайной величине X , естественным образом появляется еще одно гармоническое среднее: гармоническое среднее, основанное на линейном преобразовании (1 -  X ), зеркальное образ X , обозначаемый H 1 -  X :

Гармоническое среднее ( Н (1 -  Х ) ) из бета - распределения с β <1 не определен, так как его определение выражение не ограничено в [0, 1] для параметра формы β меньше единицы.

Полагая α = β в приведенном выше выражении, получаем

показывая, что при α = β среднее гармоническое колеблется от 0 при α = β = 1 до 1/2 при α = β → ∞.

Ниже приведены пределы с одним конечным параметром (отличным от нуля), а другой приближается к этим пределам:

Хотя оба H Икс и H 1- Х асимметричны, в случае, когда оба параметра формы равен α = β , гармонические средства равны: Н Х = Н 1- Х . Это равенство следует из следующей симметрии, отображаемой между обоими гармоническими средними:

Меры статистической дисперсии

Дисперсия

Дисперсия (второй момент сосредоточен на среднем) из беты - распределения случайной величины X с параметрами а и β является:

Полагая α = β в приведенном выше выражении, получаем

показывая, что при α = β дисперсия монотонно уменьшается с увеличением α = β . Устанавливая в этом выражении α = β = 0 , можно найти максимальную дисперсию var ( X ) = 1/4, которая возникает только при приближении к пределу при α = β = 0 .

Бета-распределение также может быть параметризовано с точки зрения его среднего значения μ (0 < μ <1) и размера выборки ν = α + β ( ν > 0 ) (см. Подраздел « Среднее значение и размер выборки» ):

Используя эту параметризацию , можно выразить дисперсию через среднее значение μ и размер выборки ν следующим образом:

Поскольку ν = ( α + β )> 0 , должно следовать, что var ( X ) < μ (1 - μ ) .

Для симметричного распределения среднее значение находится в середине распределения, μ = 1/2 , и поэтому:

Кроме того, следующие пределы (с приближением к пределу только указанной переменной) могут быть получены из приведенных выше выражений:

Дисперсия для бета-распределения для альфа- и бета-версии в диапазоне от 0 до 5 - J. Rodal.jpg

Геометрическая дисперсия и ковариация

логарифм геометрических отклонений от α и β
логарифм геометрических отклонений от α и β

Логарифм геометрической дисперсии ln (var GX ) распределения со случайной величиной X - это второй момент логарифма X с центром на среднем геометрическом X , ln ( G X ):

и, следовательно, геометрическая дисперсия составляет:

В информационной матрице Фишера и кривизне логарифмической функции правдоподобия появляются логарифм геометрической дисперсии отраженной переменной 1 -  X и логарифм геометрической ковариации между X и 1 -  X :

Для бета-распределения логарифмические моменты более высокого порядка могут быть получены путем использования представления бета-распределения как пропорции двух гамма-распределений и дифференцирования через интеграл. Их можно выразить через полигамма-функции более высокого порядка. См. Раздел «Другие моменты, Моменты преобразованных случайных величин, Моменты логарифмически преобразованных случайных величин». Дисперсия логарифмических переменных и ковариации из пер  Х и п (1- Х ) являются:

где тригамма-функция , обозначаемая ψ 1 (α), является второй из полигамма-функций и определяется как производная дигамма-функции :

Следовательно,

Прилагаемые графики показывают логарифмическую геометрическую дисперсию и логарифмическую геометрическую ковариацию в зависимости от параметров формы α и β . Графики показывают, что логарифмическая геометрическая дисперсия и логарифмическая геометрическая ковариация близки к нулю для параметров формы α и β, превышающих 2, и что значение логарифмической геометрической дисперсии быстро возрастает при значениях параметров формы α и β меньше единицы. Геометрические отклонения бревна положительны для всех значений параметров формы. Логарифмическая геометрическая ковариация отрицательна для всех значений параметров формы и достигает больших отрицательных значений для α и β меньше единицы.

Ниже приведены пределы с одним конечным параметром (отличным от нуля), а другой приближается к этим пределам:

Пределы с двумя изменяющимися параметрами:

Хотя и ln (var GX ), и ln (var G (1 -  X ) ) асимметричны, при равных параметрах формы α = β получается: ln (var GX ) = ln (var G (1 − X) ). Это равенство следует из следующей симметрии, отображаемой между двумя логарифмическими геометрическими отклонениями:

Лог-геометрическая ковариация симметрична:

Среднее абсолютное отклонение от среднего

Отношение среднего абсолютного отклонения. в Std.Dev. для бета-распределения с α и β от 0 до 5
Отношение среднего абсолютного отклонения. в Std.Dev. для бета-распределения со средним 0 ≤ μ ≤ 1 и размером выборки 0 <ν ≤ 10

Среднее абсолютное отклонение вокруг среднего значения для бета - распределения с параметрами формы а и β является:

Среднее абсолютное отклонение вокруг среднего значения является более надежной оценки по статистической дисперсии , чем стандартное отклонение для бета - распределений с хвостами и точек перегиба на каждой стороне режима, бета ( αβ ) распределения с & alpha ; , β > 2, как это зависит от линейных (абсолютных) отклонений, а не от квадратичных отклонений от среднего. Таким образом, влияние очень больших отклонений от среднего значения не так сильно взвешено.

Используя приближение Стирлинга к гамма-функции , Н.Л.Джонсон и С.Котц получили следующее приближение для значений параметров формы больше единицы (относительная ошибка для этого приближения составляет всего -3,5% при α = β = 1, и она уменьшается до нуля. при α → ∞, β → ∞):

В пределе α → ∞, β → ∞, отношение среднего абсолютного отклонения от стандартного отклонения (для бета - распределения) становится равным отношением тех же самых мер для нормального распределения: . При α = β = 1 это отношение равно , так что от α = β = 1 к α, β → ∞ отношение уменьшается на 8,5%. Для α = β = 0 стандартное отклонение точно равно среднему абсолютному отклонению от среднего. Следовательно, это отношение уменьшается на 15% с α = β = 0 до α = β = 1 и на 25% с α = β = 0 до α, β → ∞. Однако для искаженных бета-распределений, таких, что α → 0 или β → 0, отношение стандартного отклонения к среднему абсолютному отклонению приближается к бесконечности (хотя каждое из них по отдельности приближается к нулю), потому что среднее абсолютное отклонение приближается к нулю быстрее, чем среднеквадратичное отклонение.

Используя параметризацию в терминах среднего μ и объема выборки ν = α + β> 0:

α = μν, β = (1 − μ) ν

можно выразить среднее абсолютное отклонение от среднего значения через среднее значение μ и размер выборки ν следующим образом:

Для симметричного распределения среднее значение находится в середине распределения, μ = 1/2, и поэтому:

Кроме того, следующие пределы (с приближением к пределу только указанной переменной) могут быть получены из приведенных выше выражений:

Средняя абсолютная разница

Средняя абсолютная разница для бета - распределения:

Коэффициент Джини для бета-распределения составляет половину относительной средней абсолютной разницы:

Асимметрия

Асимметрия для бета-распределения как функция дисперсии и среднего

Перекос (третий момент сосредоточены на среднее, нормированная 3/2 мощности дисперсии) бета - распределения

Полагая α = β в приведенном выше выражении, получаем γ 1 = 0, еще раз показывая, что при α = β распределение симметрично и, следовательно, асимметрия равна нулю. Положительный перекос (правосторонний) при α <β, отрицательный перекос (левосторонний) при α> β.

Используя параметризацию в терминах среднего μ и объема выборки ν = α + β:

можно выразить асимметрию через среднее значение μ и размер выборки ν следующим образом:

Перекос также может быть выражено только с точки зрения дисперсии вар и средним ц следующим образом :

Прилагаемый график асимметрии как функции дисперсии и среднего показывает, что максимальная дисперсия (1/4) сочетается с нулевой асимметрией и условием симметрии (μ = 1/2), и что максимальная асимметрия (положительная или отрицательная бесконечность) возникает, когда среднее значение находится на одном или другом конце, так что «масса» распределения вероятностей сосредоточена на концах (минимальная дисперсия).

Следующее выражение для квадрата асимметрии с точки зрения размера выборки ν = α + β и дисперсии var полезно для метода оценки моментов четырех параметров:

Это выражение правильно дает асимметрию нуля для α = β, так как в этом случае (смотрите раздел под названием «Отклонение»): .

Для симметричного случая (α = β) асимметрия = 0 во всем диапазоне, и применяются следующие ограничения:

Для несимметричных случаев (α ≠ β) следующие пределы (с приближением к пределу только указанной переменной) могут быть получены из приведенных выше выражений:

Распределение асимметрии бета-версии для альфа- и бета-версии от 1 до 5 - J. Rodal.jpgРаспределение асимметрии бета-версии для альфа- и бета-версии от .1 до 5 - J. Rodal.jpg

Эксцесс

Избыточный эксцесс для бета-распределения как функция дисперсии и среднего

Бета-распределение применялось в акустическом анализе для оценки повреждения шестерен, поскольку, как сообщается, эксцесс бета-распределения является хорошим индикатором состояния шестерни. Эксцесс также использовался, чтобы отличить сейсмический сигнал, генерируемый шагами человека, от других сигналов. Поскольку люди или другие цели, движущиеся по земле, генерируют непрерывные сигналы в виде сейсмических волн, можно разделять разные цели на основе генерируемых ими сейсмических волн. Эксцесс чувствителен к импульсным сигналам, поэтому он намного более чувствителен к сигналу, создаваемому шагами человека, чем другие сигналы, генерируемые транспортными средствами, ветром, шумом и т. Д. К сожалению, обозначения эксцесса не стандартизированы. Кенни и Кепинг используют символ γ 2 для обозначения избыточного эксцесса , но Абрамовиц и Стегун используют другую терминологию. Во избежание путаницы между эксцессом (четвертый момент с центром в среднем, нормированный квадратом дисперсии) и избыточным эксцессом при использовании символов они будут записаны следующим образом:

Полагая α = β в приведенном выше выражении, получаем

.

Следовательно, для симметричных бета-распределений избыточный эксцесс отрицательный, возрастая от минимального значения −2 в пределе при {α = β} → 0 и приближаясь к максимальному значению нуля при {α = β} → ∞. Значение −2 - это минимальное значение избыточного эксцесса, которого может когда-либо достичь любое распределение (не только бета-распределения, но и любое распределение любого возможного типа). Это минимальное значение достигается, когда вся плотность вероятности полностью сосредоточена на каждом конце x = 0 и x = 1, и ничего между ними нет: двухточечное распределение Бернулли с равной вероятностью 1/2 на каждом конце (подбрасывание монеты: см. раздел ниже «Эксцесс, ограниченный квадратом асимметрии» для дальнейшего обсуждения). Описание эксцесса как меры «потенциальных выбросов» (или «потенциально редких, экстремальных значений») распределения вероятностей является правильным для всех распределений, включая бета-распределение. В редких случаях в бета-распределении могут встречаться экстремальные значения, тем выше его эксцесс; в противном случае эксцесс меньше. Для α ≠ β, искаженных бета-распределений, избыточный эксцесс может достигать неограниченных положительных значений (особенно для α → 0 для конечного β или для β → 0 для конечного α), потому что сторона, противоположная моде, будет давать случайные экстремальные значения. Минимальный эксцесс имеет место, когда плотность массы одинаково сконцентрирована на каждом конце (и, следовательно, среднее значение находится в центре), и между концами нет плотности массы вероятности.

Используя параметризацию в терминах среднего μ и объема выборки ν = α + β:

можно выразить избыточный эксцесс через среднее значение μ и размер выборки ν следующим образом:

Избыточный эксцесс также можно выразить с помощью следующих двух параметров: дисперсии var и размера выборки ν следующим образом:

и, исходя из дисперсии var и среднего μ, следующим образом:

График избыточного эксцесса как функции дисперсии и среднего показывает, что минимальное значение избыточного эксцесса (-2, что является минимально возможным значением избыточного эксцесса для любого распределения) тесно связано с максимальным значением дисперсии ( 1/4) и условие симметрии: среднее значение в средней точке (μ = 1/2). Это происходит в симметричном случае α = β = 0 с нулевой асимметрией. В пределе это двухточечное распределение Бернулли с равной вероятностью 1/2 на каждом конце дельта-функции Дирака x = 0 и x = 1 и нулевой вероятностью везде. (Подбрасывание монеты: одна грань монеты имеет x = 0, а другая сторона - x = 1.) Дисперсия максимальна, потому что распределение является бимодальным, и между двумя модами (шипами) на каждом конце ничего нет. Избыточный эксцесс минимален: плотность вероятности «масса» равна нулю в среднем и сосредоточена на двух пиках на каждом конце. Избыточный эксцесс достигает минимально возможного значения (для любого распределения), когда функция плотности вероятности имеет два пика на каждом конце: он является двухпиковым, и между ними ничего нет.

С другой стороны, график показывает, что для крайних случаев перекоса, когда среднее значение находится около одного или другого конца (μ = 0 или μ = 1), дисперсия близка к нулю, а избыточный эксцесс быстро приближается к бесконечности, когда среднее значение распределения приближается к любому концу.

В качестве альтернативы, избыточный эксцесс также может быть выражен только с помощью следующих двух параметров: квадрата асимметрии и размера выборки ν следующим образом:

Из этого последнего выражения можно получить те же самые пределы, опубликованные практически столетие назад Карлом Пирсоном в его статье для бета-распределения (см. Ниже раздел под названием «Эксцесс, ограниченный квадратом асимметрии»). Установив α + β = ν = 0 в приведенном выше выражении, можно получить нижнюю границу Пирсона (значения асимметрии и избыточного эксцесса ниже границы (избыточный эксцесс + 2 - асимметрия 2 = 0) не могут иметь место ни для какого распределения, и, следовательно, Карл Пирсон соответственно назвал область ниже этой границы «невозможной областью»). Предел α + β = ν → ∞ определяет верхнюю границу Пирсона.

следовательно:

Значения ν = α + β, такие, что ν изменяется от нуля до бесконечности, 0 <ν <∞, охватывают всю область бета-распределения в плоскости избыточного эксцесса по сравнению с квадратом асимметрии.

Для симметричного случая (α = β) применяются следующие ограничения:

Для несимметричных случаев (α ≠ β) следующие пределы (с приближением к пределу только указанной переменной) могут быть получены из приведенных выше выражений:

Избыточный эксцесс для бета-распространения с альфа- и бета-версиями от 1 до 5 - J. Rodal.jpgИзбыточный эксцесс для бета-распространения с альфа- и бета-версиями от 0,1 до 5 - J. Rodal.jpg

Характеристическая функция

Re (характеристическая функция) симметричный случай α = β в диапазоне от 25 до 0
Re (характеристическая функция) симметричный случай α = β от 0 до 25
Re (характеристическая функция) β = α + 1/2; α в диапазоне от 25 до 0

Характеристическая функция является преобразованием Фурье функции плотности вероятности. Характеристической функцией бета-распределения является вырожденная гипергеометрическая функция Куммера (первого рода):

куда

- восходящий факториал , также называемый «символом Поххаммера». Значение характеристической функции при t = 0 равно единице:

.

Кроме того, действительная и мнимая части характеристической функции обладают следующими симметриями относительно начала переменной t :

Симметричный случай α = β упрощает характеристическую функцию бета-распределения до функции Бесселя , поскольку в частном случае α + β = 2α конфлюэнтная гипергеометрическая функция (первого рода) сводится к функции Бесселя (модифицированной функции Бесселя первый вид ) с использованием второго преобразования Куммера следующим образом:

Другой пример симметричного случая α = β = n / 2 для приложений формирования диаграммы направленности можно найти на Рисунке 11 из

На прилагаемых графиках действительная часть (Re) характеристической функции бета-распределения отображается для симметричного (α = β) и скошенного (α ≠ β) случаев.

Другие моменты

Функция создания моментов

Отсюда также следует, что производящая функция момента равна

В частности, M X ( α ; β ; 0) = 1.

Высшие моменты

Используя производящую функцию момента , kнеобработанный момент задается множителем

умножая член (экспоненциальный ряд) в ряду производящей функции момента

где ( x ) ( k ) - символ Поххаммера, представляющий возрастающий факториал. Его также можно записать в рекурсивной форме как

Поскольку производящая функция момента имеет положительный радиус сходимости, бета-распределение определяется ее моментами .

Моменты преобразованных случайных величин

Моменты линейно преобразованных, произведенных и инвертированных случайных величин

Можно также показать следующие ожидания для преобразованной случайной величины, где случайная величина X является бета-распределенной с параметрами α и β: X ~ Beta (α, β). Ожидаемое значение переменной 1 -  X является зеркальной симметрией ожидаемого значения на основе X :

Из-за зеркальной симметрии функции плотности вероятности бета-распределения дисперсии, основанные на переменных X и 1 -  X , идентичны, а ковариация на X (1 -  X является отрицательной величиной дисперсии:

Это ожидаемые значения для инвертированных переменных (они связаны со средними гармониками, см. Раздел «Среднее гармоническое»):

Следующее преобразование путем деления переменной X на ее зеркальное отображение X / (1 -  X ) приводит к ожидаемому значению «инвертированного бета-распределения» или бета-простого распределения (также известного как бета-распределение второго типа или тип VI Пирсона. ):

Вариации этих преобразованных переменных могут быть получены интегрированием как ожидаемые значения вторых моментов, центрированных на соответствующих переменных:

Следующая дисперсия переменной X, деленная на ее зеркальное отображение ( X / (1 - X ), приводит к дисперсии «инвертированного бета-распределения» или бета-простого распределения (также известного как бета-распределение второго типа или тип VI Пирсона). ):

Ковариации:

Эти ожидания и отклонения отображаются в четырехпараметрической информационной матрице Фишера (раздел под названием «Информация Фишера», «четыре параметра»).

Моменты логарифмически преобразованных случайных величин
График logit ( X ) = ln ( X / (1 - X )) (вертикальная ось) относительно X в области от 0 до 1 (горизонтальная ось). Логит-преобразования интересны, так как они обычно преобразуют различные формы (включая J-образные) в (обычно наклонные) колоколообразные плотности по логит-переменной, и они могут удалять конечные сингулярности по исходной переменной.

Ожидаемые значения для логарифмических преобразований (полезно для оценок максимального правдоподобия , см. Раздел «Оценка параметров, максимальная вероятность» ниже) обсуждаются в этом разделе. Следующие логарифмические линейные преобразования связаны со средними геометрическими G X и G (1 - X ) (см. Раздел «Среднее геометрическое»):

Там , где функция дигамма ψ (α) определяется как логарифмическая производная от гамма - функции :

Логит- преобразования интересны, так как они обычно преобразуют различные формы (включая J-образные) в (обычно наклонные) колоколообразные плотности по переменной логит, и они могут удалить конечные сингулярности по исходной переменной:

Джонсон рассмотрел распределение логит- преобразованной переменной ln ( X / 1 - X ), включая ее производящую функцию момента и приближения для больших значений параметров формы. Это преобразование расширяет конечный носитель [0, 1] на основе исходной переменной X до бесконечного носителя в обоих направлениях действительной прямой (−∞, + ∞).

Логарифмические моменты более высокого порядка могут быть получены путем использования представления бета-распределения как пропорции двух гамма-распределений и дифференцирования через интеграл. Их можно выразить через полигамма-функции более высокого порядка следующим образом:

следовательно, дисперсия логарифмических переменных и ковариация ln ( X ) и ln (1 - X ) равны:

где тригамма-функция , обозначаемая ψ 1 (α), является второй из полигамма-функций и определяется как производная дигамма- функции:

.

Дисперсия и ковариация логарифмически преобразованных переменных X и (1 - X ) различаются, как правило, потому что логарифмическое преобразование разрушает зеркальную симметрию исходных переменных X и (1 - X ), поскольку логарифм приближается к отрицательной бесконечности для переменная приближается к нулю.

Эти логарифмические дисперсии и ковариация являются элементами информационной матрицы Фишера для бета-распределения. Они также являются мерой кривизны логарифмической функции правдоподобия (см. Раздел об оценке максимального правдоподобия).

Дисперсии логарифмических обратных переменных идентичны дисперсиям логарифмических переменных:

Отсюда также следует, что дисперсии преобразованных логитом переменных равны:

Количество информации (энтропия)

Учитывая , бета - распределенной случайной величиной, Х ~ Бета ( α , β ), то дифференциальное энтропии из X является (измеряется в нац ), ожидаемое значение отрицательного логарифма от функции плотности вероятности :

где f ( x ; α , β ) - функция плотности вероятности бета-распределения:

В дигамма Функция i | появляется в формуле для дифференциальной энтропии как следствие интегральной формулы Эйлера для гармонических чисел , который вытекает из интеграла:

Дифференциальной энтропии бета - распределения является отрицательным для всех значений & alpha ; и & beta ; больше нуля, за исключением того, при α = β = 1 (для которых значения бета - распределение является таким же , как равномерного распределения ), где Дифференциальная энтропия достигает своего максимума значение ноль. Следует ожидать, что максимальная энтропия должна иметь место, когда бета-распределение становится равным равномерному распределению, поскольку неопределенность максимальна, когда все возможные события равновероятны.

Когда α или β приближаются к нулю, дифференциальная энтропия приближается к своему минимальному значению отрицательной бесконечности. Для (любого или обоих) α или β, приближающихся к нулю, существует максимальная степень порядка: вся плотность вероятности сосредоточена на концах, а плотность вероятности равна нулю в точках, расположенных между концами. Точно так же для (любого или обоих) α или β, приближающихся к бесконечности, дифференциальная энтропия приближается к своему минимальному значению отрицательной бесконечности и максимальной величине порядка. Если либо α, либо β приближается к бесконечности (а другое конечное), вся плотность вероятности сосредоточена в конце, а плотность вероятности равна нулю везде. Если оба параметра формы равны (симметричный случай), α = β , и они одновременно приближаются к бесконечности, плотность вероятности становится пиком ( дельта-функция Дирака ), сосредоточенным в середине x = 1/2, и, следовательно, существует 100% вероятность в середине x = 1/2 и нулевая вероятность везде.

Бета-распределение дифференциальной энтропии для альфа и бета от 1 до 5 - Дж. Родал.jpgБета-распределение дифференциальной энтропии для альфа и бета от 0,1 до 5 - Дж. Родал.jpg

Дифференциальная энтропия (непрерывный случай) была введена Шенноном в его оригинальной статье (где он назвал ее «энтропией непрерывного распределения») в качестве заключительной части той же статьи, где он определил дискретную энтропию . С тех пор известно, что дифференциальная энтропия может отличаться от бесконечно малого предела дискретной энтропии на бесконечное смещение, поэтому дифференциальная энтропия может быть отрицательной (как и для бета-распределения). Что действительно важно, так это относительное значение энтропии.

Учитывая две бета-распределенные случайные величины, X 1 ~ Beta ( α , β ) и X 2 ~ Beta ( α ', β '), перекрестная энтропия (измеряется в натсах)

Крест энтропия была использована в качестве метрики ошибок для измерения расстояния между двумя гипотезами. Его абсолютное значение минимально, когда два распределения идентичны. Это информационная мера, наиболее тесно связанная с журналом максимального правдоподобия (см. Раздел «Оценка параметров. Оценка максимального правдоподобия»)).

Относительная энтропия, или дивергенция Кульбака – Лейблера D KL ( X 1 || X 2 ), является мерой неэффективности предположения, что распределение является X 2 ~ Beta ( α ′, β ′), когда распределение действительно X 1 ~ Бета ( α , β ). Он определяется следующим образом (измеряется в натсах).

Относительная энтропия, или дивергенция Кульбака – Лейблера , всегда неотрицательна. Далее следуют несколько числовых примеров:

  • X 1 ~ бета (1, 1) и X 2 ~ бета (3, 3); D KL ( X 1 || X 2 ) = 0,598803; D KL ( X 2 || X 1 ) = 0,267864; h ( X 1 ) = 0; ч ( Х 2 ) = -0,267864
  • X 1 ~ бета (3, 0,5) и X 2 ~ бета (0,5, 3); D KL ( X 1 || X 2 ) = 7,21574; D KL ( X 2 || X 1 ) = 7,21574; h ( X 1 ) = -1,10805; ч ( Х 2 ) = -1,10805.

Дивергенции Кульбака-Либлер не является симметричным D KL ( Х 1 || Х 2 ) ≠ D KL ( Х 2 || Х 1 ) для случая , в котором индивидуум бета - распределения бета (1, 1) и бета (3, 3 ) симметричны, но имеют разные энтропии h ( X 1 ) ≠ h ( X 2 ). Величина дивергенции Кульбака зависит от направления движения: идет ли переход от более высокой (дифференциальной) энтропии к более низкой (дифференциальной) энтропии или наоборот. В приведенном выше числовом примере дивергенция Кульбака измеряет неэффективность предположения, что распределение является (колоколообразным) бета (3, 3), а не (равномерным) бета (1, 1). Энтропия "h" бета (1, 1) выше, чем энтропия "h" бета (3, 3), потому что равномерное распределение бета (1, 1) имеет максимальное количество беспорядка. Дивергенция Кульбака более чем в два раза выше (0,598803 вместо 0,267864) при измерении в направлении уменьшения энтропии: направлении, которое предполагает, что (равномерное) бета (1, 1) распределение является (колоколообразным) бета (3, 3), а не наоборот. В этом ограниченном смысле дивергенция Кульбака согласуется со вторым началом термодинамики .

Дивергенции Кульбака-Либлер симметрична D KL ( Х 1 || Х 2 ) = D KL ( Х 2 || Х 1 ) для перекошенных случаев бета (3, 0,5) и бета (0,5, 3) , которые имеют равную дифференциальной энтропии ч ( Х 1 ) = ч ( Х 2 ).

Условие симметрии:

следует из приведенных выше определений и зеркальной симметрии f ( x ; α , β ) = f (1− x ; α , β ), которой обладает бета-распределение.

Связь между статистическими показателями

Среднее значение, мода и медианное отношение

Если 1 <α <β, то мода ≤ медиана ≤ среднее. Выражая моду (только для α, β> 1) и среднее значение через α и β:

Если 1 <β <α, то порядок неравенств меняется на противоположный. Для α, β> 1 абсолютное расстояние между средним и медианным значением составляет менее 5% расстояния между максимальным и минимальным значениями x . С другой стороны, абсолютное расстояние между средним значением и модой может достигать 50% расстояния между максимальным и минимальным значениями x для ( патологического ) случая α = 1 и β = 1 (для которых значения бета распределение приближается к равномерному распределению, а дифференциальная энтропия приближается к своему максимальному значению и, следовательно, к максимальному «беспорядку»).

Например, для α = 1.0001 и β = 1.00000001:

  • mode = 0,9999; PDF (режим) = 1.00010
  • среднее = 0,500025; PDF (среднее значение) = 1,00003
  • медиана = 0,500035; PDF (медиана) = 1,00003
  • среднее - режим = −0,499875
  • среднее - медиана = −9,65538 × 10 −6

(где PDF означает значение функции плотности вероятности )

Средняя медианная разница - бета-распределение для альфа и бета от 1 до 5 - J. Rodal.jpg Средняя разница режимов - Распределение бета для альфа и бета от 1 до 5 - J. Rodal.jpg

Среднее, среднее геометрическое и среднее гармоническое соотношение

: Среднее, Медианное, Среднее геометрическое и Среднее гармоническое для бета-распределения с 0 <α = β <5

Из неравенства средних арифметических и геометрических известно, что среднее геометрическое ниже среднего. Точно так же среднее гармоническое значение ниже среднего геометрического. Сопровождающий график показывает, что для α = β и среднее, и медиана точно равны 1/2, независимо от значения α = β, и мода также равна 1/2 для α = β> 1, однако геометрические и гармонические средние меньше 1/2, и они приближаются к этому значению асимптотически только при α = β → ∞.

Эксцесс, ограниченный квадратом асимметрии

Параметры бета-распределения α и β в зависимости от избыточного эксцесса и квадрата асимметрии

Как заметил Феллер , в системе Пирсона бета-плотность вероятности отображается как тип I (любое различие между бета-распределением и распределением Пирсона типа I является лишь поверхностным и не имеет значения для следующего обсуждения взаимосвязи между эксцессом и асимметрией). Карл Пирсон показал в таблице 1 своей статьи, опубликованной в 1916 году, график с эксцессом в качестве вертикальной оси ( ордината ) и квадратом асимметрии в качестве горизонтальной оси ( абсцисса ), на котором было отображено несколько распределений. Область , занятая бета распределение ограничена следующие два линий в (перекосе 2 , эксцесс) плоскости , или (перекос 2 , избыток эксцесс) плоскость :

или, что то же самое,

(В то время, когда не было мощных цифровых компьютеров), Карл Пирсон точно вычислил дальнейшие границы, например, отделяя «U-образное» от «J-образное» распределения. Нижняя граничная линия (избыточный эксцесс + 2 - асимметрия 2 = 0) образована наклонными «U-образными» бета-распределениями с обоими значениями параметров формы α и β, близкими к нулю. Верхняя граничная линия (избыточный эксцесс - (3/2) асимметрия 2 = 0) создается чрезвычайно асимметричными распределениями с очень большими значениями одного из параметров и очень маленькими значениями другого параметра. Карл Пирсон показал, что эта верхняя граничная линия (избыточный эксцесс - (3/2) асимметрия 2 = 0) также является пересечением с распределением Пирсона III, которое имеет неограниченную поддержку в одном направлении (в сторону положительной бесконечности) и может иметь форму колокола. или J-образный. Его сын, Эгон Пирсон , показал, что область (в плоскости эксцесса / квадрата асимметрии) занята бета-распределением (эквивалентно распределением Пирсона I) по мере приближения к этой границе (избыточный эксцесс - (3/2) асимметрия 2 = 0 ) разделяется с нецентральным распределением хи-квадрат . Карл Пирсон (Pearson 1895, pp. 357, 360, 373–376) также показал, что гамма-распределение является распределением типа III Пирсона. Следовательно, эта граничная линия для распределения типа III Пирсона известна как гамма-линия. (Это можно показать из того факта, что избыточный эксцесс гамма-распределения равен 6 / k, а квадрат асимметрии равен 4 / k , следовательно (избыточный эксцесс - (3/2) асимметрия 2 = 0) тождественно удовлетворяется гамма - распределение , независимо от значения параметра «K»). Позже Пирсон заметил, что распределение хи-квадрат является частным случаем типа III Пирсона и также разделяет эту граничную линию (как это очевидно из того факта, что для распределения хи-квадрат избыточный эксцесс составляет 12 / k, а квадрат распределения асимметрия составляет 8 / k , следовательно (избыточный эксцесс - (3/2) асимметрия 2 = 0) одинаково удовлетворяется независимо от значения параметра «k»). Этого следовало ожидать, поскольку распределение хи-квадрат X ~ χ 2 ( k ) является частным случаем гамма-распределения с параметризацией X ~ Γ (k / 2, 1/2), где k - положительное целое число, определяющее «число степеней свободы» распределения хи-квадрат.

Пример бета-распределения около верхней границы (избыточный эксцесс - (3/2) асимметрия 2 = 0) задается как α = 0,1, β = 1000, для которого соотношение (избыточный эксцесс) / (асимметрия 2 ) = 1,49835 приближается к верхней границе 1,5 снизу. Пример бета-распределения около нижней границы (избыточный эксцесс + 2 - асимметрия 2 = 0) дается выражением α = 0,0001, β = 0,1, для которого значения выражаются (избыточный эксцесс + 2) / (асимметрия 2 ) = 1,01621 приближается к нижнему пределу 1 сверху. В бесконечно малом пределе как для α, так и для β, симметрично приближающихся к нулю, избыточный эксцесс достигает своего минимального значения при −2. Это минимальное значение находится в точке, в которой нижняя граничная линия пересекает вертикальную ось ( ординату ). (Однако в исходной диаграмме Пирсона ордината - это эксцесс, а не избыточный эксцесс, и он увеличивается вниз, а не вверх).

Значения асимметрии и избыточного эксцесса ниже нижней границы (избыточный эксцесс + 2 - асимметрия 2 = 0) не могут иметь место ни для какого распределения, и поэтому Карл Пирсон правильно назвал область ниже этой границы «невозможной областью». Граница этой «невозможной области» определяется (симметричным или скошенным) бимодальным U-образным распределением, для которого параметры α и β стремятся к нулю и, следовательно, вся плотность вероятности сосредоточена на концах: x = 0, 1 с практически между ними ничего нет. Поскольку при α ≈ β ≈ 0 плотность вероятности сосредоточена на двух концах x = 0 и x = 1, эта «невозможная граница» определяется двухточечным распределением: вероятность может принимать только 2 значения ( распределение Бернулли ), одно значение с вероятностью p, а другое с вероятностью q = 1− p . Для случаев, приближающихся к этой предельной границе с симметрией α = β, асимметрия ≈ 0, избыточный эксцесс ≈ −2 (это самый низкий избыточный эксцесс, возможный для любого распределения), и вероятности pq ≈ 1/2. Для случаев, приближающихся к этой предельной границе с асимметрией, избыточный эксцесс ≈ −2 + асимметрия 2 , а плотность вероятности сконцентрирована больше на одном конце, чем на другом (практически ничего между ними), с вероятностями на левом конце x = 0 и на правом конце x = 1.

Симметрия

Все утверждения условны, если α, β> 0

  • Каждое геометрическое средство асимметрично по отдельности, следующая симметрия применяется между средним геометрическим, основанным на X, и средним геометрическим, основанным на его отражении (1-X)
  • Гармоника означает, что каждый по отдельности асимметричен, следующая симметрия применяется между гармоническим средним на основе X и гармоническим средним на основе его отражения (1-X)
.
  • Симметрия дисперсии
  • Каждая геометрическая дисперсия асимметрична по отдельности, следующая симметрия применяется между логарифмической геометрической дисперсией, основанной на X, и логарифмической геометрической дисперсией, основанной на ее отражении (1-X)
  • Геометрическая ковариационная симметрия
  • Избыточная симметрия эксцесса
  • Дифференциальная энтропийная симметрия
  • Симметрия информационной матрицы Фишера

Геометрия функции плотности вероятности

Точки перегиба

Расположение точки перегиба по сравнению с α и β, показывающие области с одной точкой перегиба
Расположение точки перегиба по сравнению с α и β, показывающее область с двумя точками перегиба

При определенных значениях параметров формы α и β функция плотности вероятности имеет точки перегиба , в которых кривизна меняет знак. Положение этих точек перегиба может быть полезно в качестве меры дисперсии или разброса распределения.

Определение следующего количества:

В зависимости от значений параметров формы α и β возникают следующие точки перегиба:

  • (α> 2, β> 2) Распределение колоколообразное (симметричное при α = β и скошенное в противном случае) с двумя точками перегиба , равноудаленными от моды:
  • (α = 2, β> 2) Распределение унимодальное, с положительным перекосом, с правым хвостом, с одной точкой перегиба , расположенной справа от моды:
  • (α> 2, β = 2) Распределение одномодальное, с отрицательным перекосом, левостороннее, с одной точкой перегиба , расположенной слева от моды:
  • (1 <α <2, β> 2, α + β> 2) Распределение одномодальное, с положительным перекосом, с правым хвостом, с одной точкой перегиба , расположенной справа от моды:
  • (0 <α <1, 1 <β <2) Распределение имеет моду на левом конце x = 0, и оно положительно скошено, имеет правый хвост. Справа от режима есть одна точка перегиба :
  • (α> 2, 1 <β <2) Распределение одномодальное, отрицательно скошенное, левостороннее, с одной точкой перегиба , расположенной слева от моды:
  • (1 <α <2, 0 <β <1) Распределение имеет моду на правом конце x = 1, и оно имеет отрицательный перекос, левосторонний. Слева от режима есть одна точка перегиба :

В остальных (симметричных и перекошенных) областях точек перегиба нет: U-образная: (α, β <1) перевернутая-U-образная: (1 <α <2, 1 <β <2), обратная- J-образный (α <1, β> 2) или J-образный: (α> 2, β <1)

На прилагаемых графиках показаны положения точек перегиба (показаны вертикально в диапазоне от 0 до 1) в зависимости от α и β (горизонтальные оси в диапазоне от 0 до 5). Есть большие разрезы на поверхностях, пересекающих линии α = 1, β = 1, α = 2 и β = 2, потому что при этих значениях бета-распределение изменяется с 2-х мод на 1-моду на отсутствие моды.

Формы

PDF для симметричного бета-распределения в зависимости от x и α  =  β от 0 до 30
PDF для симметричного бета-распределения в зависимости от x и α  =  β от 0 до 2
PDF для искаженного бета-распределения в зависимости от x и β  = 2,5 α от 0 до 9
PDF для искаженного бета-распределения в зависимости от x и β  = 5,5 α от 0 до 9
PDF для искаженного бета-распределения в зависимости от x и β  = 8 α от 0 до 10

Функция бета-плотности может принимать самые разные формы в зависимости от значений двух параметров α и β . Способность бета-распределения принимать такое большое разнообразие форм (с использованием только двух параметров) частично отвечает за то, что оно нашло широкое применение для моделирования реальных измерений:

Симметричный ( α = β )
  • функция плотности симметрична относительно 1/2 (синие и бирюзовые графики).
  • медиана = среднее значение = 1/2.
  • асимметрия = 0.
  • дисперсия = 1 / (4 (2α + 1))
  • α = β <1
    • П-образный (синий участок).
    • бимодальный: левый режим = 0, правый режим = 1, антирежим = 1/2
    • 1/12 <var ( X ) <1/4
    • −2 <избыточный эксцесс ( X ) <−6/5
    • α = β = 1/2 - распределение арксинуса
      • var ( X ) = 1/8
      • избыточный эксцесс ( X ) = −3/2
      • CF = Rinc (t)
    • α = β → 0 - это двухточечное распределение Бернулли с равной вероятностью 1/2 на каждом конце дельта-функции Дирака x = 0 и x = 1 и нулевой вероятностью везде. Подбрасывание монеты: одна грань монеты x = 0, а другая сторона x = 1.
      • более низкое значение, чем это, невозможно для любого распределения.
      • Дифференциальная энтропия приближается к минимальной стоимости -∞
  • α = β = 1
  • α = β > 1
    • симметричный унимодальный
    • режим = 1/2.
    • 0 <var ( X ) <1/12
    • −6/5 <избыточный эксцесс ( X ) <0
    • α = β = 3/2 - полуэллиптическое [0, 1] распределение, см .: Полукруговое распределение Вигнера
      • var ( X ) = 1/16.
      • избыточный эксцесс ( X ) = −1
      • CF = 2 Джинк (т)
    • α = β = 2 - параболическое [0, 1] распределение
      • var ( X ) = 1/20
      • избыточный эксцесс ( X ) = −6/7
      • CF = 3 Tinc (т)
    • α = β > 2 имеет форму колокола с точками перегиба, расположенными по обе стороны от моды.
      • 0 <var ( X ) <1/20
      • −6/7 <избыточный эксцесс ( X ) <0
    • α = β → ∞ - это вырожденное распределение с одной точкой с всплеском дельта-функции Дирака в средней точке x = 1/2 с вероятностью 1 и нулевой вероятностью везде. 100% вероятность (абсолютная уверенность) сосредоточена в единственной точке x = 1/2.
      • Дифференциальная энтропия приближается к минимальной стоимости -∞
Перекошенный ( αβ )

Функция плотности искажена . Обмен значениями параметров дает зеркальное отображение (обратное) исходной кривой, в некоторых более конкретных случаях:

  • α <1, β <1
    • U-образный
    • Положительный перекос при α <β, отрицательный перекос при α> β.
    • бимодальный: левый режим = 0, правый режим = 1, антирежим =
    • 0 <медиана <1.
    • 0 <var ( X ) <1/4
  • α> 1, β> 1
    • унимодальные (пурпурные и голубые участки),
    • Положительный перекос при α <β, отрицательный перекос при α> β.
    • 0 <медиана <1
    • 0 <var ( X ) <1/12
  • α <1, β ≥ 1
    • обратный J-образный с правым хвостом,
    • положительно перекошенный,
    • строго убывающий, выпуклый
    • режим = 0
    • 0 <медиана <1/2.
    • (максимальная дисперсия возникает для , или α = Φ, сопряженного с золотым сечением )
  • α ≥ 1, β <1
    • J-образная с левым хвостом,
    • отрицательно перекос,
    • строго возрастающий, выпуклый
    • mode = 1
    • 1/2 <медиана <1
    • (максимальная дисперсия возникает для , или β = Φ, сопряженного с золотым сечением )
  • α = 1, β> 1
    • положительно перекошенный,
    • строго по убыванию (красный график),
    • обратное (зеркальное) распределение [0,1] степенной функции
    • среднее = 1 / (β + 1)
    • медиана = 1 - 1/2 1 / β
    • режим = 0
    • α = 1, 1 <β <2
      • вогнутый
      • 1/18 <var ( X ) <1/12.
    • α = 1, β = 2
      • прямая линия с наклоном −2, прямоугольное распределение с прямым углом на левом конце, при x = 0
      • var ( X ) = 1/18
    • α = 1, β> 2
      • обратный J-образный с правым хвостом,
      • выпуклый
      • 0 <var ( X ) <1/18
  • α> 1, β = 1
    • отрицательно перекос,
    • строго возрастающий (зеленый участок),
    • распределение степенной функции [0, 1]
    • среднее = α / (α + 1)
    • медиана = 1/2 1 / α
    • mode = 1
    • 2> α> 1, β = 1
      • вогнутый
      • 1/18 <var ( X ) <1/12
    • α = 2, β = 1
      • прямая линия с наклоном +2, прямоугольное распределение с прямым углом на правом конце, при x = 1
      • var ( X ) = 1/18
    • α> 2, β = 1
      • J-образная с левым хвостом, выпуклая
      • 0 <var ( X ) <1/18

Связанные дистрибутивы

Трансформации

  • Если X ~ Beta ( α , β ), то 1 - X ~ Beta ( β , α ) симметрия зеркального отображения
  • Если X ~ Beta ( α , β ), то . Основное бета-распределение , также называемое «бета-распределением второго типа».
  • Если X ~ Beta ( α , β ), то .
  • Если X ~ Beta ( n / 2, m / 2), то (при условии n > 0 и m > 0) F-распределение Фишера – Снедекора .
  • Если тогда min + X (max - min) ~ PERT (min, max, m , λ ), где PERT обозначает распределение PERT, используемое в анализе PERT , а m = наиболее вероятное значение. Традиционно λ = 4 в PERT-анализе.
  • Если X ~ Beta (1, β ), то X ~ распределение Кумарасвами с параметрами (1, β )
  • Если X ~ Beta ( α , 1), то X ~ распределение Кумарасвами с параметрами ( α , 1)
  • Если X ~ Beta ( α , 1), то −ln ( X ) ~ Exponential ( α )

Особые и предельные случаи

Пример восьми реализаций случайного блуждания в одном измерении, начиная с 0: вероятность для времени последнего посещения источника распределяется как Beta (1/2, 1/2)
Бета (1/2, 1/2): плотность вероятности распределения арксинуса была предложена Гарольдом Джеффрисом для представления неопределенности для распределения Бернулли или биномиального распределения в байесовском выводе , и теперь ее обычно называют априорной Джеффри : p −1/2 (1 -  р ) −1/2 . Это распределение также фигурирует в нескольких фундаментальных теоремах о случайных блужданиях.
  • Бета (1, 1) ~ U (0, 1) .
  • Бета (n, 1) ~ Максимум n независимых значений. с U (0, 1) , иногда называемым стандартным распределением степенной функции с плотностью n  x n -1 на этом интервале.
  • Beta (1, n) ~ Минимум n независимых rvs. с U (0, 1)
  • Если X ~ Beta (3/2, 3/2) и r > 0, то 2 rX  -  r ~ распределение полукругов Вигнера .
  • Бета (1/2, 1/2) эквивалентна арксинусному распределению . Это распределение также является априорной вероятностью Джеффриса для распределений Бернулли и биномиальных распределений . Плотность вероятности арксинуса - это распределение, которое фигурирует в нескольких фундаментальных теоремах о случайных блужданиях. При случайном блуждании с честным подбрасыванием монеты вероятность времени последнего посещения точки отсчета распределяется как (U-образное) распределение арксинуса . В игре с честным подбрасыванием монеты для двух игроков считается, что игрок лидирует, если случайное блуждание (начавшееся в исходной точке) происходит выше исходной точки. Наиболее вероятное число раз , что данный игрок будет в лидерах, в игре длина 2 N , не N . Напротив, N - это наименьшее количество раз, когда игрок будет лидировать. Наиболее вероятное количество раз в отведении - 0 или 2 N (в соответствии с распределением арксинуса ).
  • экспоненциальное распределение .
  • гамма - распределение .

Получено из других дистрибутивов

  • К - го порядка статистики образца размером п от равномерного распределения является бета - случайная величина, U ( K ) ~ Бета ( к , п + 1 к ).
  • Если X ~ Gamma (α, θ) и Y ~ Gamma (β, θ) независимы, то .
  • Если и независимы, то .
  • Если X ~ U (0, 1) и α > 0, то X 1 / α ~ Beta ( α , 1). Распределение степенной функции.
  • Если , то для дискретных значений n и k где и .

Сочетание с другими дистрибутивами

  • X ~ Beta ( α , β ) и Y ~ F (2 β , 2 α ), тогда для всех x > 0.

Компаундирование с другими дистрибутивами

Обобщения

Статистические выводы

Оценка параметров

Метод моментов

Два неизвестных параметра

Два неизвестных параметра ( бета-распределения, поддерживаемого в интервале [0,1]) могут быть оценены с использованием метода моментов с первыми двумя моментами (выборочное среднее и выборочная дисперсия) следующим образом. Позволять:

быть выборочной средней оценкой и

быть оценкой дисперсии выборки . В методе-из-моментов оценки параметров являются

если
если

Если требуется распределение в известном интервале, отличном от [0, 1] со случайной величиной X , скажем [ a , c ] со случайной величиной Y , то замените на и на в приведенной выше паре уравнений для параметров формы (см. Раздел «Альтернативные параметризации, четыре параметра» ниже)., Где:

Четыре неизвестных параметра
Решения для оценок параметров в зависимости от (выборки) избыточного эксцесса и (выборочного) квадрата асимметрии Бета-распределения

Все четыре параметра ( бета-распределения, поддерживаемого в интервале [ a , c ] - см. Раздел «Альтернативные параметризации, четыре параметра» -) могут быть оценены с использованием метода моментов, разработанного Карлом Пирсоном , путем приравнивания значений выборки и генеральной совокупности первые четыре центральных момента (среднее значение, дисперсия, асимметрия и избыточный эксцесс). Избыточный эксцесс выражался в квадрате асимметрии и размера выборки ν = α + β (см. Предыдущий раздел «Эксцесс» ) следующим образом:

Это уравнение можно использовать для определения размера выборки ν = α + β через квадрат асимметрии и избыточного эксцесса следующим образом:

Это отношение (умноженное на коэффициент 3) между ранее полученными границами предела для бета-распределения в пространстве (как первоначально было сделано Карлом Пирсоном), определенное с координатами квадрата асимметрии по одной оси и избыточного эксцесса в другая ось (см. предыдущий раздел под названием «Эксцесс, ограниченный квадратом асимметрии»):

Случай нулевой перекоса может быть решен немедленно, потому что для нулевого перекоса α = β и, следовательно, ν = 2α = 2β, следовательно, α = β = ν / 2

(Избыточный эксцесс отрицателен для бета-распределения с нулевой асимметрией, в диапазоне от -2 до 0, так что - и, следовательно, параметры формы образца - положительны, в диапазоне от нуля, когда параметры формы приближаются к нулю, а избыточный эксцесс приближается к -2, до бесконечности, когда параметры формы стремятся к бесконечности, а избыточный эксцесс приближается к нулю).

Для ненулевой асимметрии выборки необходимо решить систему двух связанных уравнений. Поскольку асимметрия и избыточный эксцесс не зависят от параметров , параметры могут быть однозначно определены на основе асимметрии образца и избыточного эксцесса образца путем решения связанных уравнений с двумя известными переменными (асимметрия образца и избыточный эксцесс образца) и двумя неизвестными ( параметры формы):

в результате получается следующее решение:

Где следует принимать следующие решения: для (отрицательной) асимметрии образца <0, а для (положительной) асимметрии образца> 0.

На прилагаемом графике эти два решения показаны в виде поверхностей в пространстве с горизонтальными осями (избыточный эксцесс образца) и (квадрат асимметрии образца) и параметрами формы в качестве вертикальной оси. Поверхности ограничены условием, что избыточный эксцесс образца должен быть ограничен квадратом асимметрии образца, как указано в приведенном выше уравнении. Две поверхности встречаются на правом краю, определяемом нулевым перекосом. Вдоль этого правого края оба параметра равны, и распределение имеет симметричную U-образную форму для α = β <1, равномерную для α = β = 1, перевернутую U-образную форму для 1 <α = β <2 и колоколообразную форму. форма для α = β> 2. Поверхности также встречаются на передней (нижней) кромке, определяемой линией «невозможной границы» (избыточный эксцесс + 2 - перекос 2 = 0). Вдоль этой передней (нижней) границы оба параметра формы приближаются к нулю, а плотность вероятности больше сосредоточена на одном конце, чем на другом конце (практически ничего между ними), с вероятностями на левом конце x = 0 и на правом конце x = 1. Две поверхности становятся дальше друг от друга по направлению к заднему краю. На этой задней кромке параметры поверхности сильно отличаются друг от друга. Как отметили, например, Боуман и Шентон, отбор пробы вблизи линии (избыточный эксцесс - (3/2) (асимметрия) 2 = 0) (J-образная часть заднего края, где синий встречается с бежевым), «опасно близок к хаосу», потому что на этой линии знаменатель выражения выше для оценки ν = α + β становится равным нулю и, следовательно, ν приближается к бесконечности по мере приближения к этой линии. Боуман и Шентон пишут, что «параметры высших моментов (эксцесс и асимметрия) чрезвычайно хрупки (около этой линии). Однако среднее значение и стандартное отклонение довольно надежны». Таким образом, проблема возникает в случае оценки четырех параметров для очень асимметричных распределений, так что избыточный эксцесс приближается к квадрату асимметрии в 3/2 раза. Эта граничная линия образована чрезвычайно искаженными распределениями с очень большими значениями одного из параметров и очень маленькими значениями другого параметра. См. Раздел под названием «Эксцесс, ограниченный квадратом асимметрии» для получения числового примера и дополнительных комментариев по поводу этой граничной линии заднего края (примерный эксцесс - (3/2) (выборочная асимметрия) 2 = 0). Как заметил сам Карл Пирсон, этот вопрос может не иметь большого практического значения, поскольку эта проблема возникает только для сильно искаженных J-образных (или зеркальных J-образных) распределений с очень разными значениями параметров формы, которые вряд ли будут часто встречаться в упражняться). Обычные косоугольные распределения, которые встречаются на практике, не имеют этой проблемы оценки параметров.

Остальные два параметра могут быть определены с использованием выборочного среднего и выборочной дисперсии с использованием различных уравнений. Одна из альтернатив - рассчитать диапазон опорного интервала на основе дисперсии выборки и эксцесса выборки. Для этой цели можно решить в терминах диапазона уравнение, выражающее избыточный эксцесс через дисперсию выборки и размер выборки ν (см. Разделы «эксцесс» и «Альтернативные параметризации, четыре параметра»):

чтобы получить:

Другой альтернативой является вычисление диапазона опорного интервала на основе дисперсии выборки и асимметрии выборки. Для этого можно решить в терминах диапазона уравнение, выражающее квадрат асимметрии через дисперсию выборки и размер выборки ν (см. Разделы «Асимметрия» и «Альтернативные параметризации, четыре параметра»):

чтобы получить:

Остающийся параметр можно определить из выборочного среднего и ранее полученных параметров :

и , наконец, конечно, .

В приведенных выше формулах можно взять, например, оценки моментов выборки:

Оценщики G 1 для асимметрии выборки и G 2 для эксцесса выборки используются DAP / SAS , PSPP / SPSS и Excel . Однако они не используются BMDP и (согласно) они не использовались MINITAB в 1998 году. Фактически, Joanes и Gill в своем исследовании 1998 года пришли к выводу, что оценки асимметрии и эксцесса, используемые в BMDP и MINITAB (в то время), имели меньшая дисперсия и среднеквадратичная ошибка в нормальных выборках, но оценки асимметрии и эксцесса, используемые в DAP / SAS , PSPP / SPSS , а именно G 1 и G 2 , имели меньшую среднеквадратичную ошибку в выборках из очень асимметричного распределения. Именно по этой причине мы прописали «асимметрию выборки» и т. Д. В приведенных выше формулах, чтобы явно указать, что пользователь должен выбрать лучшую оценку в соответствии с рассматриваемой проблемой, как лучшую оценку асимметрии и эксцесса. зависит от степени асимметрии (как показано Джоанесом и Гиллом).

Максимальная вероятность

Два неизвестных параметра
Макс (совместное логарифмическое правдоподобие / N ) для максимумов бета-распределения при α  =  β  = 2
Макс (совместное логарифмическое правдоподобие / N ) для максимумов бета-распределения при α  =  β  ∈ {0,25,0,5,1,2,4,6,8}

Как и в случае оценок максимального правдоподобия для гамма-распределения , оценки максимального правдоподобия для бета-распределения не имеют общего решения в замкнутой форме для произвольных значений параметров формы. Если X 1 , ..., X N являются независимыми случайными величинами, каждая из которых имеет бета-распределение, функция правдоподобия совместного журнала для N iid наблюдений будет:

Нахождение максимума по параметру формы включает взятие частной производной по параметру формы и установку выражения равным нулю, что дает оценку максимального правдоподобия параметров формы:

куда:

так как функция дигамма обозначается ψ (α) определяется как логарифмическая производная от гамма - функции :

Чтобы гарантировать, что значения с нулевым наклоном касательной действительно являются максимальными (вместо точки перевала или минимума), необходимо также выполнить условие, что кривизна отрицательна. Это означает, что вторая частная производная по параметрам формы отрицательна.

используя предыдущие уравнения, это эквивалентно:

где тригамма-функция , обозначенная ψ 1 ( α ), является второй из полигамма-функций и определяется как производная дигамма- функции:

Эти условия эквивалентны утверждению, что дисперсии логарифмически преобразованных переменных положительны, поскольку:

Следовательно, условие отрицательной кривизны в максимуме эквивалентно утверждениям:

С другой стороны , условие отрицательной кривизны в максимуме также эквивалентно тому, что следующие логарифмические производные этих геометрических значений G X и G (1-Х) являются положительными, так как :

Хотя эти наклоны действительно положительные, другие наклоны отрицательные:

Наклоны среднего и медианы относительно α и β демонстрируют сходное поведение знака.

Из условия, что в максимуме частная производная по параметру формы равна нулю, мы получаем следующую систему связанных уравнений оценки максимального правдоподобия (для среднего логарифмического правдоподобия), которую необходимо инвертировать, чтобы получить (неизвестное) оценки параметров формы через (известное) среднее значение логарифмов выборок X 1 , ..., X N :

где мы признаем , как логарифм образец среднего геометрического и как логарифм образца среднего геометрического на основе (1 -  X ), зеркально-изображение  X . Ибо следует, что .

Эти связанные уравнения, содержащие дигамма-функции оценок параметров формы, должны быть решены численными методами, как это сделано, например, Beckman et al. Gnanadesikan et al. дать численные решения для нескольких случаев. Н.Л. Джонсон и С.Котц предполагают, что для "не слишком малых" оценок параметров формы можно использовать логарифмическое приближение к дигамма-функции для получения начальных значений для итеративного решения, поскольку уравнения, полученные в результате этого приближения, могут быть решены точно:

что приводит к следующему решению для начальных значений (оценочных параметров формы в терминах примерных геометрических средних) для итерационного решения:

В качестве альтернативы, оценки, полученные методом моментов, могут вместо этого использоваться в качестве начальных значений для итеративного решения связанных уравнений максимального правдоподобия в терминах дигамма-функций.

Если требуется распределение в известном интервале, отличном от [0, 1], со случайной величиной X , скажем, [ a , c ] со случайной величиной Y , тогда замените ln ( X i ) в первом уравнении на

и заменим ln (1 - X i ) во втором уравнении на

(см. раздел «Альтернативные параметризации, четыре параметра» ниже).

Если известен один из параметров формы, задача значительно упрощается. Следующее преобразование логита может быть использовано для определения неизвестного параметра формы (для случаев с перекосом, таких, что в противном случае, если симметричный, оба параметра -equal- известны, если известен один из них):

Это логит- преобразование является логарифмом преобразования, которое делит переменную X на ее зеркальное отображение ( X / (1 - X ), что приводит к «инвертированному бета-распределению» или бета-простому распределению (также известному как бета-распределение второго рода или Тип VI Пирсона ) с поддержкой [0, + ∞). Как ранее обсуждалось в разделе «Моменты логарифмически преобразованных случайных величин», преобразование логита , изученное Джонсоном, расширяет конечную опору [0, 1] на основе исходной переменной X до бесконечной опоры в обоих направлениях действительной прямой (- ∞, + ∞).

Если, например, известен неизвестный параметр, можно получить через обратную дигамма-функцию правой части этого уравнения:

В частности, если один из параметров формы имеет значение, равное единице, например, для (распределение степенной функции с ограниченным носителем [0,1]), с использованием тождества ψ ( x + 1) = ψ ( x ) + 1 / x в уравнении , оценка максимального правдоподобия для неизвестного параметра в точности равна:

Бета имеет поддержку [0, 1], следовательно , и, следовательно , и, следовательно,

В заключение, оценки максимального правдоподобия параметров формы бета - распределения являются (в целом) сложной функцией образца среднего геометрического и образца среднего геометрического на основе (1-X) , зеркально-образа X . Можно спросить, если дисперсия (в дополнение к среднему) необходима для оценки двух параметров формы с помощью метода моментов, почему дисперсия (логарифмическая или геометрическая) не требуется для оценки двух параметров формы с помощью метода максимального правдоподобия для каких только геометрических средств достаточно? Ответ в том, что среднее значение не дает такой информации, как среднее геометрическое. Для бета-распределения с равными параметрами формы α  =  β среднее значение равно 1/2, независимо от значения параметров формы и, следовательно, независимо от значения статистической дисперсии (дисперсии). С другой стороны, среднее геометрическое бета-распределения с равными параметрами формы α  =  β зависит от значения параметров формы и, следовательно, содержит больше информации. Кроме того, среднее геометрическое бета-распределения не удовлетворяет условиям симметрии, которым удовлетворяет среднее значение, поэтому, используя как среднее геометрическое, основанное на X, так и среднее геометрическое на основе (1 -  X ), метод максимального правдоподобия может обеспечить наилучшие оценки для обоих параметров α  =  β без необходимости использования дисперсии.

Можно выразить совместное логарифмическое правдоподобие для N iid наблюдений с точки зрения достаточной статистики (выборочные геометрические средние) следующим образом:

Мы можем построить график совместной логарифмической вероятности на N наблюдений для фиксированных значений выборочных геометрических средних, чтобы увидеть поведение функции правдоподобия как функцию параметров формы α и β. На таком графике оценки параметров формы соответствуют максимумам функции правдоподобия. См. Прилагаемый график, который показывает, что все функции правдоподобия пересекаются при α = β = 1, что соответствует значениям параметров формы, которые дают максимальную энтропию (максимальная энтропия возникает при параметрах формы, равных единице: равномерное распределение). Из графика видно, что функция правдоподобия дает резкие пики для значений оценок параметров формы, близких к нулю, но что для значений оценок параметров формы больше единицы функция правдоподобия становится довольно плоской с менее определенными пиками. Очевидно, что метод оценки параметра максимального правдоподобия для бета-распределения становится менее приемлемым для больших значений средств оценки параметров формы, поскольку неопределенность в определении пика увеличивается с увеличением значения средств оценки параметров формы. К такому же выводу можно прийти, заметив, что выражение для кривизны функции правдоподобия выражается через геометрические дисперсии

Эти отклонения (и, следовательно, кривизна) намного больше при малых значениях параметра формы α и β. Однако для значений параметра формы α, β> 1 отклонения (и, следовательно, кривизны) выравниваются. Эквивалентно этот результат следует из границы Крамера – Рао , поскольку компоненты информационной матрицы Фишера для бета-распределения являются этими логарифмическими дисперсиями. Крамера-Рао состояния , что дисперсия любой несмещенной оценки альфа ограничена обратной части информации Фишера :

поэтому дисперсия оценок увеличивается с увеличением α и β, поскольку логарифмическая дисперсия уменьшается.

Также можно выразить совместное логарифмическое правдоподобие для N iid наблюдений в терминах выражений дигамма-функции для логарифмов выборочных геометрических средних следующим образом:

это выражение идентично отрицанию кросс-энтропии (см. раздел «Количество информации (энтропия)»). Следовательно, нахождение максимума совместной логарифмической вероятности параметров формы для N iid наблюдений идентично нахождению минимума перекрестной энтропии для бета-распределения как функции параметров формы.

с кросс-энтропией, определяемой следующим образом:

Четыре неизвестных параметра

Процедура аналогична той, что используется в случае двух неизвестных параметров. Если Y 1 , ..., Y N являются независимыми случайными величинами, каждая из которых имеет бета-распределение с четырьмя параметрами, совместная логарифмическая функция правдоподобия для N iid наблюдений будет:

Нахождение максимума по параметру формы включает взятие частной производной по параметру формы и установку выражения равным нулю, что дает оценку максимального правдоподобия параметров формы:

эти уравнения могут быть преобразованы в следующую систему четырех связанных уравнений (первые два уравнения - средние геометрические, а вторые два уравнения - средние гармонические) с точки зрения оценок максимального правдоподобия для четырех параметров :

с образцом среднего геометрического:

Параметры вложены в выражения среднего геометрического нелинейным образом (в степени 1 / N ). Это, как правило, исключает решение в замкнутой форме даже для приближения начального значения для целей итераций. Одна альтернатива - использовать в качестве начальных значений для итерации значения, полученные методом решения моментов для четырехпараметрического случая. Кроме того, выражения для гармонических средних хорошо определены только для , что исключает решение с максимальным правдоподобием для параметров формы, меньших единицы в случае с четырьмя параметрами. Информационная матрица Фишера для четырехпараметрического случая положительно определена только для α, β> 2 (дальнейшее обсуждение см. В разделе, посвященном информационной матрице Фишера, четырехпараметрический случай), для колоколообразных (симметричных или несимметричных) бета-распределений с перегибом точки, расположенные по обе стороны от режима. Следующие информационные компоненты Фишера (которые представляют собой ожидания кривизны логарифмической функции правдоподобия) имеют особенности при следующих значениях:

(для дальнейшего обсуждения см. раздел, посвященный информационной матрице Фишера). Таким образом, невозможно строго выполнить оценку максимального правдоподобия для некоторых хорошо известных распределений, принадлежащих к семейству четырехпараметрических бета-распределений, таких как равномерное распределение (Beta (1, 1, a , c )) и распределение арксинуса (Бета (1/2, 1/2, a , c )). Н.Л.Джонсон и С.Котц игнорируют уравнения для средних гармонических величин и вместо этого предлагают: «Если a и c неизвестны и требуются оценки максимального правдоподобия a , c , α и β, описанная выше процедура (для случая двух неизвестных параметров с X, преобразованный как X = ( Y  -  a ) / ( c  -  a )), можно повторять, используя последовательность пробных значений a и c , до тех пор, пока пара ( a , c ), для которой максимальное правдоподобие (при данных a и c ) не будет как можно больше, достигается »(где для ясности их обозначения для параметров были переведены в настоящие обозначения).

Информационная матрица Фишера

Пусть случайная величина X имеет плотность вероятности f ( x ; α ). Частная производная по параметру α (неизвестному и подлежащему оценке) логарифмической функции правдоподобия называется оценкой . Второй момент счета называется информацией Фишера :

Ожидание в счет равно нуль, поэтому информация Фишера также второй момент сосредоточен на среднем значении Царапины: дисперсия бороздки.

Если логарифмическая функция правдоподобия дважды дифференцируема по параметру α и при определенных условиях регулярности, то информация Фишера также может быть записана следующим образом (что часто является более удобной формой для целей расчета):

Таким образом, информация Фишера является отрицательной величиной математического ожидания второй производной по параметру α логарифмической функции правдоподобия . Следовательно, информация Фишера является мерой кривизны логарифмической функции правдоподобия α. Низкая кривизна (и, следовательно, большой радиус кривизны ), более плоская кривая логарифмической функции правдоподобия имеет низкую информацию Фишера; в то время как кривая логарифмической функции правдоподобия с большой кривизной (и, следовательно, с низким радиусом кривизны ) имеет высокую информацию Фишера. Когда информационная матрица Фишера вычисляется на основе оценок параметров («наблюдаемая информационная матрица Фишера»), это эквивалентно замене истинной логарифмической поверхности правдоподобия приближением ряда Тейлора, взятым до квадратичных членов. Слово информация в контексте информации Fisher относится к информации о параметрах. Такая информация, как: оценка, достаточность и свойства дисперсии оценщиков. Крамер-Рао состояния, обратные по отношению к информации Фишера является нижней границей дисперсии любой оценки параметра а:

Точность, с которой можно оценить оценку параметра α, ограничена информацией Фишера логарифмической функции правдоподобия. Информация Фишера является мерой минимальной ошибки, связанной с оценкой параметра распределения, и ее можно рассматривать как меру разрешающей способности эксперимента, необходимой для различения двух альтернативных гипотез о параметре.

Когда есть N параметров

тогда информация Фишера принимает форму положительной полуопределенной симметричной матрицы размера N × N , информационной матрицы Фишера, с типичным элементом:

При определенных условиях регулярности информационная матрица Фишера также может быть записана в следующей форме, которая часто более удобна для вычислений:

С X 1 , ..., X N IID случайных величин, в N - мерную "окно" может быть построена со сторонами X 1 , ..., X N . Коста и Ковер показывают, что дифференциальная энтропия (Шеннона) h ( X ) связана с объемом типичного набора (имеющего энтропию образца, близкую к истинной энтропии), в то время как информация Фишера связана с поверхностью этого типичного набора.

Два параметра

Для X 1 , ..., X N независимых случайных величин, каждая из которых имеет бета-распределение, параметризованное параметрами формы α и β , совместная логарифмическая функция правдоподобия для N iid наблюдений равна:

поэтому совместная функция правдоподобия журнала для N iid наблюдений:

Для случая с двумя параметрами информация Фишера состоит из 4 компонентов: 2 диагональных и 2 недиагональных. Поскольку информационная матрица Фишера симметрична, одна из этих недиагональных составляющих независима. Таким образом, информационная матрица Фишера имеет 3 независимых компонента (2 диагональных и 1 недиагональный).

Арьял и Надараджа рассчитали информационную матрицу Фишера для четырехпараметрического случая, из которого двухпараметрический случай можно получить следующим образом:

Поскольку информационная матрица Фишера симметрична

Компоненты информации Фишера равны логарифмической геометрической дисперсии и логарифмической геометрической ковариации. Следовательно, они могут быть выражены как тригамма-функции , обозначаемые ψ 1 (α), вторая из полигамма-функций , определяемая как производная дигамма- функции:

Эти производные также выводятся в разделе «Оценка параметра», «Максимальное правдоподобие», «Два неизвестных параметра», и в этом разделе также показаны графики логарифмической функции правдоподобия. Раздел под названием «Геометрическая дисперсия и ковариация» содержит графики и дальнейшее обсуждение компонентов информационной матрицы Фишера: логарифмической геометрической дисперсии и логарифмической геометрической ковариации как функции параметров формы α и β. Раздел «Другие моменты», «Моменты преобразованных случайных величин», «Моменты логарифмически преобразованных случайных величин» содержит формулы для моментов логарифмически преобразованных случайных величин. Изображения для информационных компонентов Fisher и приведены в разделе , озаглавленном «Геометрическая дисперсия».

Определитель информационной матрицы Фишера представляет интерес (например, для вычисления априорной вероятности Джеффриса ). Из выражений для отдельных компонентов информационной матрицы Фишера следует, что определитель (симметричной) информационной матрицы Фишера для бета-распределения равен:

Из критерия Сильвестра (проверка того, все ли диагональные элементы положительны) следует, что информационная матрица Фишера для двухпараметрического случая положительно определена (при стандартном условии, что параметры формы положительны α  > 0 и  β  > 0).

Четыре параметра
Информация Фишера I ( a , a ) для α  =  β в зависимости от диапазона ( c  -  a ) и показателя степени  α  =  β
Информация Фишера I ( α , a ) для α  =  β , в зависимости от диапазона ( c  -  a ) и показателя степени α  =  β

Если Y 1 , ..., Y N являются независимыми случайными величинами, каждая из которых имеет бета-распределение с четырьмя параметрами: показателями α и β , а также a (минимум диапазона распределения) и c (максимум диапазона распределения ) (раздел «Альтернативные параметризации», «Четыре параметра») с функцией плотности вероятности :

совместная функция правдоподобия журнала для N iid наблюдений:

Для случая с четырьмя параметрами информация Фишера состоит из 4 * 4 = 16 компонентов. Он имеет 12 недиагональных компонентов = (всего 4 × 4 - 4 диагональных). Поскольку информационная матрица Фишера симметрична, половина этих компонентов (12/2 = 6) независимы. Следовательно, информационная матрица Фишера имеет 6 независимых недиагональных + 4 диагональных = 10 независимых компонентов. Ариал и Надараджа рассчитали информационную матрицу Фишера для четырехпараметрического случая следующим образом:

В приведенных выше выражениях использование X вместо Y в выражениях var [ln ( X )] = ln (var GX ) не является ошибкой . Выражения в терминах логарифмической геометрической дисперсии и логарифмической геометрической ковариации возникают как функции двухпараметрической параметризации X ~ Beta ( α , β ), поскольку при взятии частных производных по показателям ( α , β ) в четырехпараметрическом случае , можно получить те же выражения, что и для случая с двумя параметрами: эти члены четырехпараметрической информационной матрицы Фишера не зависят от минимума a и максимума c диапазона распределения. Единственным ненулевым членом при двойном дифференцировании логарифмической функции правдоподобия относительно показателей α и β является вторая производная логарифма бета-функции: ln (B ( α , β )). Этот член не зависит от минимума a и максимума c диапазона распределения. Двойное дифференцирование этого члена приводит к тригамма-функциям. Разделы «Максимальное правдоподобие», «Два неизвестных параметра» и «Четыре неизвестных параметра» также показывают этот факт.

Информация Fisher для образцов N i.id в N раз больше индивидуальной информации Fisher (уравнение 11.279, стр. 394 из Cover and Thomas). (Арьял и Надараджа используют одно наблюдение, N = 1, для вычисления следующих компонентов информации Фишера, что приводит к тому же результату, что и рассмотрение производных логарифма правдоподобия на N наблюдений. Более того, ниже ошибочное выражение для в Aryal и Надараджа был исправлен.)

Два нижних диагональных элемента информационной матрицы Фишера относительно параметра «a» (минимум диапазона распределения): и относительно параметра «c» (максимум диапазона распределения): определены только для показателей α> 2 и β> 2 соответственно. Компонент информационной матрицы Фишера для минимума «а» приближается к бесконечности для показателя α, приближающегося к 2 сверху, и компонент информационной матрицы Фишера для максимума «с» приближается к бесконечности для показателя β, приближающегося к 2 сверху.

Информационная матрица Фишера для случая с четырьмя параметрами не зависит от отдельных значений минимального «а» и максимального «с», а только от общего диапазона ( с - а ). Более того, компоненты информационной матрицы Фишера, которые зависят от дальности ( c - a ), зависят только через ее обратную величину (или квадрат обратной), так что информация Фишера уменьшается с увеличением дальности ( c - a ).

На сопроводительных изображениях показаны информационные компоненты Fisher и . Изображения для информационных компонентов Fisher и приведены в разделе , озаглавленном «Геометрическая дисперсия». Все эти информационные компоненты Фишера выглядят как бассейн, «стенки» которого расположены при малых значениях параметров.

Следующие компоненты информации Фишера с четырехпараметрическим бета-распределением могут быть выражены в терминах двухпараметрического: X ~ Бета (α, β) ожидания преобразованного отношения ((1- X ) / X ) и его зеркального отображения. ( X / (1- X )), масштабированный по диапазону ( c - a ), что может быть полезно для интерпретации:

Это также ожидаемые значения «инвертированного бета-распределения» или бета-простого распределения (также известного как бета-распределение второго типа или тип VI Пирсона ) и его зеркальное отображение, масштабированные по диапазону ( c  -  a ).

Кроме того, следующие информационные компоненты Фишера могут быть выражены в терминах гармонических (1 / X) дисперсий или дисперсий на основе преобразованных в отношение переменных ((1-X) / X) следующим образом:

См. Эти ожидания в разделе «Моменты линейно преобразованных, произведенных и инвертированных случайных величин».

Определитель информационной матрицы Фишера представляет интерес (например, для вычисления априорной вероятности Джеффриса ). Из выражений для отдельных компонентов следует, что определитель (симметричной) информационной матрицы Фишера для бета-распределения с четырьмя параметрами равен:

Используя критерий Сильвестра (проверяя, все ли диагональные элементы положительны), и поскольку диагональные компоненты и имеют особенности при α = 2 и β = 2, следует, что информационная матрица Фишера для четырехпараметрического случая положительно определена при α> 2 и β> 2. Поскольку для α> 2 и β> 2 бета-распределение имеет форму колокола (симметричную или несимметричную), отсюда следует, что информационная матрица Фишера является положительно определенной только для колоколообразных (симметричных или несимметричных) бета-распределений с точками перегиба, расположенными в обе стороны режима. Таким образом, важные хорошо известные распределения, принадлежащие семейству четырехпараметрических бета-распределений, такие как параболическое распределение (Beta (2,2, a, c)) и равномерное распределение (Beta (1,1, a, c)), имеют распределение Фишера. информационные компоненты ( ), которые увеличиваются (приближаются к бесконечности) в случае с четырьмя параметрами (хотя все их информационные компоненты Фишера определены для случая с двумя параметрами). Четыре параметра Вигнер полукруга распределение (бета (3 / 2,3 / 2, , с )) и арксинусом распределение (Бета (1 / 2,1 / 2, , с )) имеют отрицательные информационные детерминанты Фишера для четыре -параметрический корпус.

Байесовский вывод

: Плотность вероятности равномерного распределения была предложена Томасом Байесом для обозначения игнорирования априорных вероятностей в байесовском выводе . Он описывает не состояние полного невежества, а состояние знания, в котором мы наблюдали по крайней мере один успех и одну неудачу, и поэтому у нас есть предварительные знания о том, что оба состояния физически возможны .

Использование бета-распределений в байесовском выводе связано с тем, что они обеспечивают семейство сопряженных априорных распределений вероятностей для биномиальных (включая Бернулли ) и геометрических распределений . Область бета-распределения можно рассматривать как вероятность, и на самом деле бета-распределение часто используется для описания распределения значения вероятности p :

Примерами бета-распределений, используемых в качестве априорных вероятностей для представления игнорирования значений априорных параметров в байесовском выводе, являются бета (1,1), бета (0,0) и бета (1 / 2,1 / 2).

Правило преемственности

Классическим применением бета-распределения является правило преемственности , введенное в 18 веке Пьером-Симоном Лапласом в ходе рассмотрения проблемы восхода солнца . В нем говорится, что, учитывая s успехов в n условно независимых испытаниях Бернулли с вероятностью p, оценка ожидаемого значения в следующем испытании равна . Эта оценка представляет собой ожидаемое значение апостериорного распределения по p, а именно Beta ( s +1, n - s +1), которое задается правилом Байеса, если предполагать равномерную априорную вероятность по p (т. Е. Beta (1, 1)), а затем замечает, что p принесло s успехов в n испытаниях. Правило преемственности Лапласа подвергалось критике со стороны выдающихся ученых. Р. Т. Кокс описал применение Лапласом правила последовательности к проблеме восхода солнца (стр. 89) как «пародию на правильное использование этого принципа». Кейнс замечает (Ch.XXX, p. 382), «действительно, это настолько глупая теорема, что ее дискредитировать». Карл Пирсон показал, что вероятность того, что следующие ( n  + 1) испытания будут успешными после n успехов в n испытаниях, составляет всего 50%, что было сочтено такими учеными, как Джеффрис, слишком низким и неприемлемым как представление о научном процессе. экспериментов для проверки предложенного научного закона. Как указывает Джеффрис (стр. 128) (с указанием CD Broad ), правило преемственности Лапласа устанавливает высокую вероятность успеха ((n + 1) / (n + 2)) в следующем испытании, но лишь умеренную вероятность (50 %), что следующая выборка (n + 1) сопоставимого размера будет столь же успешной. Как указывает Перкс, «правило преемственности трудно принять. Оно присваивает вероятность следующему испытанию, которое подразумевает предположение, что фактический наблюдаемый пробег является средним пробегом и что мы всегда находимся в конце среднего пробега. Казалось бы, более разумным было бы предположить, что мы находимся в середине среднего прогона. Ясно, что необходимо более высокое значение для обеих вероятностей, если они должны соответствовать разумному мнению ». Эти проблемы с правилом преемственности Лапласа побудили Холдейна, Перкса, Джеффриса и других искать другие формы априорной вероятности (см. Следующий раздел, озаглавленный «Байесовский вывод» ). По словам Джейнса, основная проблема с правилом преемственности состоит в том, что оно недействительно, когда s = 0 или s = n (см. Правило преемственности для анализа его действительности).

Априорная вероятность Байеса-Лапласа (бета (1,1))

Бета-распределение обеспечивает максимальную дифференциальную энтропию для Бета (1,1): равномерная плотность вероятности, для которой все значения в области распределения имеют одинаковую плотность. Это равномерное распределение Beta (1,1) было предложено («с большим сомнением») Томасом Байесом в качестве априорного распределения вероятностей, чтобы выразить незнание правильного априорного распределения. Это предварительное распределение было принято (очевидно, из его работ, без каких-либо сомнений) Пьером-Симоном Лапласом , и, следовательно, оно было также известно как «правило Байеса-Лапласа» или «правило Лапласа» для « обратной вероятности ». издания первой половины 20 века. В конце 19-го и начале 20-го века ученые осознали, что предположение о равномерной «равной» плотности вероятности зависит от фактических функций (например, от того, какая шкала наиболее подходит - линейной или логарифмической) и используемых параметризаций. . В частности, особого внимания требует поведение вблизи концов распределений с конечной опорой (например, вблизи x = 0 для распределения с начальной опорой при x = 0). Кейнс (Ch.XXX, стр. 381) подверг критике использование равномерной априорной вероятности Байеса (Beta (1,1)), согласно которой все значения между нулем и единицей равновероятны, следующим образом: «Таким образом, опыт, если он что-то показывает, показывает, что наблюдается очень заметная группировка статистических отношений в окрестностях нуля и единицы, отношений для положительных теорий и корреляций между положительными качествами в окрестности нуля, а также для отрицательных теорий и корреляций между отрицательными качествами в окрестности единство ".

Априорная вероятность Холдейна (бета (0,0))

: Априорная вероятность Холдейна, выражающая полное игнорирование априорной информации, когда мы даже не уверены, физически возможно, что эксперимент приведет либо к успеху, либо к провалу. При α, β → 0 бета-распределение приближается к двухточечному распределению Бернулли со всей плотностью вероятности, сосредоточенной на каждом конце, в точках 0 и 1, и ничего между ними. Подбрасывание монеты: одна сторона монеты находится в положении 0, а другая сторона - в 1.

Распределение Бета (0,0) было предложено Дж. Б. С. Холдейном , который предположил, что априорная вероятность, представляющая полную неопределенность, должна быть пропорциональна p −1 (1− p ) −1 . Функцию p −1 (1− p ) −1 можно рассматривать как предел числителя бета-распределения, поскольку оба параметра формы стремятся к нулю: α, β → 0. Бета-функция (в знаменателе бета-распределения) стремится к бесконечности, для обоих параметров, стремящихся к нулю, α, β → 0. Следовательно, p −1 (1− p ) −1, деленное на бета-функцию, приближается к 2-точечному распределению Бернулли с равной вероятностью 1/2 на каждом конце, на 0 и 1, и ничего между ними, поскольку α, β → 0. Подбрасывание монеты: одна грань монеты находится в положении 0, а другая - в 1. Априорное распределение вероятностей Холдейна Beta (0,0) является « неправильный априор », потому что его интегрирование (от 0 до 1) не может строго сходиться к 1 из-за особенностей на каждом конце. Однако это не проблема для вычисления апостериорных вероятностей, если размер выборки не очень мал. Более того, Зеллнер указывает, что по шкале логарифмических шансов ( логит- преобразование ln ( p / 1− p )) апор Холдейна является равномерно плоским априорным. Гарольд Джеффрис указал на тот факт, что равномерная априорная вероятность на преобразованной логитом переменной ln ( p / 1− p ) (с областью определения (-∞, ∞)) эквивалентна априорной вероятности Холдейна в области [0, 1]. в первом издании (1939 г.) его книги «Теория вероятностей» (стр. 123). Джеффрис пишет «Конечно , если мы возьмем Байес-Лаплас правил вплоть до крайности мы привели к результатам , которые не соответствуют путям чьих мышления. The (Холдейн) правило d х / ( х (1- х )) перегибает наоборот. Это привело бы к выводу, что если выборка относится к одному типу в отношении некоторого свойства, существует вероятность, равная 1, что все население относится к этому типу ". Тот факт, что «единообразие» зависит от параметризации, побудил Джеффриса искать форму априорной модели, которая была бы инвариантной при различных параметризациях.

Априорная вероятность Джеффриса (бета (1 / 2,1 / 2) для Бернулли или для биномиального распределения)

Априорная вероятность Джеффри для бета-распределения: квадратный корень из определителя информационной матрицы Фишера : является функцией тригамма-функции ψ 1 параметров формы α, β
Апостериорные бета-плотности с образцами, имеющими успех = "s", неудачу = "f" из s / ( s + f ) = 1/2 и s + f = {3,10,50}, на основе 3 различных функций априорной вероятности : Холдейн (бета (0,0), Джеффрис (бета (1 / 2,1 / 2)) и Байес (бета (1,1)). Изображение показывает, что есть небольшая разница между апостериорными значениями для апостериорного и выборочного размер 50 (с более выраженным пиком около p  = 1/2). Значительные различия проявляются для очень малых размеров выборки (более плоское распределение для размера выборки 3)
Апостериорные бета-плотности с образцами, имеющими успех = "s", неудачу = "f" из s / ( s + f ) = 1/4 и s + f ∈ {3,10,50}, на основе трех различных функций априорной вероятности : Холдейн (Бета (0,0), Джеффрис (Бета (1 / 2,1 / 2)) и Байес (Бета (1,1)). Изображение показывает, что есть небольшая разница между апостериорными значениями для апостериорного с образцом размер 50 (с более выраженным пиком около p = 1/4). Существенные различия появляются для очень малых размеров выборки (очень асимметричное распределение для вырожденного случая размера выборки = 3, в этом вырожденном и маловероятном случае предыдущие результаты Холдейна обратная J-образная форма с модой при p  = 0 вместо p  = 1/4. Если имеется достаточно данных выборки , три априорных значения Байеса (бета (1,1)), Джеффриса (бета (1 / 2,1) / 2)) и Холдейна (бета (0,0)) должны давать аналогичные апостериорные плотности вероятности .
Апостериорные бета-плотности с выборками, имеющими успех = s , неудачу = f из s / ( s + f ) = 1/4 и s + f ∈ {4,12,40}, на основе трех различных априорных функций вероятности: Холдейна (бета (0,0), Джеффриса (бета (1 / 2,1 / 2)) и Байеса (бета (1,1)). Изображение показывает, что существует небольшая разница между апостериорными значениями для апостериорного с размером выборки 40 ( с более выраженным пиком около p  = 1/4). Значительные различия проявляются для очень малых размеров выборки

Гарольд Джеффрис предложил использовать неинформативную перед вероятностную меру , которая должна быть инвариантны относительно перепараметризации : пропорциональной квадратный корень из детерминанта из информации Фишера матрицы. Для распределения Бернулли это можно показать следующим образом: для монеты, которая является «орлом» с вероятностью p ∈ [0, 1] и «решкой» с вероятностью 1 - p , для данного (H, T) ∈ { (0,1), (1,0)} вероятность р Н (1 - р ) Т . Так как Т = 1 - Н , то распределение Бернулли является р Н (1 - р ) 1 - Н . Рассматривая p как единственный параметр, следует, что логарифмическое правдоподобие для распределения Бернулли равно

Информационная матрица Фишера имеет только один компонент (это скаляр, потому что есть только один параметр: p ), поэтому:

Аналогично, для биномиального распределения с n попытками Бернулли можно показать, что

Таким образом, для Бернулли и распределений биномиальных , Джеффрис перед пропорциональна , который бывает пропорциональна бета - распределения с доменной переменной х = р , и параметры формы α = β = 1/2, то распределение арксинус :

В следующем разделе будет показано, что нормализующая константа для априорной вероятности Джеффри несущественна для конечного результата, потому что нормализующая константа сокращается в теореме Байеса для апостериорной вероятности. Следовательно, бета (1 / 2,1 / 2) используется как априор Джеффри как для Бернулли, так и для биномиального распределения. Как показано в следующем разделе, при использовании этого выражения в качестве априорной вероятности, умноженной на вероятность в теореме Байеса , апостериорная вероятность оказывается бета-распределением. Однако важно понимать, что априор Джеффриса пропорционален для распределения Бернулли и биномиального распределения, но не для бета-распределения. Априор Джеффри для бета-распределения задается определителем информации Фишера для бета-распределения, которое, как показано в разделе, озаглавленном «Информационная матрица Фишера», является функцией тригамма-функции ψ 1 параметров формы α и β следующим образом:

Как обсуждалось ранее, априор Джеффриса для распределений Бернулли и биномиальных распределений пропорционален арксинусному распределению Beta (1 / 2,1 / 2), одномерной кривой, которая выглядит как бассейн как функция параметра p распределений Бернулли и биномиальные распределения. Стенки бассейна образованы приближением p к сингулярностям на концах p → 0 и p → 1, где Beta (1 / 2,1 / 2) стремится к бесконечности. Джеффрис априор для бета-распределения представляет собой двумерную поверхность (встроенную в трехмерное пространство), которая выглядит как бассейн, только две его стенки встречаются в углу α = β = 0 (и отсутствуют две другие стенки), как функция параметров формы α и β бета-распределения. Две смежные стенки этой двумерной поверхности образованы параметрами формы α и β, приближающимися к сингулярностям (тригамма-функции) при α, β → 0. У нее нет стенок для α, β → ∞, потому что в этом случае Определитель информационной матрицы Фишера для бета-распределения стремится к нулю.

В следующем разделе будет показано, что априорная вероятность Джеффри приводит к апостериорным вероятностям (при умножении на биномиальную функцию правдоподобия), которые являются промежуточными между результатами апостериорной вероятности априорных вероятностей Холдейна и Байеса.

Априор Джеффри может быть трудно получить аналитически, а в некоторых случаях его просто не существует (даже для простых функций распределения, таких как асимметричное треугольное распределение ). Бергер, Бернардо и Сан в статье 2009 г. определили эталонное априорное распределение вероятностей, которое (в отличие от априорного Джеффри) существует для асимметричного треугольного распределения . Они не могут получить выражение в замкнутой форме для своей априорной ссылки, но численные расчеты показывают, что она почти идеально соответствует (собственно) априорной

где θ - переменная вершины для асимметричного треугольного распределения с опорой [0, 1] (соответствует следующим значениям параметров в статье Википедии о треугольном распределении : вершина c = θ , левый конец a = 0 и правый конец b = 1 ). Бергер и др. также приводят эвристический аргумент, что Бета (1 / 2,1 / 2) действительно может быть точной априорной ссылкой Бергера – Бернардо – Сан для асимметричного треугольного распределения. Следовательно, бета (1 / 2,1 / 2) не только является априорным Джеффри для распределений Бернулли и биномиального распределения, но также, по-видимому, является априорным ориентиром Бергера – Бернардо – Сан для асимметричного треугольного распределения (для которого априор Джеффри не Существуют), дистрибутив, используемый в управлении проектами и анализе PERT для описания стоимости и продолжительности задач проекта.

Кларк и Бэррон доказывают, что среди непрерывных положительных априоров Джеффрис априор (если он существует) асимптотически максимизирует взаимную информацию Шеннона между выборкой размера n и параметром, и поэтому Джеффрис априор является наиболее неинформативным априором (измерение информации как информации Шеннона). Доказательство основывается на рассмотрении расхождения Кульбака – Лейблера между функциями плотности вероятности для iid случайных величин.

Влияние различных вариантов априорной вероятности на апостериорное бета-распределение

Если выборки взяты из совокупности случайной величины X, которые приводят к s успехам и f неудачам в "n" испытаниях Бернулли n  =  s  +  f , то функция правдоподобия для параметров s и f при x  =  p (обозначение x  =  p в приведенных ниже выражениях подчеркивает, что область x обозначает значение параметра p в биномиальном распределении), является следующим биномиальным распределением :

Если представления об априорной информации о вероятности достаточно хорошо аппроксимируются бета-распределением с параметрами α  Prior и β  Prior, то:

Согласно теореме Байеса для непрерывного пространства событий апостериорная вероятность дается произведением априорной вероятности и функции правдоподобия (с учетом свидетельства s и f  =  n  -  s ), нормализованных так, чтобы площадь под кривой равнялась единице. , следующее:

Биномиальный коэффициент

появляется как в числителе, так и в знаменателе апостериорной вероятности, и он не зависит от переменной интегрирования x , следовательно, он сокращается и не имеет отношения к окончательному результату. Точно так же нормализующий коэффициент для априорной вероятности, бета-функция B (αPrior, βPrior) отменяется, и это не имеет значения для окончательного результата. Тот же результат апостериорной вероятности может быть получен, если использовать ненормализованный априорный

потому что все нормализующие факторы сводятся на нет. Некоторые авторы (включая самого Джеффриса), таким образом, используют ненормализованную априорную формулу, поскольку константа нормализации сокращается. Числитель апостериорной вероятности оказывается просто (ненормированным) произведением априорной вероятности и функции правдоподобия, а знаменатель - ее интегралом от нуля до единицы. Бета-функция в знаменателе, B ( s  +  α  Prior,  n  -  s  +  β  Prior), появляется как нормировочная константа, чтобы гарантировать, что полная апостериорная вероятность равна единице.

Отношение s / n количества успехов к общему количеству попыток является достаточной статистикой в биномиальном случае, которая актуальна для следующих результатов.

Для априорной вероятности Байеса (Beta (1,1)) апостериорная вероятность равна:

Для априорной вероятности Джеффриса (бета (1 / 2,1 / 2)) апостериорная вероятность равна:

а для априорной вероятности Холдейна (бета (0,0)) апостериорная вероятность равна:

Из приведенных выше выражений следует, что для s / n  = 1/2) все три вышеупомянутые априорные вероятности приводят к одинаковому местоположению для апостериорного среднего значения вероятности = мода = 1/2. Для s / n  <1/2 среднее значение апостериорных вероятностей с использованием следующих априорных значений таково, что: среднее для априорного Байеса> среднего для априорного Джеффриса> среднего для априорного Халдейна. Для s / n  > 1/2 порядок этих неравенств меняется на противоположный, так что априорная вероятность Холдейна дает наибольшее апостериорное среднее. Халдейн априорная вероятность бета (0,0) приводит к задней плотности вероятности с средним (ожидаемым значением для вероятности успеха в «следующих» пробах) идентичны отношение с / п числа успехов к общему числу испытаний. Следовательно, априор Холдейна приводит к апостериорной вероятности с ожидаемым значением в следующем испытании, равным максимальной вероятности. Байеса до вероятности бета (1,1) приводит к задней плотности вероятности с режимом , идентичного отношение сек / п (максимального правдоподобия).

В случае, если 100% испытаний были успешными, s  =  n , априорная вероятность Байеса Beta (1,1) приводит к апостериорному ожидаемому значению, равному правилу последовательности ( n  + 1) / ( n  + 2), в то время как предварительная бета-версия Холдейна (0,0) дает апостериорное ожидаемое значение 1 (абсолютная уверенность в успехе в следующем испытании). Априорная вероятность Джеффри дает апостериорное ожидаемое значение, равное ( n  + 1/2) / ( n  + 1). Перкс (стр. 303) указывает: «Это обеспечивает новое правило преемственности и выражает« разумную »позицию, которую следует занять, а именно, что после непрерывной серии n успехов мы предполагаем вероятность следующего испытания, эквивалентную предположению что мы примерно на полпути к средней пробежке, т. е. что мы ожидаем неудачи один раз за (2 n  + 2) испытаний. Правило Байеса – Лапласа подразумевает, что мы приближаемся к концу средней пробежки или что мы ожидаем провал один раз в ( n  + 2) испытаниях. Сравнение явно свидетельствует в пользу нового результата (который теперь называется приором Джеффри) с точки зрения «разумности» ».

И наоборот, в случае, если 100% испытаний закончились неудачей ( s  = 0), априорная вероятность Байеса Beta (1,1) приводит к апостериорному ожидаемому значению успеха в следующем испытании, равному 1 / ( n  + 2), тогда как предварительная бета-версия Холдейна (0,0) дает апостериорное ожидаемое значение успеха в следующем испытании, равное 0 (абсолютная уверенность в неудаче в следующем испытании). Априорная вероятность Джеффри приводит к апостериорному ожидаемому значению успеха в следующем испытании, равному (1/2) / ( n  + 1), на что Перкс (стр. 303) указывает: «это гораздо более отдаленный результат, чем результат Байеса. -Результат Лапласа 1 / ( n  + 2) ".

Джейнс ставит под сомнение (для равномерного априорного бета (1,1)) использование этих формул для случаев s  = 0 или s  =  n, потому что интегралы не сходятся (бета (1,1) является несоответствующим априорным для s  = 0 или s  =  n ). На практике обычно выполняются условия 0 <s <n, необходимые для существования режима между обоими концами для байесовского априорного алгоритма, и поэтому байесовский априорный режим (до тех пор, пока 0 < s  <  n ) приводит к апостериорному режиму, расположенному между обоими концами.  концы домена.

Как отмечалось в разделе о правиле последовательности, К. Пирсон показал, что после n успехов в n испытаниях апостериорная вероятность (основанная на распределении Байеса-бета (1,1) в качестве априорной вероятности), что следующая ( n  + 1) все испытания будут успешными, равно 1/2, независимо от значения  n . Исходя из распределения Холдейна-бета (0,0) в качестве априорной вероятности, эта апостериорная вероятность равна 1 (абсолютная уверенность в том, что после n успехов в n испытаниях все следующие ( n  + 1) испытания будут успешными). Перкс (стр. 303) показывает, что для так называемых апоров Джеффри эта вероятность равна (( n  + 1/2) / ( n  + 1)) (( n  + 3/2) / ( n  + 2 )) ... (2 n  + 1/2) / (2 n  + 1), что для n  = 1, 2, 3 дает 15/24, 315/480, 9009/13440; быстро приближаясь к предельному значению, поскольку n стремится к бесконечности. Перкс отмечает, что то, что сейчас известно как априор Джеффри: «явно более« разумно », чем либо результат Байеса-Лапласа, либо результат альтернативного правила (Холдейна), отвергнутого Джеффрисом, который дает определенность как вероятность. гораздо лучшее соответствие с процессом индукции. Является ли он «абсолютно» разумным для этой цели, то есть достаточно ли велик, без абсурдности достижения единства, - это вопрос, который должны решать другие. Но необходимо понимать, что результат зависит от предположения о полном безразличии и отсутствии знаний до проведения эксперимента по отбору образцов ».

Ниже приведены дисперсии апостериорного распределения, полученные с помощью этих трех априорных распределений вероятностей:

для априорной вероятности Байеса (Beta (1,1)) апостериорная дисперсия равна:

для априорной вероятности Джеффриса (бета (1 / 2,1 / 2)) апостериорная дисперсия составляет:

а для априорной вероятности Холдейна (бета (0,0)) апостериорная дисперсия равна:

Итак, как заметил Силви, для больших n дисперсия мала и, следовательно, апостериорное распределение сильно концентрировано, тогда как предполагаемое априорное распределение было очень размытым. Это соответствует тому, на что можно было бы надеяться, поскольку смутные априорные знания трансформируются (с помощью теоремы Байеса) в более точные апостериорные знания с помощью информативного эксперимента. Для малых n априорные результаты Haldane Beta (0,0) дают наибольшую апостериорную дисперсию, тогда как априорные результаты Bayes Beta (1,1) приводят к более концентрированным апостериорным результатам. Предварительная бета-версия Джеффри (1 / 2,1 / 2) приводит к апостериорной дисперсии между двумя другими. По мере увеличения n дисперсия быстро уменьшается, так что апостериорная дисперсия для всех трех априорных значений сходится примерно к одному и тому же значению (приближаясь к нулевой дисперсии при n → ∞). Вспоминая предыдущий результат о том, что априорная вероятность Бета (0,0) Холдейна приводит к апостериорной плотности вероятности со средним значением (ожидаемым значением для вероятности успеха в «следующем» испытании), идентичным отношению s / n количества успехов к общему количеству испытаний, из приведенного выше выражения следует, что также апостериорная бета-версия Холдейна (0,0) дает апостериорную дисперсию, идентичную дисперсии, выраженной в терминах макс. оценка правдоподобия з / п и размер выборки (в разделе «Дисперсия»):

со средним значением μ  =  s / n и объемом выборки  ν  =  n .

В байесовском выводе использование априорного распределения Beta ( α Prior, β Prior) перед биномиальным распределением эквивалентно добавлению ( α Prior - 1) псевдонаблюдений за «успехом» и ( β Prior - 1) псевдонаблюдений за « неудач »к фактическому количеству наблюдаемых успехов и неудач, затем оценивая параметр p биномиального распределения как пропорцию успехов как по реальным, так и по псевдонаблюдениям. Единообразный априорный бета (1,1) не добавляет (или вычитает) какие-либо псевдонаблюдения, поскольку для бета (1,1) следует, что ( α Prior - 1) = 0 и ( β Prior - 1) = 0. Предварительная бета Холдейна (0,0) вычитает одно псевдонаблюдение из каждого, а предварительная бета-версия Джеффри (1 / 2,1 / 2) вычитает 1/2 псевдонаблюдения успеха и равное количество неудач. Это вычитание имеет эффект сглаживания апостериорного распределения. Если доля успехов не равна 50% ( s / n  1/2), значения α Prior и β Prior меньше 1 (и, следовательно, отрицательные ( α Prior - 1) и ( β Prior - 1)) благоприятствуют разреженности, т. Е. распределения, в которых параметр p ближе к 0 или 1. Фактически, значения α Prior и β Prior между 0 и 1 при совместной работе функционируют как параметр концентрации .

На прилагаемых графиках показаны апостериорные функции плотности вероятности для размеров выборки n  ∈ {3,10,50}, успехов s  ∈ { n / 2, n / 4} и бета ( α Prior, β Prior) ∈ {Beta (0,0 ), Бета (1 / 2,1 / 2), бета (1,1)}. Также показаны случаи для n  = {4,12,40}, успеха s  = { n / 4} и бета ( α Prior, β Prior) ∈ {Beta (0,0), Beta (1 / 2,1 / 2), Бета (1,1)}. Первый график показывает симметричные случаи для успехов s  ∈ {n / 2} со средним значением = mode = 1/2, а второй график показывает искаженные случаи s  ∈ { n / 4}. Изображения показывают, что существует небольшая разница между апостериорными значениями для апостериорных при размере выборки 50 (характеризуется более выраженным пиком около p  = 1/2). Существенные различия появляются для очень малых размеров выборки (в частности, для более плоского распределения для вырожденного случая размера выборки = 3). Следовательно, асимметричные случаи с успехом s  = { n / 4} демонстрируют больший эффект от выбора априорного критерия при небольшом размере выборки, чем симметричные случаи. Для симметричных распределений априорное бета-распределение Байеса (1,1) дает наиболее "пиковые" и самые высокие апостериорные распределения, а априорное бета-распределение Холдейна (0,0) дает наиболее плоское и наименьшее пиковое распределение. Между ними находится предыдущая бета-версия Jeffreys (1/2, 1/2). Для почти симметричных, но не слишком перекошенных распределений эффект априорных значений аналогичен. Для очень небольшого размера выборки (в данном случае для размера выборки 3) и асимметричного распределения (в этом примере для s  ∈ { n / 4}) априор Холдейна может привести к обратному J-образному распределению с сингулярностью на левый конец. Однако это происходит только в вырожденных случаях (в этом примере n  = 3 и, следовательно, s  = 3/4 <1, вырожденное значение, потому что s должно быть больше единицы, чтобы задняя часть Холдейна до того, как мода располагалась между концов, и поскольку s  = 3/4 не является целым числом, следовательно, это нарушает исходное предположение о биномиальном распределении для правдоподобия), и это не проблема в общих случаях разумного размера выборки (таких, что условие 1 <  s  <  n  - 1, необходимое для существования режима между обоими концами).

В главе 12 (стр. 385) своей книги Джейнс утверждает, что предшествующая бета Холдейна (0,0) описывает предшествующее состояние полного незнания , когда мы даже не уверены, возможно ли физически эксперимент дать результат. либо успех, либо неудача, в то время как Байесовская (единообразная) априорная бета (1,1) применяется, если известно, что возможны оба двоичных результата . Джейнс заявляет: « интерпретируйте предшествующую формулировку Байеса-Лапласа (бета (1,1)) как описывающую не состояние полного невежества , а состояние знания, в котором мы наблюдали один успех и одну неудачу ... хотя бы один успех и одна неудача, тогда мы знаем, что эксперимент является истинным бинарным в смысле физической возможности ». Джейнс конкретно не обсуждает предыдущую бета-версию Джеффриса (1/2, 1/2) (обсуждение Джейнсом «приора Джеффриса» на стр. 181, 423 и в главе 12 книги Джейнса вместо этого ссылается на неправильное, ненормализованное, предшествующее » 1 / p  dp », введенный Джеффрисом в издании его книги 1939 года, за семь лет до того, как он ввел то, что теперь известно как инвариант Джеффриса: квадратный корень из определителя информационной матрицы Фишера. « 1 / p »- это Джеффрис. (1946), априорный инвариант для экспоненциального распределения , а не для распределения Бернулли или биномиального распределения ). Однако из приведенного выше обсуждения следует, что бета-версия Джеффриса (1 / 2,1 / 2) предшествует уровню знаний между предшествующей бета-версией Халдейна (0,0) и бета-версией Байеса (1,1).

Точно так же Карл Пирсон в своей книге 1892 года «Грамматика науки» (стр. 144 издания 1900 г.) утверждал, что форма Байеса (бета (1,1), предшествующая форма) не была полным игнорированием, и что ее следует использовать, когда предварительная информация оправдана. чтобы «распределять наше невежество поровну». К. Пирсон писал: «Однако единственное предположение, которое мы, кажется, сделали, - это то, что, не зная ничего о природе, рутине и аномии (от греческого ανομία, а именно: a-« без ", и nomos" закон ") должны рассматриваться как одинаково вероятные. На самом деле у нас не было никаких оснований делать даже это предположение, поскольку оно включает в себя знание о природе, которым мы не обладаем. Мы используем наш опыт конституции и действие монет в целом, чтобы утверждать, что орел и решка равновероятны, но мы не имеем права утверждать перед опытом, что, поскольку мы ничего не знаем о природе, рутина и нарушение равновероятны. эта природа может состоять из рутины s, все аномалии (отсутствие норм) или их смесь в любой пропорции, и что все они равновероятны. Какая из этих конституций после опыта является наиболее вероятной, очевидно, должно зависеть от того, на что был похож этот опыт ".

При наличии достаточных данных выборки , а режим апостериорной вероятности не находятся в одном из крайней области (х = 0 или х = 1), три настоятелей Байеса (бета (1,1)), Джеффрис (Beta (1 / 2,1 / 2)) и Холдейна (Бета (0,0)) должны давать аналогичные апостериорные плотности вероятности . В противном случае, как отмечает Гельман и др. (стр. 65) отмечают: «если доступно так мало данных, что выбор неинформативного априорного распределения имеет значение, необходимо поместить соответствующую информацию в априорное распределение», или, как указывает Бергер (стр. 125), «когда разные разумные настоятели дают существенно различные ответы, это может быть правом утверждать , что это единственный ответ? не было бы лучше , чтобы признать , что есть научная неопределенность, с заключением в зависимости от предыдущих убеждений ?.»

Возникновение и приложения

Статистика заказов

Бета-распределение имеет важное применение в теории статистики заказов . Основной результат состоит в том, что распределение k- го наименьшего из выборки размера n из непрерывного равномерного распределения имеет бета-распределение. Этот результат резюмируется как:

Из этого и применения теории, связанной с интегральным преобразованием вероятностей , можно вывести распределение любой статистики отдельного порядка из любого непрерывного распределения .

Субъективная логика

В стандартной логике предложения считаются либо истинными, либо ложными. В противоположность этому субъективная логика предполагает, что люди не могут определить с абсолютной уверенностью, является ли утверждение о реальном мире абсолютно истинным или ложным. В субъективной логике , что апостериорные оценки вероятности бинарных событий может быть представлена бета - распределения.

Вейвлет-анализ

Вейвлет представляет собой волнообразный колебания с амплитудой , которая начинается при нулевой, увеличивается, а затем уменьшается до нуля. Обычно это можно представить как «кратковременное колебание», которое быстро затухает. Вейвлеты можно использовать для извлечения информации из множества различных типов данных, включая, но не ограничиваясь ими, аудиосигналы и изображения. Таким образом, вейвлеты специально созданы, чтобы иметь определенные свойства, которые делают их полезными для обработки сигналов . Вейвлеты локализованы как по времени, так и по частоте, тогда как стандартное преобразование Фурье локализовано только по частоте. Следовательно, стандартные преобразования Фурье применимы только к стационарным процессам , в то время как вейвлеты применимы к нестационарным процессам . Непрерывные вейвлеты могут быть построены на основе бета-распределения. Бета-вейвлеты можно рассматривать как мягкую разновидность вейвлетов Хаара , форма которых точно настраивается двумя параметрами формы α и β.

Управление проектами: моделирование стоимости задачи и расписания

Бета-распределение может использоваться для моделирования событий, которые должны иметь место в пределах интервала, определяемого минимальным и максимальным значением. По этой причине бета-распределение - наряду с треугольным распределением  - широко используется в PERT , методе критического пути (CPM), совместном моделировании графика затрат (JCSM) и других системах управления / контроля проектов для описания времени до завершения и стоимости. задачи. В управлении проектами для оценки среднего и стандартного отклонения бета-распределения широко используются стенографические вычисления :

где a - минимум, c - максимум, а b - наиболее вероятное значение ( режим для α > 1 и β > 1).

Приведенная выше оценка среднего известна как трехточечная оценка PERT, и она точна для любого из следующих значений β (для произвольного α в этих диапазонах):

β = α > 1 (симметричный случай) со стандартным отклонением , асимметрией = 0 и избыточным эксцессом =

Beta Distribution beta = alpha с 1.05 до 4.95 - J. Rodal.jpg

или

β = 6 - α для 5> α > 1 (случай с перекосом) со стандартным отклонением

асимметрия = и избыточный эксцесс =

Распределение бета-версии для beta = 6-alpha и alpha в диапазоне от 1.05 до 3 - J. Rodal.jpg

Приведенная выше оценка стандартного отклонения σ ( X ) = ( c - a ) / 6 точна для любого из следующих значений α и β :

α = β = 4 (симметричный) с асимметрией = 0 и избыточным эксцессом = −6/11.
β = 6 - α и (правосторонний, положительный перекос) с асимметрией и избыточным эксцессом = 0
β = 6 - α и (левосторонний, отрицательный перекос) с асимметрией и избыточным эксцессом = 0

Бета-распределение для alpha = beta = 4 и (alpha = 3 - + Sqrt (2), beta = 6-alpha) Дж. Родал.jpg

В противном случае они могут быть плохими приближениями для бета-распределений с другими значениями α и β, демонстрируя средние ошибки 40% в среднем и 549% в дисперсии. синтез паттернов.

Вычислительные методы

Генерация бета-распределенных случайных величин

Если X и Y независимы, с, а затем

Таким образом, один алгоритм для генерации бета-переменных состоит в генерации , где X - гамма-переменная с параметрами (α, 1), а Y - независимая гамма-переменная с параметрами (β, 1). На самом деле здесь и независимы, и . Если и не зависит от и , то и не зависит от . Это показывает, что произведение независимых и случайных величин является случайной величиной.

Кроме того, статистика k- го порядка для n равномерно распределенных переменных равна , поэтому альтернативой, если α и β являются малыми целыми числами, является создание α + β - 1 однородных переменных и выбор α-го наименьшего числа.

Другой способ создания бета-распределения - модель урны Pólya . Согласно этому методу, каждый начинает с «урны» с α «черными» шарами и β «белыми» шарами и равномерно тянет с заменой. При каждом испытании добавляется дополнительный шар в соответствии с цветом последнего выпавшего шара. Асимптотически пропорция черных и белых шаров будет распределена в соответствии с бета-распределением, где каждое повторение эксперимента будет давать разные значения.

Также можно использовать выборку с обратным преобразованием .

История

Томас Байес в посмертной статье, опубликованной в 1763 году Ричардом Прайсом , получил бета-распределение как плотность вероятности успеха в испытаниях Бернулли (см. Раздел этой статьи «Приложения, байесовский вывод»), но в статье нет проанализировать любой из моментов бета-распределения или обсудить какие-либо его свойства.

Карл Пирсон проанализировал бета-распределение как решение типа I распределений Пирсона.

Первое систематическое современное обсуждение бета-распределения, вероятно, принадлежит Карлу Пирсону FRS (27 марта 1857 г. - 27 апреля 1936 г.), влиятельному английскому математику, которому приписывают создание дисциплины математической статистики . В статьях Пирсона бета-распределение сформулировано как решение дифференциального уравнения: распределение Пирсона типа I, которому оно по существу идентично, за исключением произвольного сдвига и масштабирования (бета-распределения и распределения Пирсона типа I всегда могут быть уравновешены правильным выбором параметры). Фактически, в нескольких английских книгах и журнальных статьях за несколько десятилетий до Второй мировой войны было принято называть бета-распределение распределением типа I Пирсона. Уильям П. Элдертон (1877–1962) в своей монографии 1906 года «Частотные кривые и корреляция» далее анализирует бета-распределение как распределение типа I Пирсона, включая полное обсуждение метода моментов для четырехпараметрического случая и диаграммы (какие Элдертон описывает как) U-образные, J-образные, скрученные J-образные, формы «треуголки», горизонтальные и угловые прямые случаи. Элдертон написал: «Я в основном в долгу перед профессором Пирсоном, но это такая задолженность, за которую невозможно выразить официальную благодарность». Элдертон в своей монографии 1906 года предоставляет впечатляющий объем информации о бета-распределении, включая уравнения для происхождения распределения, выбранного в качестве режима, а также для других распределений Пирсона: типов с I по VII. Элдертон также включил ряд приложений, в том числе одно приложение («II») по бета- и гамма-функциям. В более поздних изданиях Элдертон добавил уравнения происхождения распределения, выбранного в качестве среднего, и анализ распределений Пирсона с VIII по XII.

Как отмечают Боуман и Шентон, «Фишер и Пирсон расходятся во мнениях относительно подхода к оценке (параметров), в частности, в отношении (метода Пирсона) моментов и (метода Фишера) максимальной вероятности в случае бета-распределения. " Также, согласно Боумену и Шентону, «случай, когда модель типа I (бета-распределение) оказалась в центре споров, было чистой случайностью. Было бы трудно найти более сложную модель с четырьмя параметрами». Рональд Фишер (17 февраля 1890 г. - 29 июля 1962 г.) был одним из гигантов статистики в первой половине 20-го века, и его давний публичный конфликт с Карлом Пирсоном можно проследить в ряде статей в престижных журналах. Например, относительно оценки четырех параметров для бета-распределения и критики Фишером метода моментов Пирсона как произвольного см. Статью Пирсона «Метод моментов и метод максимального правдоподобия» (опубликовано через три года после его выхода на пенсию из Университетского колледжа). , Лондон, где его позиция была разделена между Фишером и сыном Пирсона Эгоном), в котором Пирсон пишет: «Я читал (статью Кошая в Журнале Королевского статистического общества, 1933 г.), которая, насколько мне известно, является единственным случаем в настоящее время опубликовано применение метода профессора Фишера. К моему удивлению, этот метод зависит от сначала расчета констант частотной кривой методом моментов (Пирсона), а затем их наложения, что Фишер называет "методом максимального правдоподобия" дальнейшее приближение для получения того, что он придерживается, он, таким образом, получит «более эффективные значения» констант кривой ».

В трактате Дэвида и Эдвардса по истории статистики приводится первая современная трактовка бета-распределения в 1911 году с использованием обозначения бета, которое стало стандартом благодаря Коррадо Джини , итальянскому статистику , демографу и социологу , который разработал коэффициент Джини. . Н.Л.Джонсон и С.Котц в своей всеобъемлющей и очень информативной монографии о ведущих исторических личностях в статистических науках считают Коррадо Джини «ранним байесовцем ... который занимался проблемой выявления параметров начального бета-распределения путем выделения методов. который предвосхитил появление так называемого эмпирического байесовского подхода ».

использованная литература

внешние ссылки