Кумулятивная функция распределения - Cumulative distribution function

Кумулятивная функция распределения для экспоненциального распределения
Кумулятивная функция распределения для нормального распределения

В теории вероятностей и статистике , то интегральная функция распределения ( CDF ) из вещественнозначной случайной величины , или просто функции распределения из , оцениваемой в , является вероятностью того, что будет принимать значение меньше или равно .

Каждое распределение вероятностей, поддерживаемое действительными числами, дискретное или «смешанное», а также непрерывное, однозначно идентифицируется непрерывной вверх монотонной возрастающей кумулятивной функцией распределения, удовлетворяющей и .

В случае скалярного непрерывного распределения он дает площадь под функцией плотности вероятности от минус бесконечности до . Кумулятивные функции распределения также используются для определения распределения многомерных случайных величин .

Определение

Кумулятивная функция распределения вещественной случайной величины - это функция, заданная формулой

 

 

 

 

( Уравнение 1 )

где правая часть представляет собой вероятность того, что случайная величина примет значение, меньшее или равное . Вероятность, лежащая в полузакрытом интервале , где , следовательно, равна

 

 

 

 

( Уравнение 2 )

В приведенном выше определении знак «меньше или равно», «≤», является условием, а не универсальным (например, в венгерской литературе используется «<»), но различие важно для дискретных распределений. Правильное использование таблиц биномиального распределения и распределения Пуассона зависит от этого соглашения. Более того, такие важные формулы, как формула обращения Поля Леви для характеристической функции, также основываются на формулировке «меньше или равно».

При обработке нескольких случайных величин и т. Д. Соответствующие буквы используются как нижние индексы, в то время как при обработке только одной нижний индекс обычно опускается. Обычно для кумулятивной функции распределения используется заглавная буква, в отличие от строчной буквы, используемой для функций плотности вероятности и функций массы вероятности . Это применимо при обсуждении общих распределений: некоторые конкретные распределения имеют свои собственные условные обозначения, например, нормальное распределение использует и вместо и , соответственно.

Функция плотности вероятности непрерывной случайной величины может быть определена из кумулятивной функции распределения путем дифференцирования с использованием фундаментальной теоремы исчисления ; т.е. дано ,

пока существует производная.

CDF непрерывной случайной величины может быть выражен как интеграл от ее функции плотности вероятности следующим образом:

В случае случайной величины, которая имеет распределение, имеющее дискретную составляющую в значении ,

Если непрерывна в точке , она равна нулю и дискретной составляющей в точке нет .

Характеристики

Сверху вниз - кумулятивная функция распределения дискретного распределения вероятностей, непрерывного распределения вероятностей и распределения, которое имеет как непрерывную, так и дискретную части.

Каждая интегральная функция распределения является неубывающей и непрерывной справа , что делает его càdlàg функцию. Более того,

Каждая функция с этими четырьмя свойствами является функцией CDF, т. Е. Для каждой такой функции может быть определена случайная величина , так что функция является кумулятивной функцией распределения этой случайной величины.

Если это чисто дискретная случайная величина , то она с вероятностью принимает значения , и CDF будет разрывной в точках :

Если CDF действительной случайной величины является непрерывным , то является непрерывной случайной величиной ; если к тому же абсолютно непрерывна , то существует интегрируемая по Лебегу функция такая, что

для всех действительных чисел и . Функция равна производной от почти всюду , и это называется функция плотности вероятности распределения .

Примеры

В качестве примера предположим, что он равномерно распределен на единичном интервале .

Тогда CDF задается формулой

Предположим вместо этого, что принимает только дискретные значения 0 и 1 с равной вероятностью.

Тогда CDF задается формулой

Предположим, имеет экспоненциальное распределение . Тогда CDF задается формулой

Здесь λ> 0 - параметр распределения, часто называемый параметром скорости.

Предположим , что это нормально распределены . Тогда CDF задается формулой

Здесь параметр  - это среднее значение или математическое ожидание распределения; и  - его стандартное отклонение.

Предположим , биномиально распределено . Тогда CDF задается формулой

Здесь вероятность успеха, а функция обозначает дискретное распределение вероятностей количества успехов в последовательности независимых экспериментов, а также «нижний предел» , т. Е. Наибольшее целое число, меньшее или равное .

Производные функции

Дополнительная кумулятивная функция распределения (хвостовое распределение)

Иногда полезно изучить противоположный вопрос и спросить, как часто случайная величина превышает определенный уровень. Это называется дополнительной кумулятивной функцией распределения ( ccdf ) или просто хвостовым распределением или превышением и определяется как

Это имеет применение в статистической проверке гипотез , например, потому что одностороннее p-значение - это вероятность наблюдения статистики теста, по крайней мере, такой же экстремальной, как наблюдаемая. Таким образом, при условии , что тестовая статистика , Т , имеет непрерывное распределение, односторонний р-значение просто задаются CCDF: для наблюдаемого значения тестовой статистики

В анализе выживаемости , называется функция выживания и обозначается , в то время как термин функция надежности является общим в технике .

Z-таблица:

Одним из самых популярных приложений кумулятивной функции распределения является стандартная нормальная таблица , также называемая единичной нормальной таблицей или таблицей Z , которая представляет собой значение кумулятивной функции распределения нормального распределения. Очень полезно использовать Z-таблицу не только для вероятностей ниже значения, которое является исходным применением кумулятивной функции распределения, но также выше и / или между значениями стандартного нормального распределения, и в дальнейшем она была расширена до любого нормального распределения.

Характеристики
  • Для неотрицательной непрерывной случайной величины, имеющей математическое ожидание, неравенство Маркова утверждает, что
  • Как , так и по сути при условии, что конечно.
Доказательство: предположение имеет функцию плотности для любого
Затем, узнав и переставив термины,
как заявлено.

Свернутое кумулятивное распределение

Пример свернутого кумулятивного распределения для функции нормального распределения с ожидаемым значением 0 и стандартным отклонением 1.

Хотя график кумулятивного распределения часто имеет S-образную форму, альтернативной иллюстрацией является свернутый график кумулятивного распределения или горный график , который складывает верхнюю половину графика, таким образом, используя две шкалы: одну для подъема, а другую для подъема. вниз по склону. Эта форма иллюстрации подчеркивает медиану , дисперсию (в частности, среднее абсолютное отклонение от медианы) и асимметрию распределения или эмпирических результатов.

Функция обратного распределения (функция квантиля)

Если функция CDF F строго возрастает и непрерывна, то единственное действительное число такое, что . В таком случае это определяет обратную функцию распределения или функцию квантиля .

Некоторые дистрибутивы не имеют уникального обратного (например, в случае, когда для всех , что делает постоянным). Эта проблема может быть решена путем определения, для , в обобщенной обратной функции распределения :

  • Пример 1: медиана .
  • Пример 2: Положите . Затем мы называем 95-й процентиль.

Некоторые полезные свойства обратного cdf (которые также сохраняются в определении обобщенной обратной функции распределения):

  1. не убывает
  2. если и только если
  3. Если есть дистрибутив, то он распространяется как . Это используется при генерации случайных чисел с использованием метода выборки с обратным преобразованием .
  4. Если это набор независимых распределенных случайных величин, определенных в одном и том же пространстве выборки, то существуют такие случайные величины , которые распределены как и с вероятностью 1 для всех .

Обратное к cdf можно использовать для перевода результатов, полученных для равномерного распределения, в другие распределения.

Эмпирическая функция распределения

Эмпирическая функция распределения является оценкой интегральной функции распределения , который генерирует точки в образце. Он сходится с вероятностью 1 к этому базовому распределению. Существует ряд результатов для количественной оценки скорости сходимости эмпирической функции распределения к лежащей в основе кумулятивной функции распределения.

Многомерный случай

Определение двух случайных величин

При одновременной работе с более чем одной случайной величиной также может быть определена совместная кумулятивная функция распределения . Например, для пары случайных величин совместный CDF определяется выражением

 

 

 

 

( Уравнение 3 )

где правая часть представляет собой вероятность того, что случайная величина принимает значение, меньшее или равное, и которое принимает значение, меньшее или равное .

Пример совместной кумулятивной функции распределения:

В течение двух непрерывных переменных X и Y : ;

Для двух дискретных случайных величин полезно создать таблицу вероятностей и определить кумулятивную вероятность для каждого потенциального диапазона X и Y , и вот пример:

учитывая совместную функцию масс вероятности в табличной форме, определите совместную кумулятивную функцию распределения.

Y = 2 Y = 4 Y = 6 Y = 8
Х = 1 0 0,1 0 0,1
Х = 3 0 0 0,2 0
Х = 5 0,3 0 0 0,15
Х = 7 0 0 0,15 0

Решение: используя данную таблицу вероятностей для каждого потенциального диапазона X и Y , совместная кумулятивная функция распределения может быть построена в табличной форме:

Y <2 2 ≤ Y <4 4 ≤ Y <6 6 ≤ Y <8 Y ≤ 8
Х <1 0 0 0 0 0
1 ≤ Х <3 0 0 0,1 0,1 0,2
3 ≤ Х <5 0 0 0,1 0,3 0,4
5 ≤ Х <7 0 0,3 0,4 0,6 0,85
Х ≤ 7 0 0,3 0,4 0,75 1

Определение более двух случайных величин

Для случайных величин совместный CDF имеет вид

 

 

 

 

( Уравнение 4 )

Интерпретация случайных величин как случайного вектора дает более короткую запись:

Характеристики

Каждый многомерный CDF:

  1. Монотонно неубывающая по каждой из своих переменных,
  2. Непрерывна справа по каждой из своих переменных,

Вероятность того, что точка принадлежит гипер прямоугольнику , аналогична одномерному случаю:

Сложный случай

Комплексная случайная величина

Обобщение кумулятивной функции распределения от реальных до сложных случайных величин неочевидно, потому что выражения формы не имеют смысла. Однако выражения формы имеют смысл. Поэтому мы определяем кумулятивное распределение сложных случайных величин через совместное распределение их действительной и мнимой частей:

.

Комплексный случайный вектор

Обобщение уравнения 4 дает

как определение CDS комплексного случайного вектора .

Использование в статистическом анализе

Концепция кумулятивной функции распределения явно проявляется в статистическом анализе двумя (аналогичными) способами. Кумулятивный частотный анализ - это анализ частоты появления значений явления меньше контрольного значения. Эмпирическая функция распределения является формальной непосредственной оценкой интегральной функции распределения , для которых простых статистических свойства могут быть получены , и которые могут стать основой различных тестов статистической гипотезы . Такие тесты могут оценить, есть ли свидетельства против выборки данных, полученных из данного распределения, или свидетельства против двух выборок данных, полученных из одного и того же (неизвестного) распределения населения.

Тесты Колмогорова – Смирнова и Койпера.

Тест Колмогорова – Смирнова основан на кумулятивных функциях распределения и может использоваться для проверки того, различаются ли два эмпирических распределения или эмпирическое распределение отличается от идеального распределения. Тесно связанный тест Койпера полезен, если область распределения циклична, например, по дням недели. Например, тест Койпера можно использовать, чтобы увидеть, меняется ли количество торнадо в течение года или продажи продукта меняются в зависимости от дня недели или дня месяца.

Смотрите также

использованная литература

внешние ссылки