Совместное распределение вероятностей - Joint probability distribution

Многие выборочные наблюдения (черные) показаны из совместного распределения вероятностей. Также показаны предельные плотности.

Для заданных случайных величин , которые определены в вероятностном пространстве , совместное распределение вероятностей для представляет собой распределение вероятностей, которое дает вероятность того, что каждая из них попадает в какой-либо конкретный диапазон или дискретный набор значений, указанных для этой переменной. В случае только двух случайных величин это называется двумерным распределением , но эта концепция распространяется на любое количество случайных величин, давая многомерное распределение .

Совместное распределение вероятностей может быть выражено в терминах совместной кумулятивной функции распределения и либо в терминах совместной функции плотности вероятности (в случае непрерывных переменных ), либо в терминах совместной функции массы вероятности (в случае дискретных переменных). Их, в свою очередь, можно использовать для нахождения двух других типов распределений: предельное распределение, дающее вероятности для любой из переменных без ссылки на какие-либо конкретные диапазоны значений для других переменных, и условное распределение вероятностей, дающее вероятности для любой из переменных. подмножество переменных, обусловленных конкретными значениями остальных переменных.

Примеры

Рисует из урны

Предположим, что каждая из двух урн содержит вдвое больше красных шаров, чем синих шаров, и не содержит других, и предположим, что из каждой урны случайным образом выбирается один шар, причем два розыгрыша не зависят друг от друга. Позвольте и быть дискретными случайными величинами, связанными с результатами розыгрыша из первой и второй урны соответственно. Вероятность вытащить красный шар из любой из урн - 2/3, а вероятность вытащить синий шар - 1/3. Совместное распределение вероятностей представлено в следующей таблице:

A = красный A = синий P (B)
B = красный (2/3) (2/3) = 4/9 (1/3) (2/3) = 2/9 4/9 + 2/9 = 2/3
B = синий (2/3) (1/3) = 2/9 (1/3) (1/3) = 1/9 2/9 + 1/9 = 1/3
P (А) 4/9 + 2/9 = 2/3 2/9 + 1/9 = 1/3

Каждая из четырех внутренних ячеек показывает вероятность конкретной комбинации результатов двух ничьих; эти вероятности являются совместным распределением. В любой одной ячейке вероятность возникновения конкретной комбинации (поскольку ничьи независимы) является произведением вероятности указанного результата для A и вероятности указанного результата для B. Сумма вероятностей в этих четырех ячейках равна 1, как это всегда верно для вероятностных распределений.

Более того, последняя строка и последний столбец дают предельное распределение вероятностей для A и предельное распределение вероятностей для B соответственно. Например, для A первая из этих ячеек дает сумму вероятностей того, что A будет красным, независимо от того, какая вероятность для B в столбце над ячейкой возникает, как 2/3. Таким образом, предельное распределение вероятностей дает безусловные вероятности на полях таблицы.

Подбрасывание монет

Рассмотрим подбрасывание двух честных монет ; пусть и будут дискретными случайными величинами, связанными с результатами первого и второго подбрасывания монеты соответственно. Каждый подбрасывание монеты представляет собой испытание Бернулли и имеет распределение Бернулли . Если на монете отображается «орел», то соответствующая случайная величина принимает значение 1, в противном случае - значение 0. Вероятность каждого из этих исходов равна 1/2, поэтому маргинальные (безусловные) функции плотности равны

Совместная функция массы вероятностей и определяет вероятности для каждой пары исходов. Все возможные исходы

Поскольку каждый исход одинаково вероятен, совместная функция массы вероятности принимает вид

Поскольку подбрасывания монеты независимы, совместная функция массы вероятности является произведением маргиналов:

Бросая кости

Рассмотрим бросок честных кубиков и пусть, если число четное (например, 2, 4 или 6), и в противном случае. Кроме того, пусть, если число простое (например, 2, 3 или 5), и в противном случае.

1 2 3 4 5 6
А 0 1 0 1 0 1
B 0 1 1 0 1 0

Тогда совместное распределение и , выраженное как функция массы вероятности, имеет вид

Сумма этих вероятностей обязательно равна 1, поскольку вероятность того, что какая-то комбинация и произойдет, равна 1.

Пример из реальной жизни

Рассмотрим производство, которое заполняет пластиковые бутылки стиральным порошком. Измеряется вес каждой бутылки (Y) и объем содержащегося в ней стирального порошка (X).

Распределение предельной вероятности

Если в случайном эксперименте определяется более одной случайной величины, важно различать совместное распределение вероятностей X и Y и распределение вероятностей каждой переменной в отдельности. Индивидуальное распределение вероятностей случайной величины называется ее предельным распределением вероятностей. В общем, предельное распределение вероятностей X может быть определено из совместного распределения вероятностей X и других случайных величин.

Если совместная функция плотности вероятности случайных величин X и Y равна , функция предельной плотности вероятности X и Y, которая определяет предельное распределение , определяется как:

,

где первый интеграл берется по всем точкам в диапазоне (X, Y), для которых X = x, а второй интеграл по всем точкам в диапазоне (X, Y), для которых Y = y.

Совместная кумулятивная функция распределения

Для пары случайных величин совместная кумулятивная функция распределения (CDF) задается выражением

 

 

 

 

( Уравнение 1 )

где правая часть представляет собой вероятность того, что случайная величина принимает значение, меньшее или равное, и которое принимает значение, меньшее или равное .

Для случайных величин совместный CDF имеет вид

 

 

 

 

( Уравнение 2 )

Интерпретация случайных величин как случайного вектора дает более короткую запись:

Совместная функция плотности или функция массы

Дискретный корпус

Совместная функция масс вероятности двух дискретных случайных величин равна:

 

 

 

 

( Уравнение 3 )

или написано в терминах условных распределений

где есть вероятность того, из учитывая , что .

Обобщением предыдущего случая с двумя переменными является совместное распределение вероятностей дискретных случайных величин :

 

 

 

 

( Уравнение 4 )

или эквивалентно

.

Это тождество известно как цепное правило вероятности .

Поскольку это вероятности, в случае двух переменных

который обобщается для дискретных случайных величин на

Непрерывный случай

Совместная вероятность того, функция плотности для двух непрерывных случайных величин определяется как производная совместной интегральной функции распределения (см Eq.1 ):

 

 

 

 

( Уравнение 5 )

Это равно:

где и являются условными распределениями из даны и даны соответственно, и и являются маргинальными распределениями для и соответственно.

Определение естественным образом распространяется на более чем две случайные величины:

 

 

 

 

( Уравнение 6 )

Опять же, поскольку это вероятностные распределения, мы имеем

соответственно

Смешанный случай

«Плотность смешанных стыков» может быть определена, если одна или несколько случайных величин являются непрерывными, а другие случайные величины - дискретными. С одной переменной каждого типа

Один пример ситуации, в которой кто-то может пожелать найти кумулятивное распределение одной случайной переменной, которая является непрерывной, и другой случайной переменной, которая является дискретной, возникает, когда кто-то желает использовать логистическую регрессию для прогнозирования вероятности двоичного результата Y, обусловленного ценность непрерывно распределенного результата . Один должны использовать «смешанную» совместную плотность при нахождении кумулятивного распределения этого двоичного результата , так как входные переменных были изначально определены таким образом , чтобы никто не мог коллективно назначить его либо функцию плотности вероятности или функцию вероятности массы. Формально, функция плотности вероятности относительно меры продукта на соответствующих опорах из и . Затем любое из этих двух разложений можно использовать для восстановления совместной кумулятивной функции распределения:

Определение обобщается на смесь произвольного числа дискретных и непрерывных случайных величин.

Дополнительные свойства

Совместное распределение для независимых переменных

В целом два случайных величин и являются независимыми , если и только если совместной кумулятивной функцией распределения удовлетворяет

Две дискретные случайные величины и независимы тогда и только тогда, когда совместная функция массы вероятности удовлетворяет

для всех и .

По мере того как количество независимых случайных событий растет, соответствующее значение совместной вероятности быстро уменьшается до нуля в соответствии с отрицательным экспоненциальным законом.

Точно так же две абсолютно непрерывные случайные величины независимы тогда и только тогда, когда

для всех и . Это означает, что получение любой информации о значении одной или нескольких случайных величин приводит к условному распределению любой другой переменной, которое идентично ее безусловному (маргинальному) распределению; таким образом, никакая переменная не предоставляет никакой информации ни о какой другой переменной.

Совместное распределение для условно зависимых переменных

Если подмножество переменных является условно - зависимым дано другим подмножеством из этих переменных, то функция вероятности массы совместного распределения . равно . Следовательно, это может быть эффективно представлено низкоразмерными распределениями вероятностей и . Такие отношения условной независимости могут быть представлены байесовской сетью или функциями копул .

Ковариация

Когда две или несколько случайных величин определены в вероятностном пространстве, полезно описать, как они изменяются вместе; то есть полезно измерить взаимосвязь между переменными. Распространенной мерой связи между двумя случайными величинами является ковариация. Ковариация - это мера линейной связи между случайными величинами. Если связь между случайными величинами нелинейна, ковариация может не зависеть от этой связи, что означает, что она не связывает корреляцию между двумя переменными.

Ковариация между случайной величиной X и Y, обозначенная как cov (X, Y), равна:

Корреляция

Существует еще одна мера связи между двумя случайными величинами, которую часто легче интерпретировать, чем ковариацию.

Корреляция просто масштабирует ковариацию на произведение стандартного отклонения каждой переменной. Следовательно, корреляция - это безразмерная величина, которую можно использовать для сравнения линейных отношений между парами переменных в разных единицах измерения. Если точки в совместном распределении вероятностей X и Y, которые получают положительную вероятность, имеют тенденцию падать вдоль линии положительного (или отрицательного) наклона, ρ XY находится около +1 (или -1). Если ρ XY равно +1 или -1, можно показать, что точки в совместном распределении вероятностей, которые получают положительную вероятность, падают точно вдоль прямой линии. Две случайные величины с ненулевой корреляцией называются коррелированными. Подобно ковариации, корреляция - это мера линейной связи между случайными величинами.

Корреляция между случайной величиной X и Y, обозначенная как

Важные именованные дистрибутивы

Именованные совместные распределения, которые часто возникают в статистике, включают многомерное нормальное распределение , многомерное стабильное распределение , полиномиальное распределение , отрицательное полиномиальное распределение , многомерное гипергеометрическое распределение и эллиптическое распределение .

Смотрите также

использованная литература

внешние ссылки