Маржинальное распределение - Marginal distribution

В теории вероятностей и статистике , то маргинальное распределение из подмножества в виде коллекции от случайных величин является распределение вероятностей переменных , содержащихся в подмножестве. Он дает вероятности различных значений переменных в подмножестве без ссылки на значения других переменных. Это контрастирует с условным распределением , которое дает вероятности, зависящие от значений других переменных.

Маржинальные переменные - это те переменные в подмножестве сохраняемых переменных. Эти понятия являются «маргинальными», потому что их можно найти, суммируя значения в таблице по строкам или столбцам и записывая сумму на полях таблицы. Распределение маргинальных переменных (маргинальное распределение) получается путем маргинализации - то есть сосредоточения внимания на суммах маржи - по распределению отбрасываемых переменных, а отброшенные переменные считаются маргинальными .

Контекст здесь заключается в том, что проводимые теоретические исследования или анализ данных включают более широкий набор случайных величин, но это внимание ограничивается меньшим числом этих переменных. Во многих приложениях анализ может начинаться с заданного набора случайных величин, затем сначала расширять набор, определяя новые (например, сумму исходных случайных величин), и, наконец, уменьшать число, обращая внимание на предельное распределение случайных величин. подмножество (например, сумма). Можно провести несколько различных анализов, каждый из которых рассматривает различные подмножества переменных как маргинальные.

Определение

Функция предельной вероятности

Принимая во внимание известное совместное распределение двух дискретных случайных величин , скажем, X и Y , предельная распределение либо переменной - X , например , - это распределение вероятностей по X , когда значения Y не будут приняты во внимание. Это может быть вычислено путем суммирования совместной вероятности распределения по всем значениям Y . Естественно, что верно и обратное утверждение: маргинальное распределение может быть получено для Y путем суммирования по отдельным значениям X .

, а также

Икс
Y
х 1 х 2 х 3 х 4 p Y ( y ) ↓
у 1 4/32 2/32 1/32 1/32   8/32
y 2 3/32 6/32 3/32 3/32 15/32
y 3 9/32 0 0 0   9/32
р X ( х ) → 16/32 8/32 4/32 4/32 32/32
Таблица. 1 Совместное и маргинальное распределения пары дискретных случайных величин, X и Y , зависимых, таким образом, имеющих ненулевую взаимную информацию I ( X ; Y ). Значения совместного распределения указаны в прямоугольнике 3 × 4; значения маржинальных распределений указаны по правому и нижнему краям.

Предельная вероятность всегда можно записать в виде ожидаемого значения :

Наглядно, предельная вероятность X вычисляется путем изучения условной вероятности X данную конкретное значение Y , а затем усреднения этой условной вероятности над распределением всех значений Y .

Это следует из определения математического ожидания (после применения закона бессознательного статистика )

Следовательно, маргинализация обеспечивает правило преобразования распределения вероятностей случайной величины Y и другой случайной величины X  =  g ( Y ):

Функция предельной плотности вероятности

Для двух непрерывных случайных величин X и Y , совместное распределение которых известно, функция предельной плотности вероятности может быть получена путем интегрирования совместного распределения вероятностей ,, по Y, и наоборот. Это

а также

где , и .

Функция предельного кумулятивного распределения

Найти предельную кумулятивную функцию распределения из совместной кумулятивной функции распределения несложно. Напомним, что:

  • Для дискретных случайных величин ,
  • Для непрерывных случайных величин ,

Если X и Y совместно принимают значения на [ a , b ] × [ c , d ], то

а также

Если d равно ∞, то это становится пределом . Аналогично для .

Маржинальное распределение против условного распределения

Определение

Предельная вероятность вероятность одного события происходят независимо от других событий. С другой стороны, условная вероятность - это вероятность того, что событие произойдет при условии, что другое конкретное событие уже произошло. Это означает, что расчет одной переменной зависит от другой переменной.

Условное распределение переменной с учетом другой переменной - это совместное распределение обеих переменных, деленное на предельное распределение другой переменной. Это,

  • Для дискретных случайных величин ,
  • Для непрерывных случайных величин ,

Пример

Предположим, есть данные из класса 200 студентов о количестве времени, которое они изучали ( X ) и процент правильных ответов ( Y ). Предполагая, что X и Y являются дискретными случайными величинами, совместное распределение X и Y можно описать, перечислив все возможные значения p ( x i , y j ), как показано в Таблице 3.

Икс
Y
Изученное время (минуты)
% верный х 1 (0-20) х 2 (21-40) х 3 (41-60) х 4 (> 60) p Y ( y ) ↓
y 1 (0-20) 2/200 0 0 8/200 10/200
y 2 (21-40) 10/200 2/200 8/200 0 20/200
y 3 (41-59) 2/200 4/200 32/200 32/200 70/200
у 4 (60-79) 0 20/200 30/200 10/200 60/200
у 5 (80-100) 0 4/200 16/200 20/200 40/200
р X ( х ) → 14/200 30/200 86/200 70/200 1
Таблица 3 Двусторонняя таблица набора данных отношений в классе из 200 студентов между количеством изученного времени и процентом правильных ответов

Маргинальное распределение может быть использовано для определения того, как много студентов , которые набрали 20 или ниже , что означает 10 студентов или 5%.

Условное распределение может быть использовано для определения вероятности того, что студент , который изучал 60 минут или больше получает набрало 20 или ниже: , то есть есть около 11% вероятности подсчета очков 20 после изучения в течение по крайней мере 60 минут.

Пример из реального мира

Предположим, что необходимо вычислить вероятность того, что пешеход будет сбит автомобилем, переходя дорогу по пешеходному переходу, не обращая внимания на светофор. Пусть H - дискретная случайная величина, принимающая одно значение из {Hit, Not Hit}. Пусть L (для светофора) будет дискретной случайной величиной, принимающей одно значение из {красный, желтый, зеленый}.

Реально H будет зависеть от L. То есть P (H = Hit) будет принимать разные значения в зависимости от того, является ли L красным, желтым или зеленым (и аналогично для P (H = Not Hit)). Например, человек с гораздо большей вероятностью столкнется с автомобилем при попытке перейти дорогу, когда светофоры для перпендикулярного движения зеленые, чем если бы они были красными. Другими словами, для любой данной возможной пары значений для H и L необходимо рассмотреть совместное распределение вероятностей H и L, чтобы найти вероятность того, что эта пара событий произойдет вместе, если пешеход игнорирует состояние света.

Однако при попытке вычислить предельную вероятность P (H = попадание) ищется вероятность того, что H = попадание в ситуацию, в которой конкретное значение L неизвестно и в которой пешеход игнорирует состояние света. . Как правило, пешеход может быть сбит, если огни красные, ИЛИ если огни желтые, ИЛИ зеленые. Итак, ответ для предельной вероятности может быть найден путем суммирования P (H | L) для всех возможных значений L, при этом каждое значение L взвешено по вероятности его появления.

Вот таблица, показывающая условные вероятности поражения в зависимости от состояния огней. (Обратите внимание, что столбцы в этой таблице должны составлять в сумме 1, потому что вероятность попасть в цель или не попасть в нее равна 1 независимо от состояния света.)

Условное распространение:
L
ЧАС
красный Желтый Зеленый
Не попал 0,99 0,9 0,2
Ударить 0,01 0,1 0,8

Чтобы найти совместное распределение вероятностей, требуются дополнительные данные. Например, предположим, что P (L = красный) = 0,2, P (L = желтый) = 0,1 и P (L = зеленый) = 0,7. Умножение каждого столбца в условном распределении на вероятность появления этого столбца дает совместное распределение вероятностей H и L, заданное в центральном блоке записей 2 × 3. (Обратите внимание, что ячейки в этом блоке 2 × 3 в сумме дают 1).

Совместное распространение:
L
ЧАС
красный Желтый Зеленый Предельная вероятность P ( H )
Не попал 0,198 0,09 0,14 0,428
Ударить 0,002 0,01 0,56 0,572
Общее 0,2 0,1 0,7 1

Предельная вероятность P (H = попадание) - это сумма 0,572 по строке H = попадание в этой совместной таблице распределения, так как это вероятность попадания, когда огни красные ИЛИ желтые ИЛИ зеленые. Точно так же предельная вероятность того, что P (H = Not Hit) - это сумма по строке H = Not Hit.

Многомерные распределения

Многие выборки из двумерного нормального распределения. Маржинальные распределения показаны красным и синим цветом. Маргинальное распределение X также аппроксимируется путем создания гистограммы координат X без учета координат Y.

Для многомерных распределений применяются формулы, подобные приведенным выше, с символами X и / или Y , интерпретируемыми как векторы. В частности, каждое суммирование или интегрирование будет по всем переменным , кроме тех , которые содержатся в X .

Это означает, что если X 1 , X 2 ,…, X n являются дискретными случайными величинами , то функция массы предельной вероятности должна быть

если X 1 , X 2 ,…, X n - непрерывные случайные величины , то функция плотности предельной вероятности должна быть

Смотрите также

Рекомендации

Библиография