Условная взаимная информация - Conditional mutual information

Диаграмма Венна теоретико-информационных мер для трех переменных , и , представленных нижним левым, нижним правым и верхним кружками, соответственно. Условные взаимные сведения , и представлены в желтых, голубых, пурпурных и регионов, соответственно.

{\ displaystyle x}

{\ displaystyle y}

{\ displaystyle z}

{\ Displaystyle I (х; г | у)}

{\ Displaystyle I (у; г | х)}

{\ Displaystyle I (х; у | г)}

В теории вероятностей , в частности теории информации , то условная взаимная информация в своей самой основной форме, то ожидаемое значение от взаимной информации два случайных величин с учетом стоимости одной трети.

Определение

Для случайных величин , и с опорными наборами , и мы определяем условную взаимную информацию как ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle Z}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle {\ mathcal {Y}}}$ ${\ displaystyle {\ mathcal {Z}}}$

${\ Displaystyle I (X; Y | Z) = \ int _ {\ mathcal {Z}} D _ {\ mathrm {KL}} (P _ {(X, Y) | Z} \ | P_ {X | Z} \ иногда P_ {Y | Z}) dP_ {Z}}$

Это может быть записано в терминах оператора ожидания: . ${\ Displaystyle I (X; Y | Z) = \ mathbb {E} _ {Z} [D _ {\ mathrm {KL}} (P _ {(X, Y) | Z} \ | P_ {X | Z} \ иногда P_ {Y | Z})]}$

Таким образом, ожидаемое (по отношению к ) расхождение Кульбака – Лейблера от условного совместного распределения к произведению условных маргиналов и . Сравните с определением взаимной информации . ${\ Displaystyle I (X; Y | Z)}$ ${\ displaystyle Z}$ ${\ Displaystyle P _ {(X, Y) | Z}}$ ${\ displaystyle P_ {X | Z}}$ ${\ displaystyle P_ {Y | Z}}$

В терминах PMF для дискретных распределений

Для дискретных случайных величин , и с опорными множествами , и условная взаимная информация выглядит следующим образом ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle Z}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle {\ mathcal {Y}}}$ ${\ displaystyle {\ mathcal {Z}}}$ ${\ Displaystyle I (X; Y | Z)}$

{\ Displaystyle I (X; Y | Z) = \ сумма _ {z \ in {\ mathcal {Z}}} p_ {Z} (z) \ sum _ {y \ in {\ mathcal {Y}}} \ сумма _ {x \ in {\ mathcal {X}}} p_ {X, Y | Z} (x, y | z) \ log {\ frac {p_ {X, Y | Z} (x, y | z) } {p_ {X | Z} (x | z) p_ {Y | Z} (y | z)}}}

где предельная, совместная и / или условная массовые функции вероятности обозначены соответствующим нижним индексом. Это можно упростить как ${\ displaystyle p}$

${\ displaystyle I (X; Y | Z) = \ sum _ {z \ in {\ mathcal {Z}}} \ sum _ {y \ in {\ mathcal {Y}}} \ sum _ {x \ in { \ mathcal {X}}} p_ {X, Y, Z} (x, y, z) \ log {\ frac {p_ {Z} (z) p_ {X, Y, Z} (x, y, z) } {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}}.}$

С точки зрения pdf для непрерывных распределений

Для (абсолютно) непрерывных случайных величин , и с опорными множествами , и условная взаимная информация выглядит следующим образом ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle Z}$ ${\ displaystyle {\ mathcal {X}}}$ ${\ displaystyle {\ mathcal {Y}}}$ ${\ displaystyle {\ mathcal {Z}}}$ ${\ Displaystyle I (X; Y | Z)}$

{\ Displaystyle I (X; Y | Z) = \ int _ {\ mathcal {Z}} {\ bigg (} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} \ log \ left ({\ frac {p_ {X, Y | Z} (x, y | z)} {p_ {X | Z} (x | z) p_ {Y | Z} (y | z)}} \ right) p_ {X, Y | Z} (x, y | z) dxdy {\ bigg)} p_ {Z} (z) dz}

где маргинальная, совместная и / или условная функции плотности вероятности обозначены соответствующим нижним индексом. Это можно упростить как ${\ displaystyle p}$

${\ Displaystyle I (X; Y | Z) = \ int _ {\ mathcal {Z}} \ int _ {\ mathcal {Y}} \ int _ {\ mathcal {X}} \ log \ left ({\ frac {p_ {Z} (z) p_ {X, Y, Z} (x, y, z)} {p_ {X, Z} (x, z) p_ {Y, Z} (y, z)}} \ справа) p_ {X, Y, Z} (x, y, z) dxdydz.}$

Некоторые личности

В качестве альтернативы мы можем записать в терминах совместной и условной энтропий как

{\ Displaystyle {\ begin {align} I (X; Y | Z) & = H (X, Z) + H (Y, Z) -H (X, Y, Z) -H (Z) \\ & = H (X | Z) -H (X | Y, Z) \\ & = H (X | Z) + H (Y | Z) -H (X, Y | Z). \ End {align}}}

Его можно переписать, чтобы показать его отношение к взаимной информации.

{\ Displaystyle I (X; Y | Z) = I (X; Y, Z) -I (X; Z)}

обычно перестраивается как цепное правило для взаимной информации

{\ Displaystyle I (X; Y, Z) = I (X; Z) + I (X; Y | Z)}

или же

{\ Displaystyle I (X; Y | Z) = I (X; Y) - (I (X; Z) -I (X; Z | Y)) \ ,.}

Другой эквивалентной формой вышеизложенного является

{\ Displaystyle {\ begin {align} I (X; Y | Z) & = H (Z | X) + H (X) + H (Z | Y) + H (Y) -H (Z | X, Y) ) -H (X, Y) -H (Z) \\ & = I (X; Y) + H (Z | X) + H (Z | Y) -H (Z | X, Y) -H (Z ) \ конец {выровнено}} \ ,.}

Как и взаимная информация, условная взаимная информация может быть выражена как расхождение Кульбака – Лейблера :

{\ Displaystyle I (X; Y | Z) = D _ {\ mathrm {KL}} [p (X, Y, Z) \ | p (X | Z) p (Y | Z) p (Z)].}

Или как математическое ожидание более простых расхождений Кульбака – Лейблера:

{\ Displaystyle I (X; Y | Z) = \ сумма _ {Z \ in {\ mathcal {Z}}} p (Z = z) D _ {\ mathrm {KL}} [p (X, Y | z) \ | p (X | z) p (Y | z)]}

,

{\ Displaystyle I (X; Y | Z) = \ сумма _ {y \ in {\ mathcal {Y}}} p (Y = y) D _ {\ mathrm {KL}} [p (X, Z | y) \ | p (X | Z) p (Z | y)]}

.

Более общее определение

Более общее определение условной взаимной информации, применимое к случайным величинам с непрерывным или другим произвольным распределением, будет зависеть от концепции регулярной условной вероятности . (Смотрите также.)

Позвольте быть вероятностным пространством , и пусть случайные величины , и каждая определяется как измеримая по Борелю функция от до некоторого пространства состояний, наделенного топологической структурой. ${\ displaystyle (\ Omega, {\ mathcal {F}}, {\ mathfrak {P}})}$ ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle Z}$ ${\ displaystyle \ Omega}$

Рассмотрим борелевскую меру (на σ-алгебре, порожденной открытыми множествами) в пространстве состояний каждой случайной величины, определенной путем присвоения каждому борелевскому множеству -меры его прообраза в . Это называется прямой мерой . Опора случайной величины определяется как топологическая опора этой меры, т. Е. ${\ displaystyle {\ mathfrak {P}}}$ ${\ Displaystyle {\ mathcal {F}}}$ ${\ displaystyle X _ {*} {\ mathfrak {P}} = {\ mathfrak {P}} {\ big (} X ^ {- 1} (\ cdot) {\ big)}.}$ ${\ displaystyle \ mathrm {supp} \, X = \ mathrm {supp} \, X _ {*} {\ mathfrak {P}}.}$

Теперь мы можем формально определить меру условной вероятности с учетом значения одной (или, через топологию продукта , нескольких) случайных величин. Позвольте быть измеримым подмножеством (т.е. ) и пусть Тогда, используя теорему дезинтеграции : ${\ displaystyle M}$ ${\ displaystyle \ Omega,}$ ${\ displaystyle M \ in {\ mathcal {F}},}$ ${\ Displaystyle х \ in \ mathrm {supp} \, X.}$

{\ Displaystyle {\ mathfrak {P}} (M | X = x) = \ lim _ {U \ ni x} {\ frac {{\ mathfrak {P}} (M \ cap \ {X \ in U \} )} {{\ mathfrak {P}} (\ {X \ in U \})}} \ qquad {\ textrm {and}} \ qquad {\ mathfrak {P}} (M | X) = \ int _ { M} d {\ mathfrak {P}} {\ big (} \ omega | X = X (\ omega) {\ big)},}

где предел берется по открытым окрестностям в , так как они могут стать сколь угодно меньше по отношению к включению множеств . ${\ displaystyle U}$ ${\ displaystyle x}$

Наконец, мы можем определить условную взаимную информацию с помощью интеграции Лебега :

{\ Displaystyle I (X; Y | Z) = \ int _ {\ Omega} \ log {\ Bigl (} {\ frac {d {\ mathfrak {P}} (\ omega | X, Z) \, d { \ mathfrak {P}} (\ omega | Y, Z)} {d {\ mathfrak {P}} (\ omega | Z) \, d {\ mathfrak {P}} (\ omega | X, Y, Z) }} {\ Bigr)} d {\ mathfrak {P}} (\ omega),}

где подынтегральное выражение - это логарифм производной Радона – Никодима, включающей некоторые условные вероятностные меры, которые мы только что определили.

Примечание к обозначениям

В таком выражении, как и, необязательно должно быть ограничение на представление отдельных случайных величин, но оно может также представлять совместное распределение любого набора случайных величин, определенных в одном и том же вероятностном пространстве . Как это принято в теории вероятностей , мы можем использовать запятую для обозначения такого совместного распределения, например, отсюда использование точки с запятой (или иногда двоеточия или даже клина ) для разделения основных аргументов символа взаимной информации. (В символе совместной энтропии такое различие не требуется , поскольку совместная энтропия любого числа случайных величин совпадает с энтропией их совместного распределения.) ${\ Displaystyle I (А; В | С),}$ ${\ displaystyle A,}$ ${\ displaystyle B,}$ ${\ displaystyle C}$ ${\ displaystyle I (A_ {0}, A_ {1}; B_ {1}, B_ {2}, B_ {3} | C_ {0}, C_ {1}).}$ ${\ Displaystyle \ клин}$

Характеристики

Неотрицательность

Это всегда правда, что

{\ Displaystyle I (X; Y | Z) \ geq 0}

,

для дискретных, совместно распределенных случайных величин , и . Этот результат был использован в качестве основного строительного блока для доказательства других неравенств в теории информации , в частности, тех, которые известны как неравенства типа Шеннона. Условная взаимная информация также неотрицательна для непрерывных случайных величин при определенных условиях регулярности. ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle Z}$

Информация о взаимодействии

Условие по третьей случайной величине может увеличивать или уменьшать взаимную информацию: то есть разница , называемая информацией о взаимодействии , может быть положительной, отрицательной или нулевой. Это так даже тогда, когда случайные величины попарно независимы. Так бывает, когда: ${\ Displaystyle I (X; Y) -I (X; Y | Z)}$

{\ displaystyle X \ sim \ mathrm {Bernoulli} (0,5), Z \ sim \ mathrm {Bernoulli} (0,5), \ quad Y = \ left \ {{\ begin {array} {ll} X & {\ text {если }} Z = 0 \\ 1-X & {\ text {if}} Z = 1 \ end {array}} \ right.}

в этом случае , и попарно независимы и , в частности , но

{\ displaystyle X}

{\ displaystyle Y}

{\ displaystyle Z}

{\ Displaystyle I (X; Y) = 0}

{\ Displaystyle I (X; Y | Z) = 1.}

Цепное правило для взаимной информации

{\ Displaystyle I (X; Y, Z) = I (X; Z) + I (X; Y | Z)}

Информация о взаимодействии

Условная взаимная информация используется для индуктивного определения информации о взаимодействии , обобщения взаимной информации следующим образом:

{\ Displaystyle I (X_ {1}; \ ldots; X_ {n + 1}) = I (X_ {1}; \ ldots; X_ {n}) - I (X_ {1}; \ ldots; X_ {n } | X_ {n + 1}),}

где

{\ displaystyle I (X_ {1}; \ ldots; X_ {n} | X_ {n + 1}) = \ mathbb {E} _ {X_ {n + 1}} [D _ {\ mathrm {KL}} ( P _ {(X_ {1}, \ ldots, X_ {n}) | X_ {n + 1}} \ | P_ {X_ {1} | X_ {n + 1}} \ otimes \ cdots \ otimes P_ {X_ { n} | X_ {n + 1}})].}

Поскольку условная взаимная информация может быть больше или меньше ее безусловного аналога, информация о взаимодействии может быть положительной, отрицательной или нулевой, что затрудняет ее интерпретацию.

Languages

In other projects

Условная взаимная информация - Conditional mutual information

СОДЕРЖАНИЕ

Определение

В терминах PMF для дискретных распределений

С точки зрения pdf для непрерывных распределений

Некоторые личности

Более общее определение

Примечание к обозначениям

Характеристики

Неотрицательность

Информация о взаимодействии

Цепное правило для взаимной информации

Информация о взаимодействии

Рекомендации