Информационная метрика Fisher - Fisher information metric

В информационной геометрии , то информация метрика Фишера является частное риманова метрики , которая может быть определена на гладком статистическое многообразие , то есть , на гладком многообразии , точки которого являются вероятностными мерами , определенных на общем вероятностном пространстве . Его можно использовать для расчета информационной разницы между измерениями.

Метрика интересна в нескольких отношениях. По теореме Ченцова информационная метрика Фишера в статистических моделях является единственной римановой метрикой (с точностью до масштабирования), которая инвариантна при достаточной статистике .

Он может также иметь в виду , чтобы быть бесконечно малой формой относительной энтропии ( то есть , то Кульбак-Либлер дивергенции ); в частности, это гессиан дивергенции. С другой стороны, это можно понимать как метрику, индуцированную евклидовой метрикой плоского пространства после соответствующих изменений переменной. При расширении на комплексное проективное гильбертово пространство оно становится метрикой Фубини – Штуди ; когда записано в терминах смешанных состояний , это квантовая метрика Буреса .

Рассматриваемая исключительно как матрица, она известна как информационная матрица Фишера . Рассматриваемый как метод измерения, где он используется для оценки скрытых параметров с точки зрения наблюдаемых случайных величин, он известен как наблюдаемая информация .

Определение

Для статистического многообразия с координатами записывается распределение вероятностей как функция от . Здесь взято из пространства значений R для (дискретного или непрерывного) случайной величины X . Вероятность нормирована на

Тогда информационная метрика Фишера принимает форму:

Интеграл выполняется по всем значениям х в X . Теперь переменная является координатой на римановом многообразии . Метки j и k указывают на локальные оси координат на коллекторе.

Когда вероятность выводится из меры Гиббса , как это было бы для любого марковского процесса , это также можно понимать как множитель Лагранжа ; Множители Лагранжа используются для обеспечения ограничений, таких как сохранение математического ожидания некоторой величины постоянной. Если существует n ограничений, удерживающих постоянными n различных значений математического ожидания, то размерность многообразия на n измерений меньше исходного пространства. В этом случае метрика может быть явно получена из статистической суммы ; вывод и обсуждение представлены там.

Подстановка из теории информации , эквивалентная форма приведенного выше определения:

Чтобы показать, что эквивалентная форма равна приведенному выше определению, обратите внимание, что

и нанесите с обеих сторон.

Связь с расходимостью Кульбака – Лейблера.

В качестве альтернативы метрика может быть получена как вторая производная относительной энтропии или дивергенции Кульбака – Лейблера . Чтобы получить это, нужно рассмотреть два распределения вероятностей и , которые бесконечно близки друг к другу, так что

с бесконечно малым изменением в направлении j . Тогда, поскольку расходимость Кульбака – Лейблера имеет абсолютный минимум 0, когда , можно получить разложение до второго порядка по форме

.

Симметричная матрица положительно (полу) определена и является матрицей Гессе функции в точке экстремума . Интуитивно это можно представить как: «Расстояние между двумя бесконечно близкими точками на статистическом дифференциальном многообразии является информационным различием между ними».

Связь с геометрией Руппайнера

Ruppeiner метрика и метрика Вейнхолд является информацией Фишера метрика , вычисленная для распределения Гиббса , как те , найдены в равновесной статистической механике.

Изменение свободной энтропии

Действие кривой на риманова многообразия задается

Параметр пути здесь - время t ; можно понять, что это действие дает изменение свободной энтропии системы, когда она перемещается от времени a к времени b . В частности, есть

как изменение свободной энтропии. Это наблюдение привело к практическому применению в химической и перерабатывающей промышленности : чтобы минимизировать изменение свободной энтропии системы, необходимо следовать минимальному геодезическому пути между желаемыми конечными точками процесса. Геодезическая минимизирует энтропию из -за неравенства Коши – Шварца , которое гласит, что действие ограничено снизу квадратом длины кривой.

Связь с расхождением Дженсена – Шеннона

Метрика Фишера также позволяет связать действие и длину кривой с дивергенцией Дженсена – Шеннона . В частности, есть

где под интегральной функцией dJSD понимается бесконечно малое изменение расходимости Дженсена – Шеннона на выбранном пути. Аналогичным образом , для длины кривой , имеет один

То есть квадратный корень из дивергенции Дженсена – Шеннона - это просто метрика Фишера (деленная на квадратный корень из 8).

Как евклидова метрика

Для дискретного вероятностного пространства , то есть вероятностного пространства на конечном наборе объектов, метрику Фишера можно понимать просто как евклидову метрику, ограниченную положительным «квадрантом» единичной сферы после соответствующих изменений переменной.

Рассмотрим плоское евклидово пространство размерности N +1 , параметризованное точками . Метрика для евклидова пространства определяется выражением

где - 1-формы ; они являются базисными векторами для котангенсного пространства . Запись в качестве базисных векторов для касательного пространства , так что

,

евклидова метрика может быть записана как

Верхний индекс «плоский» служит для напоминания о том, что при записи в координатной форме эта метрика относится к координате плоского пространства .

N - мерный единичный шар вложено в ( N  + 1) n - мерном евклидовом пространстве может быть определена как

Это вложение индуцирует метрику на сфере, она наследуется непосредственно от евклидовой метрики на объемлющем пространстве. Он принимает точно такую ​​же форму, что и выше, с учетом того, что координаты должны лежать на поверхности сферы. Это можно сделать, например, с помощью техники множителей Лагранжа .

Теперь рассмотрим замену переменной . Условие сферы теперь становится условием нормализации вероятности

в то время как метрика становится

Последнее можно распознать как одну четвертую информационной метрики Фишера. Чтобы завершить процесс, напомним, что вероятности являются параметрическими функциями от переменных многообразия, т. Е. Есть . Таким образом, сказанное выше индуцирует метрику на многообразии параметров:

или, в координатной форме, информационная метрика Фишера:

где, как и раньше,

Верхний индекс «рыбак» присутствует, чтобы напомнить, что это выражение применимо для координат ; тогда как некоординатная форма такая же, как евклидова метрика (плоское пространство). То есть информационная метрика Фишера на статистическом многообразии - это просто (в четыре раза) евклидова метрика, ограниченная положительным квадрантом сферы после соответствующих изменений переменной.

Когда случайная величина не дискретная, а непрерывная, аргумент остается в силе. Это можно увидеть двумя разными способами. Один из способов состоит в том, чтобы тщательно преобразовать все вышеперечисленные шаги в бесконечномерном пространстве, стараясь правильно определить пределы и т. Д., Чтобы убедиться, что все манипуляции четко определены, сходятся и т. Д. Другой способ, поскольку отметил Громов , заключается в использовании теоретико-категориального подхода; то есть отметить, что описанные выше манипуляции остаются в силе в категории вероятностей. Здесь следует отметить, что такая категория обладала бы свойством Радона – Никодима , то есть в этой категории справедлива теорема Радона – Никодима . Это включает гильбертовы пространства ; они интегрируемы с квадратом, и в описанных выше манипуляциях этого достаточно, чтобы безопасно заменить сумму по квадратам интегралом по квадратам.

Как метрика Фубини – Штуди

Вышеупомянутые манипуляции, выводящие метрику Фишера из евклидовой метрики, могут быть распространены на комплексные проективные гильбертовы пространства . В этом случае получается метрика Фубини – Штуди . Возможно, это не должно вызывать удивления, поскольку метрика Фубини – Штуди обеспечивает средства измерения информации в квантовой механике. В Буресе метрика , также известная как метрика Helstrom , идентична Фубини-Study метрики, хотя последнее, как правило , написано в терминах чистых состояний , как показано ниже, в то время как Бурес метрического написан для смешанных состояний . Установив фазу комплексной координаты равной нулю, можно получить ровно одну четвертую метрики информации Фишера, точно так же, как указано выше.

Начинают с того же трюка - построения амплитуды вероятности , записанной в полярных координатах , так:

Здесь - комплексная амплитуда вероятности ; и абсолютно реальны. Предыдущие расчеты получены установкой . Обычное условие, что вероятности лежат внутри симплекса , а именно, что

эквивалентно выражается идеей нормализации квадрата амплитуды:

Когда реально, это поверхность сферы.

Метрика Фубини-исследование , написанное в бесконечно малой форме, с использованием квантово-механического Бра и кет , является

В этих обозначениях это так и интегрирование по всему пространству с мерой X записывается как

Выражение можно понимать как бесконечно малую вариацию; эквивалентно, его можно понимать как 1-форму в котангенсном пространстве . Используя бесконечно малые обозначения, полярная форма вероятности выше просто

Вставка вышеуказанного в метрику Фубини – Штуди дает:

Из приведенных выше настроек ясно, что первый член (одна четвертая) является информационной метрикой Фишера. Полную форму вышеизложенного можно сделать немного более ясной, изменив обозначения на стандартную риманову геометрию, так что метрика станет симметричной 2-формой, действующей в касательном пространстве . Изменение обозначений выполняется просто заменой и с учетом того, что интегралы являются просто математическими ожиданиями; так:

Мнимый член - это симплектическая форма , это фаза Берри или геометрическая фаза . В индексной записи это показатель:

Опять же, можно ясно увидеть, что первый член (одна четвертая) является метрикой информации Фишера, если установить . Эквивалентно, метрику Фубини – Штуди можно понимать как метрику комплексного проективного гильбертова пространства, индуцированную комплексным расширением плоской евклидовой метрики. Разница между этой метрикой и метрикой Буреса заключается в том, что метрика Буреса записывается в терминах смешанных состояний.

Непрерывные вероятности

Чуть более формальное, абстрактное определение можно дать следующим образом.

Пусть X быть ориентированное многообразие , и пусть будет мера на X . Эквивалентно, пусть будет вероятностное пространство на , с сигма-алгеброй и вероятностью .

Статистическое многообразие S ( X ) из X определяется как пространство всех мер на X (с сигма-алгебры провел фиксированный). Обратите внимание, что это пространство бесконечномерно и обычно считается пространством Фреше . Точки S ( X ) суть меры.

Выберите точку и рассмотрите касательное пространство . В этом случае информационная метрика Фишера является внутренним произведением касательного пространства. С некоторым злоупотреблением обозначениями это можно записать как

Здесь и - векторы в касательном пространстве; то есть . Злоупотребление обозначений, чтобы написать касательные векторы , как будто они являются производными, и вставить посторонний д в письменном виде интеграла: интегрирование предназначается , чтобы быть осуществлено с использованием меры по всему пространству X . Такое злоупотребление обозначениями на самом деле считается совершенно нормальным в теории меры ; это стандартное обозначение производной Радона – Никодима .

Чтобы интеграл был корректно определен, пространство S ( X ) должно обладать свойством Радона – Никодима , а более конкретно, касательное пространство ограничено теми векторами, которые интегрируются с квадратом . Квадратная интегрируемость эквивалентна утверждению, что последовательность Коши сходится к конечному значению при слабой топологии : пространство содержит ее предельные точки. Обратите внимание, что гильбертовы пространства обладают этим свойством.

Можно увидеть, что это определение метрики эквивалентно предыдущему в несколько этапов. Во- первых, один Выбирает Подмногообразие из S ( X ), рассматривая только те меры , которые параметризованные некоторым плавно меняющимся параметром . Тогда, если конечномерно, то и подмногообразие тоже; аналогично, касательное пространство имеет ту же размерность, что и .

С некоторым дополнительным злоупотреблением языком можно заметить, что экспоненциальное отображение обеспечивает отображение векторов в касательном пространстве на точки в нижележащем многообразии. Таким образом, если - вектор в касательном пространстве, то соответствующая вероятность связана с точкой (после параллельного переноса экспоненциального отображения в ). И наоборот, для данной точки логарифм дает точку в касательном пространстве (грубо говоря, опять же, необходимо осуществлять транспортировку от места отправления до пункта ; подробности см. в первоисточниках). Таким образом, в более простом определении, данном ранее, появляется логарифм.

Смотрите также

Примечания

использованная литература

  • Гарвеш Раскутти Саян Мукерджи, (2014). Информационная геометрия зеркального спуска https://arxiv.org/pdf/1310.7780.pdf
  • Фен, Эдвард Х .; Крукс, Гэвин Э. (2009). «Далекие от равновесия измерения термодинамической длины». Physical Review E . 79 (1 Pt 1): 012104. arXiv : 0807.0621 . Bibcode : 2009PhRvE..79a2104F . DOI : 10.1103 / PhysRevE.79.012104 . PMID  19257090 . S2CID  8210246 .
  • Shun'ichi Amari (1985) Дифференциально-геометрические методы в статистике , Конспекты лекций по статистике, Springer-Verlag, Берлин.
  • Шунити Амари, Хироши Нагаока (2000) Методы информационной геометрии , Переводы математических монографий; v. 191, Американское математическое общество.
  • Паоло Гибилиско, Ева Риккоманьо, Мария Пьера Рогантин и Генри П. Винн, (2009) Алгебраические и геометрические методы в статистике , Cambridge U. Press, Кембридж.