Теория информационного поля - Information field theory

Теория информационного поля (IFT) - это байесовская статистическая теория поля, относящаяся к реконструкции сигналов , космографии и другим связанным областям. IFT суммирует доступную информацию о физическом поле с использованием байесовских вероятностей . Он использует вычислительные методы, разработанные для квантовой теории поля и статистической теории поля, для обработки бесконечного числа степеней свободы поля и для получения алгоритмов для вычисления значений математического ожидания поля . Например, значение апостериорного математического ожидания поля, созданного известным гауссовским процессом и измеренного линейным устройством с известной статистикой гауссовского шума, задается обобщенным фильтром Винера, применяемым к измеренным данным. IFT распространяет такую ​​известную формулу фильтра на ситуации с нелинейной физикой , нелинейными устройствами , негауссовским полем или статистикой шума, зависимостью статистики шума от значений поля и частично неизвестными параметрами измерения. Для этого используются диаграммы Фейнмана , уравнения потока перенормировки и другие методы математической физики .

Мотивация

Поля играют важную роль в науке, технологиях и экономике. Они описывают пространственные изменения некоторой величины, например температуры воздуха, в зависимости от положения. Знание конфигурации поля может иметь большое значение. Однако измерения полей никогда не могут с уверенностью обеспечить точную конфигурацию поля. Физические поля имеют бесконечное количество степеней свободы, но данные, генерируемые любым измерительным устройством, всегда конечны, обеспечивая только конечное количество ограничений для поля. Таким образом, однозначный вывод такого поля из одних только данных измерений невозможен, и остается только вероятностный вывод в качестве средства для утверждений о поле. К счастью, физические поля обнаруживают корреляции и часто подчиняются известным физическим законам. Такую информацию лучше всего объединить с выводом поля, чтобы преодолеть несоответствие степеней свободы поля точкам измерения. Чтобы справиться с этим, необходима теория информации для полей, а это и есть теория информационного поля.

Концепции

Байесовский вывод

- это значение поля в определенном месте в пространстве . Априорные знания о неизвестном сигнальном поле кодируются в распределении вероятностей . Данные предоставляют дополнительную информацию о вероятности, которая включается в апостериорную вероятность.

согласно теореме Байеса .

Информационный гамильтониан

В IFT теорема Байеса обычно переписывается на языке статистической теории поля,

с информационным гамильтонианом, определенным как
отрицательный логарифм совместной вероятности данных и сигнала, а статистическая сумма равна
Эта переформулировка теоремы Байеса позволяет использовать методы математической физики, разработанные для обработки статистических теорий поля и квантовых теорий поля .

Поля

Поскольку поля имеют бесконечное число степеней свободы, определение вероятностей над пространствами конфигураций полей имеет тонкости. Идентификация физических полей как элементов функциональных пространств создает проблему, заключающуюся в том, что над ними не определена мера Лебега, и поэтому плотности вероятностей не могут быть определены там. Однако физические поля имеют гораздо большую регулярность, чем большинство элементов функциональных пространств, поскольку они непрерывны и гладкие в большинстве своих мест. Поэтому менее общие, но достаточно гибкие конструкции могут использоваться для обработки бесконечного числа степеней свободы поля.

Прагматический подход состоит в том, чтобы рассматривать поле дискретизацией в пикселях. Каждый пиксель несет одно значение поля, которое считается постоянным в пределах объема пикселя. Все утверждения о непрерывном поле затем должны быть преобразованы в его пиксельное представление. Таким образом, мы имеем дело с конечномерными полевыми пространствами, в которых плотности вероятностей хорошо определены.

Для того чтобы это описание было правильной теорией поля, дополнительно требуется, чтобы разрешение пикселей всегда можно было уточнять, в то время как ожидаемые значения дискретизированного поля сходились к конечным значениям:

Интегралы по путям

Если этот предел существует, можно говорить об интеграле по пространству конфигурации поля или интеграле по путям

независимо от разрешения его можно было бы оценить численно.

Гауссовский приор

Самый простой априор для поля - это гауссовское распределение вероятностей с нулевым средним

Определитель в знаменателе может быть некорректно определен в континуальном пределе , однако все, что необходимо для согласованности IFT, - это то, что этот определитель может быть оценен для любого представления поля с конечным разрешением и что это позволяет вычислять сходящиеся значения математического ожидания. .

Гауссовское распределение вероятностей требует задания двухточечной корреляционной функции поля с коэффициентами

и скалярное произведение для непрерывных полей
относительно которой строится ковариация поля обратного сигнала , т. е.

Соответствующий гамильтониан априорной информации имеет вид

Уравнение измерения

Данные измерений были получены с учетом правдоподобия . В случае, если прибор был линейным, уравнение измерения вида

может быть дано, в котором отклик прибора, который описывает, как данные в среднем реагируют на сигнал, и шум, просто разница между данными и линейным откликом сигнала . Важно отметить, что ответ переводит бесконечномерный вектор сигнала в конечномерное пространство данных. В компонентах это читается как

где также были введены обозначения компонент вектора для векторов сигналов и данных.

Если шум следует за независимой от сигнала гауссовой статистикой с нулевым средним и ковариацией , то вероятность также является гауссовой,

а гамильтониан информации правдоподобия равен
Линейное измерение гауссовского сигнала с учетом гауссовского и независимого от сигнала шума приводит к свободному IFT.

Бесплатная теория

Свободный гамильтониан

Совместный информационный гамильтониан гауссовского сценария, описанный выше, имеет вид

где означает равенство с точностью до нерелевантных констант, что в данном случае означает выражения, не зависящие от . Отсюда ясно, что апостериорная функция должна быть гауссовой со средним значением и дисперсией ,
где равенство между правыми и левыми частями рук держит , как оба распределения нормированы, .

Обобщенный фильтр Винера

Апостериорное среднее

также известен как решение обобщенного фильтра Винера и ковариация неопределенности
как дисперсия Винера.

В IFT он называется источником информации, поскольку он действует как источник информации, чтобы возбуждать поле (знания), и распространителем информации, поскольку он передает информацию из одного места в другое в

Теория взаимодействия

Взаимодействующий гамильтониан

Если какое-либо из предположений, которые приводят к свободной теории, нарушается, IFT становится взаимодействующей теорией с членами, которые имеют порядок выше квадратичного в поле сигнала. Это происходит, когда сигнал или шум не соответствуют гауссовой статистике, когда ответ нелинейный, когда шум зависит от сигнала или когда отклик или ковариации неопределенны.

В этом случае информационный гамильтониан может быть расширен в ряд Тейлора - Фреше ,

где - свободный гамильтониан, который сам по себе привел бы к гауссовскому апостериорному, и - взаимодействующий гамильтониан, который кодирует негауссовские поправки. Коэффициенты Тейлора первого и второго порядка часто отождествляются с (отрицательным) источником информации и пропагатором информации соответственно. Более высокие коэффициенты связаны с нелинейным самовзаимодействием.

Классическое поле

Классическое поле минимизирует информационный гамильтониан,

и, следовательно, максимизирует задний:
Таким образом, классическое поле является максимальной апостериорной оценкой задачи вывода поля.

Критический фильтр

Проблема фильтра Винера требует, чтобы была известна двухточечная корреляция поля. Если он неизвестен, он должен быть выведен вместе с самим полем. Это требует указания

гиперприора . Часто можно предположить статистическую однородность (трансляционную инвариантность), подразумевая, что она диагональна в пространстве Фурье ( поскольку это мерное декартово пространство ). В этом случае необходимо вывести только пространственный спектр мощности Фурье . Учитывая дополнительное предположение о статистической изотропии, этот спектр зависит только от длины вектора Фурье, и необходимо определить только одномерный спектр . Затем предыдущая ковариация поля считывается в координатах пространства Фурье .

Если априорное значение ровное, совокупная вероятность данных и спектра равна

где снова использовались обозначения пропагатора информации и источника задачи фильтра Винера. Соответствующий информационный гамильтониан имеет вид
где означает равенство с точностью до нерелевантных констант (здесь: константа относительно ). Минимизация этого по отношению к , чтобы получить максимальную апостериорную оценку спектра мощности, дает
где были введены среднее значение фильтра Винера и проектор спектральной полосы . Последний коммутирует с , поскольку диагонален в пространстве Фурье. Таким образом, максимальная апостериорная оценка для спектра мощности равна
Она должна быть рассчитана итеративно, так как и зависит как от самих себя. При
эмпирическом байесовском подходе оценка будет считаться заданной. Как следствие, апостериорная средняя оценка поля сигнала является соответствующей, а ее неопределенность - соответствующей в эмпирическом байесовском приближении.

Результирующий нелинейный фильтр называется критическим фильтром . Обобщение формулы оценки спектра мощности как

показывает пороги восприятия для , что означает, что дисперсия данных в диапазоне Фурье должна превысить ожидаемый уровень шума на определенный порог, прежде чем реконструкция сигнала станет ненулевой для этого диапазона. Когда дисперсия данных немного превышает этот порог, реконструкция сигнала перескакивает на конечный уровень возбуждения, аналогично
фазовому переходу первого рода в термодинамических системах. Для фильтра с восприятием сигнал запускается непрерывно, как только дисперсия данных превышает уровень шума. Исчезновение прерывистого восприятия при подобно тому, как термодинамическая система проходит через критическую точку . Отсюда и название «критический фильтр».

Критический фильтр, его расширения до нелинейных измерений и включение априорных значений неплоского спектра позволили применить IFT к реальным задачам вывода сигналов, для которых ковариация сигнала обычно априори неизвестна.

Примеры применения IFT

Радиоинтерферометрическое изображение радиогалактик в скоплении галактик Abell 2219. Изображения были построены с помощью обратной проекции данных (вверху), алгоритма CLEAN (в центре) и алгоритма RESOLVE (внизу). Отрицательные и, следовательно, нефизические потоки отображаются белым цветом.

Обобщенный фильтр Винера, который появляется в бесплатном IFT, широко используется в обработке сигналов. Алгоритмы, явно основанные на IFT, были выведены для ряда приложений. Многие из них реализованы с использованием библиотеки Numerical Information Field Theory (NIFTy).

  • D³PO - это код для снятия шумов, деконволюции и разложения фотонных наблюдений . Он восстанавливает изображения из отдельных событий счета фотонов, принимая во внимание статистику счета Пуассона и функцию отклика прибора. Он разделяет излучение неба на изображение диффузного излучения и одного из точечных источников, используя различную структуру корреляции и статистику двух компонентов для их разделения. D³PO был применен к данным спутников Fermi и RXTE .
  • RESOLVE - это байесовский алгоритм построения изображений с синтезом апертуры в радиоастрономии. RESOLVE похож на D³PO, но предполагает гауссовское правдоподобие и функцию отклика в пространстве Фурье. Он был применен к данным очень большого массива .
  • PySESA - это среда Python для пространственно-явного спектрального анализа для пространственно-явного спектрального анализа облаков точек и геопространственных данных.

Продвинутая теория

Многие методы из квантовой теории поля могут использоваться для решения проблем IFT, например диаграммы Фейнмана, эффективные действия и формализм полевого оператора.

Диаграммы Фейнмана

Первые три диаграммы Фейнмана, вносящие вклад в апостериорную среднюю оценку поля. Линия обозначает пропагатор информации, точка в конце строки - источник информации, а вершина - член взаимодействия. Первая диаграмма кодирует фильтр Винера, вторая - нелинейную поправку, а третья - поправку неопределенности для фильтра Винера.

В случае, если коэффициенты взаимодействия в

разложении Тейлора - Фреше информационного гамильтониана
малы, логарифм статистической суммы или свободная энергия Гельмгольца ,
можно асимптотически разложить по этим коэффициентам. Свободный гамильтониан определяет среднее значение и дисперсию гауссова распределения, по которому интегрируется разложение. Это приводит к сумме по набору всех связанных
диаграмм Фейнмана . По свободной энергии Гельмгольца любой связанный момент поля может быть вычислен с помощью
Ситуации, в которых существуют небольшие параметры расширения, необходимые для сходимости такого схематического расширения, задаются полями сигнала, близкими к гауссовскому, где негауссовость статистики поля приводит к малым коэффициентам взаимодействия . Например, статистика
космического микроволнового фона близка к гауссовой, с небольшими количествами негауссовости, которые, как полагают, были засеяны во время инфляционной эпохи в Ранней Вселенной .

Эффективное действие

Чтобы иметь стабильные числовые значения для задач IFT, необходим функционал поля, который в случае минимизации обеспечивает поле апостериорного среднего. Это дается эффективным действием или свободной энергией Гиббса поля. Свободная энергия Гиббса может быть построена из свободной энергии Гельмгольца с помощью

преобразования Лежандра . В IFT это разница внутренней информационной энергии
и энтропия Шеннона
для температуры , где используется апостериорное приближение Гаусса с приближенными данными, содержащими среднее значение и дисперсию поля.

Тогда свободная энергия Гиббса равна

Кульбак-Либлер расхождение между приближенным и точным задним плюс свободной энергией Гельмгольца. Поскольку последнее не зависит от приближенных данных , минимизация свободной энергии Гиббса эквивалентна минимизации расхождения Кульбака-Лейблера между приближенными и точными апостериорными. Таким образом, подход эффективного действия IFT эквивалентен
вариационным байесовским методам , которые также минимизируют расхождение Кульбака-Лейблера между приближенными и точными апостериорными методами .

Минимизация свободной энергии Гиббса приближенно дает апостериорное среднее поле

тогда как минимизация информации гамильтониан обеспечивает максимальное апостериорное поле. Поскольку последний, как известно, вызывает чрезмерный шум, первый обычно является лучшим средством оценки поля.

Операторный формализм

Вычисление свободной энергии Гиббса требует вычисления гауссовых интегралов по информационному гамильтониану, поскольку внутренняя информационная энергия равна

Такие интегралы могут быть вычислены с помощью формализма оператора поля, в котором
- оператор поля. Это генерирует выражение поля в интеграле, если применяется к функции распределения Гаусса,
и любая более высокая мощность поля, если применяется несколько раз,
Если информационный гамильтониан аналитический, все его члены могут быть сгенерированы через полевой оператор
Поскольку оператор поля не зависит от самого поля , его можно вывести из интеграла по путям конструкции внутренней энергии информации,
where следует рассматривать как функционал, который всегда возвращает значение независимо от значения его ввода . Результирующее выражение можно вычислить, коммутируя аннигилятор среднего поля вправо от выражения, где они обращаются в нуль, поскольку . Аннигилятор среднего поля коммутирует со средним полем как

Используя формализм оператора поля, можно вычислить свободную энергию Гиббса, что позволяет сделать (приближенный) вывод апостериорного среднего поля с помощью численной робастной минимизации функционала.

История

Книгу Норберта Винера можно считать одной из первых работ по полевому выводу. Использование интегралов по путям для вывода полей было предложено рядом авторов, например Эдмундом Бертшингером или Уильямом Биалеком и А. Зи. Связь теории поля и байесовских рассуждений была четко обозначена Йоргом Леммом. Термин « теория информационного поля» был введен Торстеном Энслином. См. Последнюю ссылку для получения дополнительной информации об истории IFT.

Смотрите также

Рекомендации