Машина Больцмана - Boltzmann machine

Графическое изображение примера машины Больцмана.
Графическое изображение примера машины Больцмана. Каждое неориентированное ребро представляет зависимость. В этом примере есть 3 скрытых блока и 4 видимых блока. Это не ограниченная машина Больцмана.

Больцман машина (также называется стохастической сети Хопфилда со скрытыми единицами или Шеррингтон-Киркпатрика модели с внешним полем или стохастической Изинга-Ленца-модели Литтла ) представляет собой тип стохастической рекуррентной нейронной сети . Это марковское случайное поле . Он был переведен из статистической физики для использования в когнитивной науке . Машина Больцмана основана на стохастической модели спинового стекла с внешним полем, то есть на модели Шеррингтона – Киркпатрика, которая является стохастической моделью Изинга и применяется к машинному обучению.

Машины Больцмана теоретически интригуют из-за локальности и хеббской природы их алгоритмов обучения (обучаются по правилу Хебба), а также из-за их параллелизма и сходства их динамики с простыми физическими процессами . Машины Больцмана с неограниченной связью не оказались полезными для практических задач в машинном обучении или логическом выводе, но если возможность подключения должным образом ограничена, обучение может быть достаточно эффективным, чтобы быть полезным для практических задач.

Они названы в честь распределения Больцмана в статистической механике , которое используется в их функции выборки . По этой причине их называют « энергетическими моделями » (EBM). Их активно популяризировали и продвигали Джеффри Хинтон , Терри Сейновски и Ян ЛеКун в сообществах когнитивных наук и в области машинного обучения .

Состав

Графическое изображение примера машины Больцмана с весовыми метками.
Графическое изображение машины Больцмана с несколькими обозначенными весами. Каждое неориентированное ребро представляет зависимость и имеет весовой коэффициент . В этом примере есть 3 скрытых объекта (синие) и 4 видимых объекта (белые). Это не ограниченная машина Больцмана.

Машина Больцмана, как и сеть Хопфилда , представляет собой сеть единиц с «энергией» ( гамильтонианом ), определенной для всей сети. Его единицы дают двоичные результаты. В отличие от сетей Хопфилда, машины Больцмана являются стохастическими . Глобальная энергия в машине Больцмана идентична по форме сетям Хопфилда и моделям Изинга :

Где:

  • сила связи между блоком и блоком .
  • состояние ,, единицы .
  • - смещение единицы в глобальной энергетической функции. ( это порог активации для устройства.)

Часто веса представлены в виде симметричной матрицы с нулями по диагонали.

Вероятность состояния единицы

Разница в глобальной энергии, которая возникает из-за того, что единичная единица равна 0 (выкл.) По сравнению с 1 (вкл.) , Записанная с учетом симметричной матрицы весов, определяется как:

Это можно выразить как разность энергий двух состояний:

Подстановка энергии каждого состояния на его относительную вероятность в соответствии с фактором Больцмана (свойство распределения Больцмана , согласно которому энергия состояния пропорциональна отрицательной логарифмической вероятности этого состояния) дает:

где - постоянная Больцмана, поглощенная искусственным понятием температуры . Затем мы переставляем термины и считаем, что вероятности включения и выключения устройства должны в сумме равняться единице:

Решая для , вероятность того, что -й блок включен, дает:

где скаляр называется температурой системы. Это отношение является источником логистической функции, найденной в вероятностных выражениях в вариантах машины Больцмана.

Состояние равновесия

Сеть работает путем многократного выбора устройства и сброса его состояния. После достаточно долгой работы при определенной температуре вероятность глобального состояния сети зависит только от энергии этого глобального состояния в соответствии с распределением Больцмана , а не от начального состояния, из которого был запущен процесс. Это означает, что логарифмические вероятности глобальных состояний становятся линейными по своей энергии. Это соотношение верно, когда машина находится «в тепловом равновесии », что означает, что распределение вероятностей глобальных состояний сходится. При запуске сети, начиная с высокой температуры, ее температура постепенно снижается до достижения теплового равновесия при более низкой температуре. Затем он может сходиться к распределению, в котором уровень энергии колеблется около глобального минимума. Этот процесс называется искусственным отжигом .

Чтобы обучить сеть так, чтобы вероятность ее схождения к глобальному состоянию в соответствии с внешним распределением по этим состояниям, необходимо установить так, чтобы глобальные состояния с наивысшими вероятностями получали наименьшую энергию. Это делается тренировкой.

Обучение

Единицы в машине Больцмана делятся на «видимые» единицы, V, и «скрытые» единицы, H. Видимые единицы - это те, которые получают информацию из «окружающей среды», т.е. обучающий набор представляет собой набор двоичных векторов над множество V. Обозначено распределение по обучающей выборке .

Распределение по глобальным состояниям сходится, когда машина Больцмана достигает теплового равновесия . Мы обозначаем это распределение после того, как мы маргинализируем его по скрытым единицам, как .

Наша цель - приблизить "реальное" распределение, используя произведенное машиной. Сходство двух распределений измеряются дивергенцией Кульбаки-Лейблер , :

где сумма берется по всем возможным состояниям . является функцией весов, поскольку они определяют энергию состояния, а энергия определяется , как и обещано распределением Больцмана. Градиентный спуск над алгоритмом , изменяет заданную массу, путем вычитания частной производной по отношению к весу.

Тренировка на машине Больцмана включает в себя две чередующиеся фазы. Одна из них - это «положительная» фаза, когда состояния видимых блоков ограничиваются конкретным двоичным вектором состояния, выбранным из обучающего набора (согласно ). Другой - «отрицательная» фаза, когда сети разрешено работать свободно, то есть ни одно устройство не имеет своего состояния, определяемого внешними данными. Градиент по отношению к заданному весу задается уравнением:

куда:

  • - вероятность того, что оба устройства i и j включены, когда машина находится в состоянии равновесия на положительной фазе.
  • это вероятность того, что оба устройства i и j включены, когда машина находится в состоянии равновесия на отрицательной фазе.
  • обозначает скорость обучения

Этот результат следует из того факта, что при тепловом равновесии вероятность любого глобального состояния, когда сеть находится в автономном режиме, дается распределением Больцмана.

Это правило обучения биологически правдоподобно, потому что единственная информация, необходимая для изменения веса, обеспечивается «местной» информацией. То есть соединение ( синапс , биологически) не требует информации ни о чем, кроме двух нейронов, которые оно соединяет. Это более биологически реалистично, чем информация, необходимая для соединения во многих других алгоритмах обучения нейронных сетей, таких как обратное распространение .

При обучении машины Больцмана не используется алгоритм EM , который широко используется в машинном обучении . Минимизация KL-дивергенции эквивалентна максимизации логарифмической вероятности данных. Следовательно, процедура обучения выполняет градиентное восхождение на логарифмической вероятности наблюдаемых данных. Это отличается от алгоритма EM, где апостериорное распределение скрытых узлов должно быть вычислено до максимизации ожидаемого значения правдоподобия полных данных во время M-шага.

Обучение смещений аналогично, но использует только активность одного узла:

Проблемы

Теоретически машина Больцмана представляет собой довольно общую вычислительную среду. Например, при обучении работе с фотографиями машина теоретически смоделирует распределение фотографий и может использовать эту модель, например, для завершения частичной фотографии.

К сожалению, машины Больцмана сталкиваются с серьезной практической проблемой, а именно: они перестают правильно обучаться, когда машина масштабируется до чего-то большего, чем тривиальный размер. Это связано с важными эффектами, а именно:

  • требуемый временной порядок для сбора статистики равновесия экспоненциально растет с размером машины и с величиной силы соединения
  • сила соединения более пластична, когда у соединенных единиц вероятность активации находится между нулем и единицей, что приводит к так называемой ловушке отклонения. В конечном итоге из-за шума сила соединения будет следовать случайному блужданию до тех пор, пока активность не станет насыщенной.

Типы

Ограниченная машина Больцмана

Графическое представление примера ограниченной машины Больцмана
Графическое представление ограниченной машины Больцмана. Четыре синих блока представляют скрытые блоки, а три красных блока представляют видимые состояния. В ограниченных машинах Больцмана есть только связи (зависимости) между скрытыми и видимыми модулями, и нет соединений между модулями одного и того же типа (нет скрытых-скрытых или видимых-видимых соединений).

Хотя обучение в машинах Больцмана в целом непрактично, его можно сделать достаточно эффективным в ограниченной машине Больцмана (RBM), которая не допускает внутрислойных связей между скрытыми и видимыми блоками, т.е. нет связи между видимыми и видимыми и скрытыми для скрытых блоков. . После обучения одного RBM действия его скрытых блоков можно рассматривать как данные для обучения RBM более высокого уровня. Этот метод объединения RBM позволяет эффективно обучать многие уровни скрытых модулей и является одной из наиболее распространенных стратегий глубокого обучения . По мере добавления каждого нового слоя генеративная модель улучшается.

Расширение ограниченной машины Больцмана позволяет использовать вещественные данные, а не двоичные данные.

Одним из примеров практического применения RBM является распознавание речи.

Глубокая машина Больцмана

Глубокая машина Больцмана (DBM) - это тип двоичного попарного марковского случайного поля ( неориентированная вероятностная графическая модель ) с несколькими слоями скрытых случайных величин . Это сеть симметрично связанных стохастических двоичных единиц . Он состоит из набора видимых единиц и слоев скрытых единиц . Никакие соединения не связывают блоки одного уровня (например, RBM ). Для DBM вероятность, присвоенная вектору ν, равна

где - набор скрытых единиц, и - параметры модели, представляющие видимые-скрытые и скрытые-скрытые взаимодействия. В DBN только два верхних уровня образуют ограниченную машину Больцмана (которая является неориентированной графической моделью ), в то время как нижние уровни образуют направленную генеративную модель. В DBM все слои симметричны и неориентированы.

Подобно DBN , DBM могут изучать сложные и абстрактные внутренние представления входных данных в таких задачах, как распознавание объектов или речи , используя ограниченные помеченные данные для точной настройки представлений, построенных с использованием большого набора немаркированных сенсорных входных данных. Однако, в отличие от DBN и глубоких сверточных нейронных сетей , они выполняют процедуру вывода и обучения в обоих направлениях, снизу вверх и сверху вниз, что позволяет DBM лучше раскрывать представления входных структур.

Однако низкая скорость DBM ограничивает их производительность и функциональность. Поскольку точное обучение методом максимального правдоподобия невозможно для DBM, возможно только приблизительное обучение по методу максимального правдоподобия. Другой вариант - использовать вывод среднего поля для оценки ожиданий, зависящих от данных, и аппроксимировать ожидаемую достаточную статистику с помощью цепи Маркова Монте-Карло (MCMC). Этот приблизительный вывод, который необходимо делать для каждого входного теста, примерно в 25-50 раз медленнее, чем один восходящий проход в DBM. Это делает совместную оптимизацию непрактичной для больших наборов данных и ограничивает использование DBM для таких задач, как представление функций.

RBM с шипами и плитами

Потребность в глубоком обучении с реальными входными данными, как в гауссовских RBM, привела к RBM с пиковыми значениями ( ss RBM ), который моделирует входные данные с непрерывными значениями с двоичными скрытыми переменными . Подобно базовым RBM и его вариантам, RBM с шипами и пластинами является двудольным графом , в то время как, как и GRBM , видимые единицы (входные данные) являются действительными. Разница заключается в скрытом слое, где каждый скрытый блок имеет двоичную переменную пика и переменную плиты с действительным знаком. Пик - это дискретная вероятностная масса в нуле, а плита - это плотность в непрерывной области; их смесь образует априор .

Расширение ss RBM, называемое µ-ss RBM, обеспечивает дополнительные возможности моделирования с использованием дополнительных членов в функции энергии . Один из этих терминов позволяет модели формировать условное распределение пиковых переменных , исключая переменные плиты с учетом наблюдения.

История

Машина Больцмана основана на спин-стеклянной модели стохастической модели Изинга Шеррингтона-Киркпатрика .

Оригинальный вклад в применение таких моделей, основанных на энергии, в когнитивной науке появился в статьях Хинтона и Сейновски.

Основополагающая публикация Джона Хопфилда соединила физику и статистическую механику, упомянув спиновые стекла.

Идея применения модели Изинга с отожженной выборки Гиббса присутствует в Хофштадтер «ы Имитатор проекта.

Подобные идеи (с изменением знака в энергетической функции) можно найти в «Теории гармонии» Павла Смоленского .

Явная аналогия, проведенная со статистической механикой в ​​формулировке машины Больцмана, привела к использованию терминологии, заимствованной из физики (например, «энергия», а не «гармония»), которая стала стандартом в этой области. Широкому распространению этой терминологии, возможно, способствовал тот факт, что ее использование привело к заимствованию множества концепций и методов из статистической механики. Различные предложения использовать имитацию отжига для вывода, по-видимому, независимы.

Модели Изинга стали рассматриваться как частный случай марковских случайных полей , которые находят широкое применение в лингвистике , робототехнике , компьютерном зрении и искусственном интеллекте .

Смотрите также

.

использованная литература

  1. https://www.mis.mpg.de/preprints/2018/preprint2018_87.pdf

дальнейшее чтение

внешние ссылки