Энергетическая модель - Energy based model

Энергии на основе модели (EBM) является формой порождающей модели (ГМ) импортируемого непосредственно из статистической физики к обучению. GM изучает базовое распределение данных, анализируя образец набора данных. После обучения GM может создавать другие наборы данных, которые также соответствуют распределению данных. EBM представляют собой единую основу для многих вероятностных и не вероятностных подходов к такому обучению, особенно для обучения графических и других структурированных моделей.

EBM изучает характеристики целевого набора данных и генерирует аналогичный, но более крупный набор данных. EBM обнаруживают скрытые переменные набора данных и генерируют новые наборы данных с аналогичным распределением.

Целевые приложения включают обработку естественного языка , робототехнику и компьютерное зрение .

История

Ранняя работа над EBM предлагала модели, которые представляли энергию как совокупность скрытых и наблюдаемых переменных. ДМ появились в 2003 году.

Подход

EBM фиксируют зависимости, связывая ненормированный скаляр вероятности ( энергию ) с каждой конфигурацией комбинации наблюдаемых и скрытых переменных. Вывод состоит из поиска (значений) скрытых переменных, которые минимизируют энергию при заданном наборе (значений) наблюдаемых переменных. Точно так же модель изучает функцию, которая связывает низкие энергии с правильными значениями скрытых переменных и более высокие энергии с неправильными значениями.

Традиционные EBM полагаются на методы оптимизации стохастического градиентного спуска (SGD), которые обычно трудно применить к наборам данных большой размерности. В 2019 году OpenAI опубликовал вариант, в котором вместо этого использовалась динамика Ланжевена (LD). LD - это итеративный алгоритм оптимизации, который вводит шум в оценщик как часть обучения целевой функции . Его можно использовать для сценариев байесовского обучения путем создания выборок из апостериорного распределения.

EBM не требуют, чтобы энергии были нормализованы как вероятности. Другими словами, энергии не нужно суммировать до 1. Поскольку нет необходимости оценивать константу нормализации, как это делают вероятностные модели, определенные формы вывода и обучения с помощью EBM являются более управляемыми и гибкими.

Выборки генерируются неявно с помощью метода Монте-Карло с цепью Маркова . Буфер воспроизведения прошлых изображений используется с LD для инициализации модуля оптимизации.

Характеристики

EBM демонстрируют полезные свойства:

  • Простота и стабильность - EBM - единственный объект, который необходимо спроектировать и обучить. Отдельные сети не нуждаются в обучении для обеспечения баланса.
  • Адаптивное время вычислений - EBM может генерировать четкие, разнообразные выборки или (более быстро) грубые, менее разнообразные выборки. Данная процедура позволяет получить истинные образцы за бесконечное время.
  • Гибкость. В вариационных автоэнкодерах (VAE) и потоковых моделях генератор изучает карту из непрерывного пространства в (возможно) прерывное пространство, содержащее различные режимы данных. EBM могут научиться назначать низкие энергии непересекающимся областям (несколько режимов).
  • Адаптивная генерация - генераторы EBM неявно определяются распределением вероятностей и автоматически адаптируются по мере изменения распределения (без обучения), позволяя EBM обращаться к областям, в которых обучение генератора нецелесообразно, а также минимизировать коллапс режима и избегать ложных режимов из-за выхода из строя. - образцы распространения.
  • Композиционность - отдельные модели представляют собой ненормализованные распределения вероятностей, позволяющие комбинировать модели с помощью продуктов экспертов или других иерархических методов.

Результаты экспериментов

В наборах данных изображений, таких как CIFAR-10 и ImageNet 32x32, модель EBM относительно быстро генерировала высококачественные изображения. Он поддерживает комбинирование функций, извлеченных из одного типа изображения, для создания других типов изображений. Он смог обобщить, используя наборы данных вне распределения, превзойдя по эффективности модели на основе потоков и авторегрессионные модели . EBM была относительно устойчивой к враждебным возмущениям, ведя себя лучше, чем модели, специально обученные против них с помощью обучения классификации.

Альтернативы

EBM конкурируют с такими методами, как вариационные автоэнкодеры (VAE) или генеративные состязательные нейронные сети (GAN).

Смотрите также

использованная литература

внешние ссылки