Сеть глубоких убеждений - Deep belief network

Схематический обзор сети глубоких убеждений. Стрелки обозначают направленные соединения в графической модели, которую представляет сеть.

В машинном обучении , глубокое убеждение сеть ( ДБНО ) является порождающей графической моделью , или в качестве альтернативы класса глубокой нейронной сети , состоящий из нескольких слоев скрытых переменные ( «скрытые единиц»), со связями между слоями , но не между единицами в пределах каждый слой.

Обучившись на наборе примеров без присмотра , DBN может научиться вероятностно восстанавливать свои входные данные. Затем слои действуют как детекторы объектов . После этого шага обучения DBN может быть дополнительно обучен под наблюдением для выполнения классификации .

DBN можно рассматривать как состав простых неконтролируемых сетей, таких как ограниченные машины Больцмана (RBM) или автоэнкодеры , где скрытый слой каждой подсети служит видимым слоем для следующей. RBM - это неориентированная , основанная на генерации модель энергии с «видимым» входным слоем и скрытым слоем и связями между слоями, но не внутри них. Эта композиция приводит к быстрой, послойной неконтролируемой процедуре обучения, где контрастное расхождение применяется к каждой подсети по очереди, начиная с «самой нижней» пары слоев (самый низкий видимый слой является обучающим набором ).

Наблюдение за тем, что DBN можно жадно обучать , по одному уровню за раз, привело к одному из первых эффективных алгоритмов глубокого обучения . В целом, существует множество привлекательных реализаций и использования DBN в реальных приложениях и сценариях (например, электроэнцефалография , открытие лекарств ).

Обучение персонала

Ограничено больцмановский машин (УОР) с полностью подключенными видимыми и скрытыми блоками. Обратите внимание, что нет скрытых-скрытых или видимых-видимых соединений.

Метод обучения RBM, предложенный Джеффри Хинтоном для использования с обучающими моделями «Продукт эксперта», называется контрастной дивергенцией (CD). CD обеспечивает приближение к методу максимального правдоподобия , которое в идеале можно было бы применять для изучения весов. При обучении одного RBM обновления веса выполняются с градиентным спуском с помощью следующего уравнения: ${\ Displaystyle w_ {ij} (t + 1) = w_ {ij} (t) + \ eta {\ frac {\ partial \ log (p (v))} {\ partial w_ {ij}}}}$

где, - вероятность видимого вектора, равная . является статистической суммой (используется для нормализации) и является функцией энергии, присвоенной состоянию сети. Более низкая энергия указывает на то, что сеть находится в более «желательной» конфигурации. Градиент имеет простую форму, где представляют собой средние значения по распределению . Проблема возникает при выборке, поскольку для этого требуется расширенная переменная выборка Гиббса . Компакт-диск заменяет этот шаг запуском попеременной выборки Гиббса для шагов (значения производительности). После шагов выполняется выборка данных, и эта выборка используется вместо . Процедура CD работает следующим образом: ${\ Displaystyle p (v)}$ ${\ displaystyle p (v) = {\ frac {1} {Z}} \ sum _ {h} e ^ {- E (v, h)}}$ ${\ displaystyle Z}$ ${\ Displaystyle E (v, h)}$ ${\ displaystyle {\ frac {\ partial \ log (p (v))} {\ partial w_ {ij}}}}$ ${\ displaystyle \ langle v_ {i} h_ {j} \ rangle _ {\ text {data}} - \ langle v_ {i} h_ {j} \ rangle _ {\ text {модель}}}$ ${\ Displaystyle \ langle \ cdots \ rangle _ {p}}$ ${\ displaystyle p}$ ${\ displaystyle \ langle v_ {i} h_ {j} \ rangle _ {\ text {модель}}}$ ${\ displaystyle n}$ ${\ Displaystyle п = 1}$ ${\ displaystyle n}$ ${\ displaystyle \ langle v_ {i} h_ {j} \ rangle _ {\ text {модель}}}$

Инициализируйте видимые единицы тренировочным вектором.
Обновление скрытых блоков параллельно данные видимые блоки: . является функцией сигмовидной и является смещение . ${\ displaystyle p (h_ {j} = 1 \ mid {\ textbf {V}}) = \ sigma (b_ {j} + \ sum _ {i} v_ {i} w_ {ij})}$ ${\ displaystyle \ sigma}$ ${\ displaystyle b_ {j}}$ ${\ displaystyle h_ {j}}$
Обновление видимых блоков параллельно , учитывая скрытые блоки: . предвзятость . Это называется этапом «реконструкции». ${\ displaystyle p (v_ {i} = 1 \ mid {\ textbf {H}}) = \ sigma (a_ {i} + \ sum _ {j} h_ {j} w_ {ij})}$ ${\ displaystyle a_ {i}}$ ${\ displaystyle v_ {i}}$
Повторно обновите скрытые блоки параллельно с учетом реконструированных видимых блоков, используя то же уравнение, что и на шаге 2.
Выполните обновление веса: . ${\ displaystyle \ Delta w_ {ij} \ propto \ langle v_ {i} h_ {j} \ rangle _ {\ text {data}} - \ langle v_ {i} h_ {j} \ rangle _ {\ text {реконструкция }}}$

Как только RBM обучен, другой RBM «накладывается» поверх него, получая входные данные от последнего обученного слоя. Новый видимый слой инициализируется обучающим вектором, а значения единиц в уже обученных слоях назначаются с использованием текущих весов и смещений. Затем новый RBM обучается в соответствии с описанной выше процедурой. Весь этот процесс повторяется до тех пор, пока не будет достигнут желаемый критерий остановки.

Хотя приближение CD к максимальному правдоподобию является грубым (не следует за градиентом какой-либо функции), оно эмпирически эффективно.

Смотрите также

внешняя ссылка

«Сети глубокого убеждения» . Учебники по глубокому обучению .
«Пример сети глубокого убеждения» . Deeplearning4j Учебники . Архивировано из оригинала на 2016-10-03 . Проверено 22 февраля 2015 .

Languages

In other projects

Сеть глубоких убеждений - Deep belief network

СОДЕРЖАНИЕ

Обучение персонала

Смотрите также

Рекомендации

внешняя ссылка