Разведение (нейронные сети) - Dilution (neural networks)

Разбавление (также называемое отсевом ) - это метод регуляризации для уменьшения переобучения в искусственных нейронных сетях путем предотвращения сложных коадаптаций обучающих данных . Это эффективный способ выполнения усреднения модели с помощью нейронных сетей. Термин разбавление относится к уменьшению веса. Термин « выпадение» относится к случайному «выпадению» или пропуску блоков (как скрытых, так и видимых) в процессе обучения нейронной сети. И уменьшение веса, и отсев единиц вызывают один и тот же тип регуляризации, и часто термин « выпадение» используется в отношении уменьшения веса.

Типы и использование

Разведение обычно делится на слабое и сильное . Слабое разбавление описывает процесс, в котором конечная доля удаленных соединений мала, а сильное разбавление относится к тому, когда эта доля является большой. Нет четкого различия в том, где находится предел между сильным и слабым разбавлением, и часто различие не имеет смысла, хотя оно имеет последствия для того, как находить точные решения.

Иногда разбавление используется для добавления демпфирующего шума к входам. В этом случае слабое разбавление относится к добавлению небольшого количества демпфирующего шума, тогда как сильное разбавление относится к добавлению большего количества демпфирующего шума. Оба могут быть переписаны как варианты разбавления веса.

Эти методы также иногда называют случайным сокращением весов, но обычно это не повторяющаяся односторонняя операция. Сеть обрезается, а затем сохраняется, если она является улучшением по сравнению с предыдущей моделью. И разбавление, и выпадение относятся к итерационному процессу. Отсечение весов обычно не означает, что сеть продолжает обучение, в то время как при разбавлении / исключении сеть продолжает обучение после применения метода.

Обобщенная линейная сеть

Выход из слоя линейных узлов в искусственной нейронной сети можно описать как

{\ displaystyle y_ {i} = \ sum _ {j} w_ {ij} x_ {j}}

( 1 )

${\ displaystyle y_ {i}}$ - вывод из узла ${\ displaystyle i}$
${\ displaystyle w_ {ij}}$ - реальный вес до разведения, также называемый силой соединения Хебба
${\ displaystyle x_ {j}}$ - ввод из узла ${\ displaystyle j}$

В векторных обозначениях это можно записать как

{\ Displaystyle \ mathbf {y} = \ mathbf {W} \ mathbf {x}}

( 2 )

${\ displaystyle \ mathbf {y}}$ - выходной вектор
${\ displaystyle \ mathbf {W}}$ - весовая матрица
${\ displaystyle \ mathbf {x}}$ - входной вектор

Уравнения (1) и (2) используются в следующих разделах.

Слабое разведение

Во время слабого разбавления конечная доля удаленных соединений (веса) мала, что приводит к крошечной неопределенности. Этот крайний случай может быть решен точно с помощью теории среднего поля . При слабом разбавлении влияние на вес можно описать как

{\ displaystyle {\ hat {w_ {ij}}} = {\ begin {cases} w_ {ij}, & {\ mbox {with}} P (c) \\ 0, & {\ mbox {else}} \ конец {case}}}

( 3 )

${\ displaystyle {\ hat {w_ {ij}}}}$ - разбавленная масса
${\ displaystyle w_ {ij}}$ - реальный вес до разведения
${\ Displaystyle P (c)}$ - вероятность , вероятность удержания груза ${\ displaystyle c}$

Интерпретация вероятности также может быть изменена с сохранения веса на сокращение веса. ${\ Displaystyle P (c)}$

В векторных обозначениях это можно записать как

{\ displaystyle {\ hat {\ mathbf {W}}} = \ operatorname {g} \ left (\ mathbf {W}, c \ right)}

( 4 )

где функция накладывает предыдущее разбавление. ${\ Displaystyle \ OperatorName {g} (\ cdot)}$

При слабом разбавлении разбавляется только небольшая и фиксированная часть гирь. Когда количество членов в сумме становится бесконечным (веса для каждого узла), оно все еще бесконечно (дробь фиксирована), поэтому может применяться теория среднего поля . В обозначениях Герца и др. это было бы записано как

{\ displaystyle \ left \ langle h_ {i} \ right \ rangle = c \ sum _ {j} w_ {ij} \ left \ langle S_ {j} \ right \ rangle}

( 5 )

${\ displaystyle \ left \ langle h_ {i} \ right \ rangle}$ средняя температура поля
${\ displaystyle c}$ - масштабный коэффициент для температуры от вероятности сохранения веса
${\ displaystyle w_ {ij}}$ - реальный вес до разведения, также называемый силой соединения Хебба
${\ displaystyle \ left \ langle S_ {j} \ right \ rangle}$ - средние устойчивые состояния равновесия

Для этого есть некоторые предположения, которые здесь не перечислены.

Сильное разбавление

При сильном разбавлении конечная доля удаленных соединений (веса) велика, что приводит к огромной неопределенности.

Выбывать

Выпадение - это частный случай предыдущего весового уравнения ( 3 ), в котором вышеупомянутое уравнение корректируется для удаления всей строки в векторной матрице, а не только случайных весов.

{\ displaystyle {\ hat {\ mathbf {w} _ {j}}} = {\ begin {cases} \ mathbf {w} _ {j}, & {\ mbox {with}} P (c) \\\ mathbf {0}, & {\ mbox {иначе}} \ end {case}}}

( 6 )

${\ Displaystyle P (c)}$ - вероятность сохранить строку в весовой матрице ${\ displaystyle c}$
${\ displaystyle \ mathbf {w} _ {j}}$ - вещественная строка в весовой матрице перед выпадением
${\ displaystyle {\ hat {\ mathbf {w} _ {j}}}}$ - разбавленная строка в весовой матрице

Поскольку выпадение удаляет целую строку из векторной матрицы, предыдущие (не включенные в список) предположения о слабом разбавлении и использовании теории среднего поля неприменимы.

Процесс, с помощью которого узел приводится к нулю, будь то установка весов на ноль, «удаление узла» или каким-либо другим способом, не влияет на конечный результат и не создает новый и уникальный случай. Если нейронная сеть обрабатывается высокопроизводительным цифровым мультипликатором массивов, то, вероятно, более эффективно сбрасывать значение до нуля в конце графа процесса. Если сеть обрабатывается процессором с ограничениями, возможно, даже аналоговым процессором нейроморфа, то, вероятно, более энергоэффективным решением будет приведение значения к нулю на ранней стадии графа процесса.

Патент Google

Хотя были примеры случайного удаления связей между нейронами в нейронной сети для улучшения моделей, этот метод впервые был введен Джеффри Хинтоном и др. Под названием « выпадение » . в 2012 году. В настоящее время Google владеет патентом на метод отсева.

Смотрите также

Ноты

^ Патент, скорее всего, недействителен из-за предшествующего уровня техники. «Отсев» был описан как «разбавление» в предыдущих публикациях. Это описано Герцем, Крогом и Палмером во введении в теорию нейронных вычислений (1991) ISBN 0-201-51560-1 , стр. 45, Слабое разбавление . В тексте упоминается Сомполинский Теория нейронных сетей: правила Хебба и не только в Гейдельбергском коллоквиуме по глянцевой динамике (1987) и Каннинга и Гарднера, частично связанные модели нейронных сетей в Journal of Physics (1988). Далее описывается сильное разбавление. Это предшествует статье Хинтона.

Languages

In other projects