Разведение (нейронные сети) - Dilution (neural networks)

Разбавление (также называемое отсевом ) - это метод регуляризации для уменьшения переобучения в искусственных нейронных сетях путем предотвращения сложных коадаптаций обучающих данных . Это эффективный способ выполнения усреднения модели с помощью нейронных сетей. Термин разбавление относится к уменьшению веса. Термин « выпадение» относится к случайному «выпадению» или пропуску блоков (как скрытых, так и видимых) в процессе обучения нейронной сети. И уменьшение веса, и отсев единиц вызывают один и тот же тип регуляризации, и часто термин « выпадение» используется в отношении уменьшения веса.

Типы и использование

Разведение обычно делится на слабое и сильное . Слабое разбавление описывает процесс, в котором конечная доля удаленных соединений мала, а сильное разбавление относится к тому, когда эта доля является большой. Нет четкого различия в том, где находится предел между сильным и слабым разбавлением, и часто различие не имеет смысла, хотя оно имеет последствия для того, как находить точные решения.

Иногда разбавление используется для добавления демпфирующего шума к входам. В этом случае слабое разбавление относится к добавлению небольшого количества демпфирующего шума, тогда как сильное разбавление относится к добавлению большего количества демпфирующего шума. Оба могут быть переписаны как варианты разбавления веса.

Эти методы также иногда называют случайным сокращением весов, но обычно это не повторяющаяся односторонняя операция. Сеть обрезается, а затем сохраняется, если она является улучшением по сравнению с предыдущей моделью. И разбавление, и выпадение относятся к итерационному процессу. Отсечение весов обычно не означает, что сеть продолжает обучение, в то время как при разбавлении / исключении сеть продолжает обучение после применения метода.

Обобщенная линейная сеть

Выход из слоя линейных узлов в искусственной нейронной сети можно описать как

 

 

 

 

( 1 )

  • - вывод из узла
  • - реальный вес до разведения, также называемый силой соединения Хебба
  • - ввод из узла

В векторных обозначениях это можно записать как

 

 

 

 

( 2 )

  • - выходной вектор
  • - весовая матрица
  • - входной вектор

Уравнения (1) и (2) используются в следующих разделах.

Слабое разведение

Во время слабого разбавления конечная доля удаленных соединений (веса) мала, что приводит к крошечной неопределенности. Этот крайний случай может быть решен точно с помощью теории среднего поля . При слабом разбавлении влияние на вес можно описать как

 

 

 

 

( 3 )

  • - разбавленная масса
  • - реальный вес до разведения
  • - вероятность , вероятность удержания груза

Интерпретация вероятности также может быть изменена с сохранения веса на сокращение веса.

В векторных обозначениях это можно записать как

 

 

 

 

( 4 )

где функция накладывает предыдущее разбавление.

При слабом разбавлении разбавляется только небольшая и фиксированная часть гирь. Когда количество членов в сумме становится бесконечным (веса для каждого узла), оно все еще бесконечно (дробь фиксирована), поэтому может применяться теория среднего поля . В обозначениях Герца и др. это было бы записано как

 

 

 

 

( 5 )

  • средняя температура поля
  • - масштабный коэффициент для температуры от вероятности сохранения веса
  • - реальный вес до разведения, также называемый силой соединения Хебба
  • - средние устойчивые состояния равновесия

Для этого есть некоторые предположения, которые здесь не перечислены.

Сильное разбавление

При сильном разбавлении конечная доля удаленных соединений (веса) велика, что приводит к огромной неопределенности.

Выбывать

Выпадение - это частный случай предыдущего весового уравнения ( 3 ), в котором вышеупомянутое уравнение корректируется для удаления всей строки в векторной матрице, а не только случайных весов.

 

 

 

 

( 6 )

  • - вероятность сохранить строку в весовой матрице
  • - вещественная строка в весовой матрице перед выпадением
  • - разбавленная строка в весовой матрице

Поскольку выпадение удаляет целую строку из векторной матрицы, предыдущие (не включенные в список) предположения о слабом разбавлении и использовании теории среднего поля неприменимы.

Процесс, с помощью которого узел приводится к нулю, будь то установка весов на ноль, «удаление узла» или каким-либо другим способом, не влияет на конечный результат и не создает новый и уникальный случай. Если нейронная сеть обрабатывается высокопроизводительным цифровым мультипликатором массивов, то, вероятно, более эффективно сбрасывать значение до нуля в конце графа процесса. Если сеть обрабатывается процессором с ограничениями, возможно, даже аналоговым процессором нейроморфа, то, вероятно, более энергоэффективным решением будет приведение значения к нулю на ранней стадии графа процесса.

Патент Google

Хотя были примеры случайного удаления связей между нейронами в нейронной сети для улучшения моделей, этот метод впервые был введен Джеффри Хинтоном и др. Под названием « выпадение » . в 2012 году. В настоящее время Google владеет патентом на метод отсева.

Смотрите также

Ноты

  1. ^ Патент, скорее всего, недействителен из-за предшествующего уровня техники. «Отсев» был описан как «разбавление» в предыдущих публикациях. Это описано Герцем, Крогом и Палмером во введении в теорию нейронных вычислений (1991) ISBN   0-201-51560-1 , стр. 45, Слабое разбавление . В тексте упоминается Сомполинский Теория нейронных сетей: правила Хебба и не только в Гейдельбергском коллоквиуме по глянцевой динамике (1987) и Каннинга и Гарднера, частично связанные модели нейронных сетей в Journal of Physics (1988). Далее описывается сильное разбавление. Это предшествует статье Хинтона.

Рекомендации