Разведение (нейронные сети) - Dilution (neural networks)
Разбавление (также называемое отсевом ) - это метод регуляризации для уменьшения переобучения в искусственных нейронных сетях путем предотвращения сложных коадаптаций обучающих данных . Это эффективный способ выполнения усреднения модели с помощью нейронных сетей. Термин разбавление относится к уменьшению веса. Термин « выпадение» относится к случайному «выпадению» или пропуску блоков (как скрытых, так и видимых) в процессе обучения нейронной сети. И уменьшение веса, и отсев единиц вызывают один и тот же тип регуляризации, и часто термин « выпадение» используется в отношении уменьшения веса.
Типы и использование
Разведение обычно делится на слабое и сильное . Слабое разбавление описывает процесс, в котором конечная доля удаленных соединений мала, а сильное разбавление относится к тому, когда эта доля является большой. Нет четкого различия в том, где находится предел между сильным и слабым разбавлением, и часто различие не имеет смысла, хотя оно имеет последствия для того, как находить точные решения.
Иногда разбавление используется для добавления демпфирующего шума к входам. В этом случае слабое разбавление относится к добавлению небольшого количества демпфирующего шума, тогда как сильное разбавление относится к добавлению большего количества демпфирующего шума. Оба могут быть переписаны как варианты разбавления веса.
Эти методы также иногда называют случайным сокращением весов, но обычно это не повторяющаяся односторонняя операция. Сеть обрезается, а затем сохраняется, если она является улучшением по сравнению с предыдущей моделью. И разбавление, и выпадение относятся к итерационному процессу. Отсечение весов обычно не означает, что сеть продолжает обучение, в то время как при разбавлении / исключении сеть продолжает обучение после применения метода.
Обобщенная линейная сеть
Выход из слоя линейных узлов в искусственной нейронной сети можно описать как
-
( 1 )
- - вывод из узла
- - реальный вес до разведения, также называемый силой соединения Хебба
- - ввод из узла
В векторных обозначениях это можно записать как
-
( 2 )
- - выходной вектор
- - весовая матрица
- - входной вектор
Уравнения (1) и (2) используются в следующих разделах.
Слабое разведение
Во время слабого разбавления конечная доля удаленных соединений (веса) мала, что приводит к крошечной неопределенности. Этот крайний случай может быть решен точно с помощью теории среднего поля . При слабом разбавлении влияние на вес можно описать как
-
( 3 )
- - разбавленная масса
- - реальный вес до разведения
- - вероятность , вероятность удержания груза
Интерпретация вероятности также может быть изменена с сохранения веса на сокращение веса.
В векторных обозначениях это можно записать как
-
( 4 )
где функция накладывает предыдущее разбавление.
При слабом разбавлении разбавляется только небольшая и фиксированная часть гирь. Когда количество членов в сумме становится бесконечным (веса для каждого узла), оно все еще бесконечно (дробь фиксирована), поэтому может применяться теория среднего поля . В обозначениях Герца и др. это было бы записано как
-
( 5 )
- средняя температура поля
- - масштабный коэффициент для температуры от вероятности сохранения веса
- - реальный вес до разведения, также называемый силой соединения Хебба
- - средние устойчивые состояния равновесия
Для этого есть некоторые предположения, которые здесь не перечислены.
Сильное разбавление
При сильном разбавлении конечная доля удаленных соединений (веса) велика, что приводит к огромной неопределенности.
Выбывать
Выпадение - это частный случай предыдущего весового уравнения ( 3 ), в котором вышеупомянутое уравнение корректируется для удаления всей строки в векторной матрице, а не только случайных весов.
-
( 6 )
- - вероятность сохранить строку в весовой матрице
- - вещественная строка в весовой матрице перед выпадением
- - разбавленная строка в весовой матрице
Поскольку выпадение удаляет целую строку из векторной матрицы, предыдущие (не включенные в список) предположения о слабом разбавлении и использовании теории среднего поля неприменимы.
Процесс, с помощью которого узел приводится к нулю, будь то установка весов на ноль, «удаление узла» или каким-либо другим способом, не влияет на конечный результат и не создает новый и уникальный случай. Если нейронная сеть обрабатывается высокопроизводительным цифровым мультипликатором массивов, то, вероятно, более эффективно сбрасывать значение до нуля в конце графа процесса. Если сеть обрабатывается процессором с ограничениями, возможно, даже аналоговым процессором нейроморфа, то, вероятно, более энергоэффективным решением будет приведение значения к нулю на ранней стадии графа процесса.
Патент Google
Хотя были примеры случайного удаления связей между нейронами в нейронной сети для улучшения моделей, этот метод впервые был введен Джеффри Хинтоном и др. Под названием « выпадение » . в 2012 году. В настоящее время Google владеет патентом на метод отсева.
Смотрите также
Ноты
- ^ Патент, скорее всего, недействителен из-за предшествующего уровня техники. «Отсев» был описан как «разбавление» в предыдущих публикациях. Это описано Герцем, Крогом и Палмером во введении в теорию нейронных вычислений (1991) ISBN 0-201-51560-1 , стр. 45, Слабое разбавление . В тексте упоминается Сомполинский Теория нейронных сетей: правила Хебба и не только в Гейдельбергском коллоквиуме по глянцевой динамике (1987) и Каннинга и Гарднера, частично связанные модели нейронных сетей в Journal of Physics (1988). Далее описывается сильное разбавление. Это предшествует статье Хинтона.