Выпрямитель (нейронные сети) - Rectifier (neural networks)
В контексте искусственных нейронных сетей , то выпрямитель или РЕЛУ (выпрямленный Линейный блок) Функция активации является функцией активации определяется как положительная часть аргумента:
где x - вход нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике .
Эта функция активации начала проявляться в контексте извлечения визуальных признаков в иерархических нейронных сетях, начиная с конца 1960-х годов. Позже утверждалось, что у него есть сильные биологические мотивы и математическое обоснование. В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятности ; см. Логистическую регрессию ) и ее более практичным аналогом, гиперболическим тангенсом. . Выпрямитель по состоянию на 2017 год является самой популярной функцией активации для глубоких нейронных сетей .
Выпрямленные линейные блоки находят применение в компьютерном зрении и распознавании речи с использованием глубоких нейронных сетей и вычислительной нейробиологии .
Преимущества
- Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
- Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях.
- Эффективные вычисления: только сравнение, сложение и умножение.
- Масштабно-инвариантный: .
Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения. В 2011 году было показано, что использование выпрямителя в качестве нелинейности позволяет обучать нейронные сети с глубоким контролем без необходимости предварительного обучения без учителя . Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.
Потенциальные проблемы
- Недифференцируема в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
- Не с нулевым центром.
- Безграничный.
- Проблема умирающего ReLU: нейроны ReLU (Rectified Linear Unit) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высоко. Его можно смягчить, используя вместо этого негерметичные ReLU, которые назначают небольшой положительный наклон для x <0, однако производительность снижается.
Варианты
Линейные варианты
Дырявый ReLU
Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно.
Параметрическое ReLU
Параметрические ReLU (PReLU) развивают эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети.
Обратите внимание, что для a ≤ 1 это эквивалентно
и таким образом имеет отношение к сетям "maxout".
Нелинейные варианты
Линейная единица измерения ошибки Гаусса (GELU)
GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «удар», когда x <0, и служит активацией по умолчанию для таких моделей, как BERT .
,
где Φ ( x ) - кумулятивная функция распределения стандартного нормального распределения .
Эта функция активации проиллюстрирована на рисунке в начале этой статьи.
SiLU
SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU.
Softplus
Гладкой аппроксимацией выпрямителя является аналитическая функция
которая называется функцией softplus или SmoothReLU . Для большого негатива речь идет о так чуть выше 0, в то время как для больших положительных о так чуть выше .
Параметр резкости может быть включен:
Производной softplus является логистическая функция . Начиная с параметрической версии,
Логистическая сигмовидная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .
Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:
Функция LogSumExp
а его градиент - softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.
ELU
Экспоненциальные линейные единицы пытаются приблизить среднее значение активаций к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU.
где - настраиваемый гиперпараметр , а - ограничение.
ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), которая имеет форму, аналогичную интерпретации .
Смотрите также
использованная литература
</ref>