Выпрямитель (нейронные сети) - Rectifier (neural networks)

График функций выпрямителя ReLU (синий) и GELU (зеленый) около x = 0

В контексте искусственных нейронных сетей , то выпрямитель или РЕЛУ (выпрямленный Линейный блок) Функция активации является функцией активации определяется как положительная часть аргумента:

где x - вход нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике .

Эта функция активации начала проявляться в контексте извлечения визуальных признаков в иерархических нейронных сетях, начиная с конца 1960-х годов. Позже утверждалось, что у него есть сильные биологические мотивы и математическое обоснование. В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятности ; см. Логистическую регрессию ) и ее более практичным аналогом, гиперболическим тангенсом. . Выпрямитель по состоянию на 2017 год является самой популярной функцией активации для глубоких нейронных сетей .

Выпрямленные линейные блоки находят применение в компьютерном зрении и распознавании речи с использованием глубоких нейронных сетей и вычислительной нейробиологии .

Преимущества

  • Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
  • Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях.
  • Эффективные вычисления: только сравнение, сложение и умножение.
  • Масштабно-инвариантный: .

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения. В 2011 году было показано, что использование выпрямителя в качестве нелинейности позволяет обучать нейронные сети с глубоким контролем без необходимости предварительного обучения без учителя . Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Потенциальные проблемы

  • Недифференцируема в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
  • Не с нулевым центром.
  • Безграничный.
  • Проблема умирающего ReLU: нейроны ReLU (Rectified Linear Unit) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена ​​слишком высоко. Его можно смягчить, используя вместо этого негерметичные ReLU, которые назначают небольшой положительный наклон для x  <0, однако производительность снижается.

Варианты

Линейные варианты

Дырявый ReLU

Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно.

Параметрическое ReLU

Параметрические ReLU (PReLU) развивают эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети.

Обратите внимание, что для a ≤ 1 это эквивалентно

и таким образом имеет отношение к сетям "maxout".

Нелинейные варианты

Линейная единица измерения ошибки Гаусса (GELU)

GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «удар», когда x <0, и служит активацией по умолчанию для таких моделей, как BERT .

,

где Φ ( x ) - кумулятивная функция распределения стандартного нормального распределения .

Эта функция активации проиллюстрирована на рисунке в начале этой статьи.

SiLU

SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU.

Softplus

Гладкой аппроксимацией выпрямителя является аналитическая функция

которая называется функцией softplus или SmoothReLU . Для большого негатива речь идет о так чуть выше 0, в то время как для больших положительных о так чуть выше .

Параметр резкости может быть включен:

Производной softplus является логистическая функция . Начиная с параметрической версии,

Логистическая сигмовидная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой ​​функции Хевисайда .

Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:

Функция LogSumExp

а его градиент - softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ELU

Экспоненциальные линейные единицы пытаются приблизить среднее значение активаций к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU.

где - настраиваемый гиперпараметр , а - ограничение.

ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), которая имеет форму, аналогичную интерпретации .

Смотрите также

использованная литература

</ref>