Выпрямитель (нейронные сети) - Rectifier (neural networks)

График функций выпрямителя ReLU (синий) и GELU (зеленый) около x = 0

В контексте искусственных нейронных сетей , то выпрямитель или РЕЛУ (выпрямленный Линейный блок) Функция активации является функцией активации определяется как положительная часть аргумента:

{\ Displaystyle е (х) = х ^ {+} = \ макс (0, х)}

где x - вход нейрона. Это также известно как функция линейного изменения и аналогично полуволновому выпрямлению в электротехнике .

Эта функция активации начала проявляться в контексте извлечения визуальных признаков в иерархических нейронных сетях, начиная с конца 1960-х годов. Позже утверждалось, что у него есть сильные биологические мотивы и математическое обоснование. В 2011 году было обнаружено, что он позволяет лучше обучать более глубокие сети по сравнению с широко используемыми функциями активации до 2011 года, например, логистической сигмоидой (которая вдохновлена теорией вероятности ; см. Логистическую регрессию ) и ее более практичным аналогом, гиперболическим тангенсом. . Выпрямитель по состоянию на 2017 год является самой популярной функцией активации для глубоких нейронных сетей .

Выпрямленные линейные блоки находят применение в компьютерном зрении и распознавании речи с использованием глубоких нейронных сетей и вычислительной нейробиологии .

Преимущества

Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
Лучшее распространение градиента: меньше проблем с исчезающим градиентом по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях.
Эффективные вычисления: только сравнение, сложение и умножение.
Масштабно-инвариантный: . ${\ displaystyle \ max (0, ax) = a \ max (0, x) {\ text {for}} a \ geq 0}$

Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения. В 2011 году было показано, что использование выпрямителя в качестве нелинейности позволяет обучать нейронные сети с глубоким контролем без необходимости предварительного обучения без учителя . Выпрямленные линейные блоки, по сравнению с сигмовидной функцией или аналогичными функциями активации, позволяют быстрее и эффективнее обучать глубокие нейронные архитектуры на больших и сложных наборах данных.

Потенциальные проблемы

Недифференцируема в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
Не с нулевым центром.
Безграничный.
Проблема умирающего ReLU: нейроны ReLU (Rectified Linear Unit) иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблемы исчезающего градиента . В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высоко. Его можно смягчить, используя вместо этого негерметичные ReLU, которые назначают небольшой положительный наклон для x <0, однако производительность снижается.

Варианты

Линейные варианты

Дырявый ReLU

Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно.

{\ displaystyle f (x) = {\ begin {cases} x & {\ text {if}} x> 0, \\ 0,01x & {\ text {else}}. \ end {cases}}}

Параметрическое ReLU

Параметрические ReLU (PReLU) развивают эту идею, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети.

{\ displaystyle f (x) = {\ begin {cases} x & {\ text {if}} x> 0, \\ ax & {\ text {else}}. \ end {cases}}}

Обратите внимание, что для a ≤ 1 это эквивалентно

{\ Displaystyle е (х) = \ макс (х, топор)}

и таким образом имеет отношение к сетям "maxout".

Нелинейные варианты

Линейная единица измерения ошибки Гаусса (GELU)

GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «удар», когда x <0, и служит активацией по умолчанию для таких моделей, как BERT .

${\ Displaystyle е (х) = х \ cdot \ Phi (x)}$ ,

где Φ ( x ) - кумулятивная функция распределения стандартного нормального распределения .

Эта функция активации проиллюстрирована на рисунке в начале этой статьи.

SiLU

SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU.

${\ Displaystyle е (х) = х \ cdot \ OperatorName {сигмоид} (х)}$

Softplus

Гладкой аппроксимацией выпрямителя является аналитическая функция

{\ Displaystyle е (х) = \ пер (1 + е ^ {х}),}

которая называется функцией softplus или SmoothReLU . Для большого негатива речь идет о так чуть выше 0, в то время как для больших положительных о так чуть выше . ${\ displaystyle x}$ ${\ displaystyle e ^ {x}}$ ${\ displaystyle x}$ ${\ Displaystyle х + е ^ {- х}}$ ${\ displaystyle x}$

Параметр резкости может быть включен: ${\ displaystyle k}$

{\ displaystyle f (x) = {\ frac {\ ln \ left (1 + e ^ {kx} \ right)} {k}}}

Производной softplus является логистическая функция . Начиная с параметрической версии,

{\ displaystyle f '(x) = {\ frac {e ^ {kx}} {1 + e ^ {kx}}} = {\ frac {1} {1 + e ^ {- kx}}}}

Логистическая сигмовидная функция представляет собой гладкую аппроксимацию производной выпрямителя, ступенчатой функции Хевисайда .

Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:

{\ displaystyle \ operatorname {LSE_ {0}} ^ {+} (x_ {1}, \ dots, x_ {n}): = \ operatorname {LSE} (0, x_ {1}, \ dots, x_ {n }) = \ log \ left (1 + e ^ {x_ {1}} + \ cdots + e ^ {x_ {n}} \ right).}

Функция LogSumExp

{\ displaystyle \ operatorname {LSE} (x_ {1}, \ dots, x_ {n}) = \ log \ left (e ^ {x_ {1}} + \ cdots + e ^ {x_ {n}} \ right ),}

а его градиент - softmax ; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.

ELU

Экспоненциальные линейные единицы пытаются приблизить среднее значение активаций к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU.

{\ displaystyle f (x) = {\ begin {case} x & {\ text {if}} x> 0, \\ a \ left (e ^ {x} -1 \ right) & {\ text {else}} , \ end {case}}}

где - настраиваемый гиперпараметр , а - ограничение. ${\ displaystyle a}$ ${\ displaystyle a \ geq 0}$

ELU можно рассматривать как сглаженную версию смещенного ReLU (SReLU), которая имеет форму, аналогичную интерпретации . ${\ Displaystyle е (х) = \ макс (-а, х)}$ ${\ displaystyle a}$

Смотрите также

использованная литература

</ref>

Languages

In other projects