Функция активации - Activation function

Функция логистической активации

В искусственных нейронных сетях , то функция активации узла определяет выход этого узла заданного вход или набор входов. Стандартную интегральную схему можно рассматривать как цифровую сеть функций активации, которая может быть «ВКЛ» (1) или «ВЫКЛ» (0), в зависимости от входа. Это похоже на линейный персептрон в нейронных сетях . Однако только нелинейные функции активации позволяют таким сетям решать нетривиальные задачи, используя лишь небольшое количество узлов, и такие функции активации называются нелинейностями .

Классификация функций активации

Наиболее распространенные функции активации можно разделить на три категории: функции гребня , радиальные функции и функции складывания .

Функции активации конька

Ридж-функции - это многомерные функции, действующие на линейную комбинацию входных переменных. Часто используемые примеры включают:

Линейная активация: , ${\ Displaystyle \ phi (\ mathbf {v}) = а + \ mathbf {v} '\ mathbf {b}}$
РЕЛУ активация: , ${\ displaystyle \ phi (\ mathbf {v}) = \ max (0, a + \ mathbf {v} '\ mathbf {b})}$
Хевисайда активация: , ${\ Displaystyle \ phi (\ mathbf {v}) = 1_ {а + \ mathbf {v} '\ mathbf {b}> 0}}$
Логистические активации: . ${\ Displaystyle \ фи (\ mathbf {v}) = (1+ \ ехр (-a- \ mathbf {v} '\ mathbf {b})) ^ {- 1}}$

В биологически вдохновленных нейронных сетях функция активации обычно представляет собой абстракцию, представляющую скорость активации потенциала действия в клетке. В простейшей форме эта функция является бинарной, то есть нейрон либо срабатывает, либо нет. Функция выглядит так , где - ступенчатая функция Хевисайда . ${\ Displaystyle \ phi (\ mathbf {v}) = U (а + \ mathbf {v} '\ mathbf {b})}$ ${\ displaystyle U}$

Линия с положительным наклоном может использоваться для отражения увеличения скорости воспламенения, которое происходит при увеличении входного тока. Такая функция будет иметь вид . ${\ Displaystyle \ phi (\ mathbf {v}) = а + \ mathbf {v} '\ mathbf {b}}$

Выпрямленные линейные единицы и функции активации линейных единиц погрешности по Гауссу

Нейроны также не могут стрелять быстрее определенной скорости, что мотивирует функции активации сигмовидной кишки, диапазон которых ограничен.

Радиальные функции активации

В сетях RBF используется специальный класс функций активации, известный как радиальные базисные функции (RBF) , которые чрезвычайно эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать разные формы, например:

Гауссовский : ${\ displaystyle \, \ phi (\ mathbf {v}) = \ exp \ left (- {\ frac {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2}} {2 \ sigma ^ {2}}} \ right)}$
Мультиквадраты: ${\ displaystyle \, \ phi (\ mathbf {v}) = {\ sqrt {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2} + a ^ {2}}}}$

где есть вектор , представляющий функцию центра и и представляют собой параметры , влияющие на распространение радиуса. ${\ displaystyle \ mathbf {c}}$ ${\ displaystyle a}$ ${\ displaystyle \ sigma}$

Функции активации складывания

Функции активации сворачивания широко используются на уровнях объединения в сверточных нейронных сетях и на выходных уровнях сетей мультиклассовой классификации. Эти активации выполняют агрегирование входных данных, например, взятие среднего , минимального или максимального значения . В мультиклассовой классификации часто используется активация softmax .

Сравнение функций активации

Есть множество функций активации. В основополагающей статье 2012 года Хинтона и др. Об автоматическом распознавании речи используется логистическая функция активации сигмовидной кишки. Основополагающая архитектура компьютерного зрения AlexNet 2012 года использует функцию активации ReLU, как и основополагающая архитектура компьютерного зрения 2015 года ResNet . Основополагающая модель языковой обработки 2018 года BERT использует гладкую версию ReLU, GELU.

Помимо эмпирической эффективности, функции активации также обладают различными математическими свойствами:

Нелинейный: Когда функция активации нелинейна, двухуровневая нейронная сеть может быть доказана как универсальный аппроксиматор функции. Это известно как универсальная аппроксимационная теорема . Функция активации идентичности не удовлетворяет этому свойству. Когда несколько уровней используют функцию активации идентичности, вся сеть эквивалентна одноуровневой модели.
Диапазон: Когда диапазон функции активации конечен, методы обучения на основе градиента имеют тенденцию быть более стабильными, потому что представление паттернов существенно влияет только на ограниченные веса. Когда диапазон бесконечен, тренировка обычно более эффективна, потому что представление паттернов существенно влияет на большинство весов. В последнем случае обычно требуется меньшая скорость обучения .
Непрерывно дифференцируемый: Это свойство желательно ( ReLU не является непрерывно дифференцируемым и имеет некоторые проблемы с оптимизацией на основе градиента, но это все еще возможно) для включения методов оптимизации на основе градиента. Функция активации бинарного шага не дифференцируется на 0, и она дифференцируется до 0 для всех других значений, поэтому методы на основе градиента не могут добиться прогресса с ней.

Знаковая эквивалентность функции идентичности

Две вещественнозначные функции f и g называются эквивалентными по знаку, если для всех значений z в области. Где знак - это знаковая функция. Функции активации, такие как tanh, Leaky ReLU, GELU, ELU, Swish и Mish, являются знаковым эквивалентом функции идентичности и не могут изучить функцию XOR с одним нейроном. Выход одиночного нейрона или его активация есть , где g - функция активации. Граница решения для одиночного нейрона - это набор точек, которые вызывают нулевой выходной сигнал. Таким образом, граница принятия решения для нейрона, использующего любой знак функции активации, эквивалентный функции идентичности, представляет собой единую гиперплоскость. Однако колебательные функции активации могут иметь много нулей, и, следовательно, один нейрон может иметь несколько гиперплоскостей как часть границы принятия решения. Хотя многослойные сети необходимы для достижения нелинейных границ принятия решений, использование осцилляторных функций активации позволяет даже отдельным нейронам демонстрировать нелинейные границы принятия решений. ${\ Displaystyle знак (е (г)) = знак (г (г))}$ ${\ displaystyle a = g (z) = g ({\ boldsymbol {w}} ^ {T} {\ boldsymbol {x}} + b)}$

Эти свойства не оказывают решающего влияния на производительность и не являются единственными математическими свойствами, которые могут быть полезны. Например, строго положительный диапазон softplus делает его пригодным для прогнозирования отклонений в вариационных автоэнкодерах .

Таблица функций активации

В следующей таблице сравниваются свойства нескольких функций активации, которые являются функциями одного сгиба $x$ от предыдущего слоя или слоев:

Имя	Функция, ${\ displaystyle f (x)}$	Производная от , ${\ displaystyle f}$ ${\ displaystyle f '(x)}$	Диапазон	Порядок преемственности
Личность	${\ displaystyle x}$	${\ displaystyle 1}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Двоичный шаг	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x \ neq 0 \\ {\ text {undefined}} & {\ text {if}} x = 0 \ end {cases}}}$	${\ displaystyle \ {0,1 \}}$	${\ displaystyle C ^ {- 1}}$
Логистический , сигмовидный или мягкий шаг	${\ displaystyle \ sigma (x) = {\ frac {1} {1 + e ^ {- x}}}}$	${\ Displaystyle f (x) (1-f (x))}$	${\ displaystyle (0,1)}$	${\ Displaystyle C ^ {\ infty}}$
Гиперболический тангенс ( tanh )	${\ displaystyle \ tanh (x) = {\ frac {e ^ {x} -e ^ {- x}} {e ^ {x} + e ^ {- x}}}}$	${\ Displaystyle 1-е (х) ^ {2}}$	${\ displaystyle (-1,1)}$	${\ Displaystyle C ^ {\ infty}}$
Выпрямленный линейный блок (ReLU)	${\ displaystyle {\ begin {align} & {\ begin {cases} 0 & {\ text {if}} x \ leq 0 \\ x & {\ text {if}} x> 0 \ end {cases}} \\ { } = {} & \ max \ {0, x \} = x {\ textbf {1}} _ {x> 0} \ end {выровнено}}}$	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x> 0 \\ {\ text {undefined}} & {\ text {if}} x = 0 \ end {case}}}$	${\ displaystyle [0, \ infty)}$	${\ displaystyle C ^ {0}}$
Линейная единица измерения ошибки Гаусса (GELU)	${\ displaystyle {\ begin {align} & {\ frac {1} {2}} x \ left (1 + {\ text {erf}} \ left ({\ frac {x} {\ sqrt {2}}}) \ right) \ right) \\ {} = {} & x \ Phi (x) \ end {align}}}$	${\ Displaystyle \ Фи (х) + х \ фи (х)}$	${\ displaystyle (-0,17 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Softplus	${\ Displaystyle \ пер \ влево (1 + е ^ {х} \ вправо)}$	${\ displaystyle {\ frac {1} {1 + e ^ {- x}}}}$	${\ displaystyle (0, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Экспоненциальная линейная единица (ELU)	${\ displaystyle {\ begin {case} \ alpha \ left (e ^ {x} -1 \ right) & {\ text {if}} x \ leq 0 \\ x & {\ text {if}} x> 0 \ конец {case}}}$ с параметром ${\ displaystyle \ alpha}$	${\ displaystyle {\ begin {case} \ alpha e ^ {x} & {\ text {if}} x <0 \\ 1 & {\ text {if}} x> 0 \\ 1 & {\ text {if}} x = 0 {\ text {и}} \ alpha = 1 \ end {case}}}$	${\ Displaystyle (- \ альфа, \ infty)}$	${\ displaystyle {\ begin {cases} C ^ {1} & {\ text {if}} \ alpha = 1 \\ C ^ {0} & {\ text {else}} \ end {cases}}}$
Масштабируемая экспоненциальная линейная единица (SELU)	${\ displaystyle \ lambda {\ begin {cases} \ alpha (e ^ {x} -1) & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end { случаи}}}$ с параметрами и ${\ displaystyle \ lambda = 1.0507}$ ${\ displaystyle \ alpha = 1,67326}$	${\ displaystyle \ lambda {\ begin {cases} \ alpha e ^ {x} & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ лямбда \ альфа, \ infty)}$	${\ displaystyle C ^ {0}}$
Линейный блок с выпрямителем с утечкой (Leaky ReLU)	${\ displaystyle {\ begin {cases} 0,01x & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ displaystyle {\ begin {cases} 0,01 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ displaystyle C ^ {0}}$
Параметрический выпрямленный линейный блок (ПРэЛУ)	${\ displaystyle {\ begin {cases} \ alpha x & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end {cases}}}$ с параметром ${\ displaystyle \ alpha}$	${\ displaystyle {\ begin {cases} \ alpha & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ displaystyle C ^ {0}}$
Сигмовидный линейный блок (SiLU, Sigmoid shrinkage, SiL или Swish-‍1)	${\ displaystyle {\ frac {x} {1 + e ^ {- x}}}}$	${\ displaystyle {\ frac {1 + e ^ {- x} + xe ^ {- x}} {\ left (1 + e ^ {- x} \ right) ^ {2}}}}$	${\ displaystyle [-0,278 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Миш	${\ Displaystyle х \ tanh (\ ln (1 + e ^ {x}))}$	${\ displaystyle {\ frac {(e ^ {x} (4e ^ {2x} + e ^ {3x} +4 (1 + x) + e ^ {x} (6 + 4x)))} {(2+ 2e ^ {x} + e ^ {2x}) ^ {2}}}}$	${\ displaystyle [-0,308 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Гауссовский	${\ Displaystyle е ^ {- х ^ {2}}}$	${\ displaystyle -2xe ^ {- x ^ {2}}}$	${\ displaystyle (0,1]}$	${\ Displaystyle C ^ {\ infty}}$

В следующей таблице перечислены функции активации, которые не являются функциями одной складки $x$ из предыдущего слоя или слоев:

Имя	Уравнение, ${\ displaystyle f_ {i} \ left ({\ vec {x}} \ right)}$	Деривативы , ${\ displaystyle {\ frac {\ partial f_ {i} \ left ({\ vec {x}} \ right)} {\ partial x_ {j}}}}$	Диапазон	Порядок преемственности
Софтмакс	${\ displaystyle {\ frac {e ^ {x_ {i}}} {\ sum _ {j = 1} ^ {J} e ^ {x_ {j}}}}}$ для $i$ = 1,…, $J$	${\ displaystyle f_ {i} \ left ({\ vec {x}} \ right) \ left (\ delta _ {ij} -f_ {j} \ left ({\ vec {x}} \ right) \ right) }$	${\ displaystyle (0,1)}$	${\ Displaystyle C ^ {\ infty}}$
Использовать полностью	${\ Displaystyle \ макс _ {я} х_ {я}}$	${\ displaystyle {\ begin {cases} 1 & {\ text {if}} j = {\ underset {i} {\ operatorname {argmax}}} \, x_ {i} \\ 0 & {\ text {if}} j \ neq {\ underset {i} {\ operatorname {argmax}}} \, x_ {i} \ end {case}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ displaystyle C ^ {0}}$