Функция активации - Activation function

Функция логистической активации

В искусственных нейронных сетях , то функция активации узла определяет выход этого узла заданного вход или набор входов. Стандартную интегральную схему можно рассматривать как цифровую сеть функций активации, которая может быть «ВКЛ» (1) или «ВЫКЛ» (0), в зависимости от входа. Это похоже на линейный персептрон в нейронных сетях . Однако только нелинейные функции активации позволяют таким сетям решать нетривиальные задачи, используя лишь небольшое количество узлов, и такие функции активации называются нелинейностями .

Классификация функций активации

Наиболее распространенные функции активации можно разделить на три категории: функции гребня , радиальные функции и функции складывания .

Функции активации конька

Ридж-функции - это многомерные функции, действующие на линейную комбинацию входных переменных. Часто используемые примеры включают:

  • Линейная активация: ,
  • РЕЛУ активация: ,
  • Хевисайда активация: ,
  • Логистические активации: .

В биологически вдохновленных нейронных сетях функция активации обычно представляет собой абстракцию, представляющую скорость активации потенциала действия в клетке. В простейшей форме эта функция является бинарной, то есть нейрон либо срабатывает, либо нет. Функция выглядит так , где - ступенчатая функция Хевисайда .

Линия с положительным наклоном может использоваться для отражения увеличения скорости воспламенения, которое происходит при увеличении входного тока. Такая функция будет иметь вид .

Выпрямленные линейные единицы и функции активации линейных единиц погрешности по Гауссу

Нейроны также не могут стрелять быстрее определенной скорости, что мотивирует функции активации сигмовидной кишки, диапазон которых ограничен.

Радиальные функции активации

В сетях RBF используется специальный класс функций активации, известный как радиальные базисные функции (RBF) , которые чрезвычайно эффективны в качестве универсальных аппроксиматоров функций. Эти функции активации могут принимать разные формы, например:

  • Гауссовский :
  • Мультиквадраты:

где есть вектор , представляющий функцию центра и и представляют собой параметры , влияющие на распространение радиуса.

Функции активации складывания

Функции активации сворачивания широко используются на уровнях объединения в сверточных нейронных сетях и на выходных уровнях сетей мультиклассовой классификации. Эти активации выполняют агрегирование входных данных, например, взятие среднего , минимального или максимального значения . В мультиклассовой классификации часто используется активация softmax .

Сравнение функций активации

Есть множество функций активации. В основополагающей статье 2012 года Хинтона и др. Об автоматическом распознавании речи используется логистическая функция активации сигмовидной кишки. Основополагающая архитектура компьютерного зрения AlexNet 2012 года использует функцию активации ReLU, как и основополагающая архитектура компьютерного зрения 2015 года ResNet . Основополагающая модель языковой обработки 2018 года BERT использует гладкую версию ReLU, GELU.

Помимо эмпирической эффективности, функции активации также обладают различными математическими свойствами:

Нелинейный
Когда функция активации нелинейна, двухуровневая нейронная сеть может быть доказана как универсальный аппроксиматор функции. Это известно как универсальная аппроксимационная теорема . Функция активации идентичности не удовлетворяет этому свойству. Когда несколько уровней используют функцию активации идентичности, вся сеть эквивалентна одноуровневой модели.
Диапазон
Когда диапазон функции активации конечен, методы обучения на основе градиента имеют тенденцию быть более стабильными, потому что представление паттернов существенно влияет только на ограниченные веса. Когда диапазон бесконечен, тренировка обычно более эффективна, потому что представление паттернов существенно влияет на большинство весов. В последнем случае обычно требуется меньшая скорость обучения .
Непрерывно дифференцируемый
Это свойство желательно ( ReLU не является непрерывно дифференцируемым и имеет некоторые проблемы с оптимизацией на основе градиента, но это все еще возможно) для включения методов оптимизации на основе градиента. Функция активации бинарного шага не дифференцируется на 0, и она дифференцируется до 0 для всех других значений, поэтому методы на основе градиента не могут добиться прогресса с ней.

Знаковая эквивалентность функции идентичности

Две вещественнозначные функции f и g называются эквивалентными по знаку, если для всех значений z в области. Где знак - это знаковая функция. Функции активации, такие как tanh, Leaky ReLU, GELU, ELU, Swish и Mish, являются знаковым эквивалентом функции идентичности и не могут изучить функцию XOR с одним нейроном. Выход одиночного нейрона или его активация есть , где g - функция активации. Граница решения для одиночного нейрона - это набор точек, которые вызывают нулевой выходной сигнал. Таким образом, граница принятия решения для нейрона, использующего любой знак функции активации, эквивалентный функции идентичности, представляет собой единую гиперплоскость. Однако колебательные функции активации могут иметь много нулей, и, следовательно, один нейрон может иметь несколько гиперплоскостей как часть границы принятия решения. Хотя многослойные сети необходимы для достижения нелинейных границ принятия решений, использование осцилляторных функций активации позволяет даже отдельным нейронам демонстрировать нелинейные границы принятия решений.

Эти свойства не оказывают решающего влияния на производительность и не являются единственными математическими свойствами, которые могут быть полезны. Например, строго положительный диапазон softplus делает его пригодным для прогнозирования отклонений в вариационных автоэнкодерах .

Таблица функций активации

В следующей таблице сравниваются свойства нескольких функций активации, которые являются функциями одного сгиба x от предыдущего слоя или слоев:

Имя участок Функция, Производная от , Диапазон Порядок преемственности
Личность Активация identity.svg
Двоичный шаг Активация двоичного файла step.svg
Логистический , сигмовидный или мягкий  шаг Активация logistic.svg
Гиперболический тангенс ( tanh ) Активация tanh.svg
Выпрямленный линейный блок (ReLU) Активация выпрямленного linear.svg
Линейная единица измерения ошибки Гаусса (GELU) Визуализация линейной единицы с гауссовой ошибкой (GELU)
Softplus Активация softplus.svg
Экспоненциальная линейная единица (ELU) Активация elu.svg
с параметром
Масштабируемая экспоненциальная линейная единица (SELU)
с параметрами и
Линейный блок с выпрямителем с утечкой (Leaky ReLU) Активация prelu.svg
Параметрический выпрямленный линейный блок (ПРэЛУ) Активация prelu.svg
с параметром
Сигмовидный линейный блок (SiLU, Sigmoid shrinkage, SiL или Swish-‍1) Функция активации Swish
Миш
Гауссовский Активация gaussian.svg

В следующей таблице перечислены функции активации, которые не являются функциями одной складки x из предыдущего слоя или слоев:

Имя Уравнение, Деривативы , Диапазон Порядок преемственности
Софтмакс    для i = 1,…, J
Использовать полностью
^ ЗдесьестьКронекера.
^ Например,может быть итерация по количеству ядер предыдущего слоя нейронной сети, в то время какитерация по количеству ядер текущего слоя.

Смотрите также

использованная литература