Сеть радиальных базисных функций - Radial basis function network

В области математического моделирования , A радиальной базисной функции сети является искусственной нейронной сети , которая использует радиальные базисные функции , как функции активации . Выход сети представляет собой линейную комбинацию радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, включая аппроксимацию функций , прогнозирование временных рядов , классификацию и управление системой . Впервые они были сформулированы в статье 1988 года Брумхедом и Лоу, исследователями из Royal Signals and Radar Establishment .

Сетевая архитектура

Архитектура сети радиальных базисных функций. Входной вектор используется в качестве входных данных для всех радиальных базисных функций, каждая из которых имеет разные параметры. Выход сети представляет собой линейную комбинацию выходов радиальных базисных функций.

Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый уровень с нелинейной функцией активации RBF и линейный выходной слой. Вход можно смоделировать как вектор действительных чисел . Выход сети тогда является скалярной функцией входного вектора , и определяется выражением

где - количество нейронов в скрытом слое, - центральный вектор нейрона и - вес нейрона в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальная базисная функция. В базовой форме все входы подключены к каждому скрытому нейрону. Норма , как правило , принимается за евклидово расстояния (хотя расстояние Махаланобиса по- видимому, лучше выполнить с распознаванием образами) и радиальная базисная функция обычно берутся гауссовским

.

Базисные функции Гаусса локальны по отношению к центральному вектору в том смысле, что

т.е. изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.

При определенных мягких условиях на форму функции активации RBF-сети являются универсальными аппроксиматорами на компактном подмножестве . Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.

Параметры , и определяются таким образом, чтобы оптимизировать соответствие между данными и.

Две ненормализованные радиальные базисные функции в одном входном измерении. Базовые функциональные центры расположены в точках и .

Нормализованный

Две нормированные радиальные базисные функции в одном входном измерении ( сигмоиды ). Базовые функциональные центры расположены в и .
Три нормализованных радиальных базисных функции в одном входном измерении. Дополнительная базовая функция имеет центр в
Четыре нормализованных радиальных базисных функции в одном входном измерении. Четвертая базисная функция имеет центр в . Обратите внимание, что первая базовая функция (темно-синий) стала локализованной.

Нормализованная архитектура

В дополнение к вышеупомянутой ненормализованной архитектуре, сети RBF могут быть нормализованы . В этом случае отображение

где

называется нормализованной радиальной базисной функцией .

Теоретическая мотивация нормализации

Есть теоретическое обоснование этой архитектуры в случае стохастического потока данных. Предположим стохастическое ядерное приближение для совместной плотности вероятности

где веса и являются примерами из данных, и мы требуем, чтобы ядра были нормализованы

а также

.

Плотности вероятностей во входном и выходном пространствах равны

а также

Математическое ожидание y при вводе равно

где

условная вероятность данного y . Условная вероятность связана с совместной вероятностью через теорему Байеса.

который дает

.

Это становится

когда выполняются интеграции.

Локальные линейные модели

Иногда удобно расширить архитектуру, включив в нее локальные линейные модели. В этом случае архитектуры становятся, в первую очередь,

а также

в ненормализованном и нормализованном случаях соответственно. Вот веса, которые предстоит определить. Возможны также линейные члены более высокого порядка.

Этот результат можно записать

где

а также

в ненормализованном случае и

в нормализованном случае.

Вот является функция Кронекера определяется как

.

Обучение

Сети RBF , как правило , обучены с парами входных и выходных значений , с помощью алгоритма двухступенчатого.

На первом этапе выбираются центральные векторы функций RBF в скрытом слое. Этот шаг можно выполнить несколькими способами; центры могут быть отобраны случайным образом из некоторого набора примеров, или они могут быть определены с помощью кластеризации k-средних . Обратите внимание, что этот шаг выполняется без присмотра .

Второй шаг просто подбирает линейную модель с коэффициентами для выходов скрытого слоя по отношению к некоторой целевой функции. Общей целевой функцией, по крайней мере, для оценки регрессии / функции, является функция наименьших квадратов:

где

.

Мы явно включили зависимость от весов. Минимизация целевой функции наименьших квадратов за счет оптимального выбора весов оптимизирует точность подбора.

Бывают случаи, когда необходимо оптимизировать несколько целей, таких как плавность и точность. В этом случае полезно оптимизировать регуляризованную целевую функцию, такую ​​как

где

а также

где оптимизация S максимизирует гладкость и известна как параметр регуляризации .

Третий необязательный шаг обратного распространения может быть выполнен для точной настройки всех параметров сети RBF.

Интерполяция

RBF сети могут быть использованы для интерполяции функции , когда значения этой функции известны на конечном числе точек: . Принимая известные точки за центры радиальных базисных функций и оценивая значения базисных функций в тех же точках, веса могут быть решены из уравнения

Можно показать, что матрица интерполяции в приведенном выше уравнении неособая, если точки различны, и, таким образом, веса могут быть решены с помощью простой линейной алгебры:

где .

Аппроксимация функции

Если целью является не выполнение строгой интерполяции, а вместо этого более общее приближение или классификация функций, оптимизация несколько сложнее, потому что нет очевидного выбора для центров. Тренировка обычно проводится в два этапа: сначала фиксируются ширина и центры, а затем веса. Это может быть оправдано, если рассмотреть различную природу нелинейных скрытых нейронов по сравнению с линейным выходным нейроном.

Обучение базовых функциональных центров

Центры базисных функций могут быть случайным образом отобраны среди входных экземпляров или получены с помощью алгоритма обучения методом наименьших квадратов, либо найдены путем кластеризации выборок и выбора кластерных средних в качестве центров.

Ширина RBF обычно фиксируется на одном и том же значении, которое пропорционально максимальному расстоянию между выбранными центрами.

Псевдообратное решение для линейных весов

После фиксации центров веса, которые минимизируют ошибку на выходе, могут быть вычислены с помощью линейного псевдообратного решения:

,

где элементы матрицы G являются значения радиальных базисных функций оцененных в точках : .

Существование этого линейного решения означает, что в отличие от многослойных сетей персептронов (MLP), сети RBF имеют явный минимизатор (когда центры фиксированы).

Тренировка линейных весов градиентным спуском

Другой возможный алгоритм обучения - градиентный спуск . При обучении градиентному спуску веса корректируются на каждом временном шаге, перемещая их в направлении, противоположном градиенту целевой функции (что позволяет найти минимум целевой функции),

где - «параметр обучения».

Для случая обучения линейных весов алгоритм принимает вид

в ненормализованном случае и

в нормализованном случае.

Для локальной линейно-линейной архитектуры обучение градиентному спуску

Обучение оператора проекции линейных весов

Для случая обучения линейных весов и алгоритм принимает вид

в ненормализованном случае и

в нормированном случае и

в локально-линейном случае.

Для одной базовой функции обучение оператора проекции сводится к методу Ньютона .

Рисунок 6: Временные ряды логистической карты. Повторяющаяся итерация логистической карты порождает хаотический временной ряд. Значения лежат между нулем и единицей. Здесь показаны 100 тренировочных точек, использованных для обучения примерам из этого раздела. Веса c являются первыми пятью точками этого временного ряда.

Примеры

Логистическая карта

Основные свойства радиальных базисных функций можно проиллюстрировать с помощью простой математической карты, логистической карты , которая отображает единичный интервал на себя. Его можно использовать для создания удобного потока данных прототипа. Логистическая карта может использоваться для изучения приближения функций , прогнозирования временных рядов и теории управления . Карта возникла из области динамики численности населения и стала прототипом хаотических временных рядов. Карта в полностью хаотическом режиме имеет вид

где t - временной индекс. Значение x в момент времени t + 1 является параболической функцией x в момент времени t. Это уравнение представляет собой базовую геометрию хаотического временного ряда, созданного логистической картой.

Генерация временных рядов из этого уравнения - прямая задача . Примеры здесь иллюстрируют обратную задачу ; идентификация основной динамики или фундаментального уравнения логистической карты по образцам временного ряда. Цель - найти оценку

для f.

Аппроксимация функции

Ненормализованные радиальные базисные функции

Архитектура

Рисунок 7: Ненормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающую выборку.

где

.

Поскольку входные данные являются скаляром, а не вектором , размерность входных данных равна единице. Мы выбираем количество базисных функций как N = 5, а размер обучающей выборки - 100 экземпляров, сгенерированных хаотическим временным рядом. Вес взят постоянным, равным 5. Веса - это пять экземпляров из временного ряда. Гири обучаются с обучением оператора проецирования:

где скорость обучения принята равной 0,3. Тренировка проводится с одним проходом через 100 тренировочных точек. Квадратичная ошибка равна 0,15.

Рисунок 8: Нормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающую выборку. Обратите внимание на улучшение по сравнению с ненормализованным случаем.

Нормализованные радиальные базисные функции

Нормализованная архитектура RBF

где

.

Очередной раз:

.

Опять же, мы выбираем количество базовых функций, равное пяти, и размер обучающего набора, равный 100 образцам, сгенерированным хаотическим временным рядом. Вес взят постоянным, равным 6. Веса - это пять экземпляров из временного ряда. Гири обучаются с обучением оператора проецирования:

где скорость обучения снова принята равной 0,3. Тренировка проводится с одним проходом через 100 тренировочных точек. Квадратичная ошибка на тестовом наборе 100 экземпляров является 0,084, меньше ненормированного ошибки. Нормализация дает повышение точности. Обычно точность с нормализованными базисными функциями увеличивается еще больше по сравнению с ненормализованными функциями по мере увеличения входной размерности.

Рисунок 9: Нормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) как функция времени. Обратите внимание, что приближение подходит только для нескольких временных шагов. Это общая характеристика хаотических временных рядов.

Прогнозирование временных рядов

После того, как базовая геометрия временного ряда оценена, как в предыдущих примерах, прогноз для временного ряда может быть сделан путем итерации:

.

На рисунке показано сравнение фактического и расчетного временных рядов. Расчетный временной ряд начинается в нулевой момент времени с точным знанием x (0). Затем он использует оценку динамики для обновления оценки временного ряда для нескольких временных шагов.

Обратите внимание, что оценка точна только для нескольких временных шагов. Это общая характеристика хаотических временных рядов. Это свойство чувствительной зависимости от начальных условий, характерных для хаотических временных рядов. Небольшая начальная ошибка со временем усиливается. Мера расхождения временных рядов с почти одинаковыми начальными условиями известна как показатель Ляпунова .

Контроль хаотического временного ряда

Рисунок 10: Управление логистической картой. Системе позволено естественным образом развиваться за 49 временных шагов. В момент времени 50 включается управление. Желаемая траектория для временного ряда отмечена красным. Управляемая система изучает основную динамику и приводит временной ряд к желаемому результату. Архитектура такая же, как и в примере прогнозирования временных рядов.

Мы предполагаем, что выходными данными логистической карты можно управлять с помощью управляющего параметра , так что

.

Цель состоит в том, чтобы выбрать параметр управления таким образом, чтобы привести временной ряд к желаемому результату . Это можно сделать, если мы выберем управляющий параметр равным

где

является приближением к основной естественной динамике системы.

Алгоритм обучения представлен

где

.

Смотрите также

Рекомендации

дальнейшее чтение