Сеть радиальных базисных функций - Radial basis function network

В области математического моделирования , A радиальной базисной функции сети является искусственной нейронной сети , которая использует радиальные базисные функции , как функции активации . Выход сети представляет собой линейную комбинацию радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, включая аппроксимацию функций , прогнозирование временных рядов , классификацию и управление системой . Впервые они были сформулированы в статье 1988 года Брумхедом и Лоу, исследователями из Royal Signals and Radar Establishment .

Сетевая архитектура

Архитектура сети радиальных базисных функций. Входной вектор используется в качестве входных данных для всех радиальных базисных функций, каждая из которых имеет разные параметры. Выход сети представляет собой линейную комбинацию выходов радиальных базисных функций.

{\ displaystyle x}

Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый уровень с нелинейной функцией активации RBF и линейный выходной слой. Вход можно смоделировать как вектор действительных чисел . Выход сети тогда является скалярной функцией входного вектора , и определяется выражением ${\ displaystyle \ mathbf {x} \ in \ mathbb {R} ^ {n}}$ ${\ displaystyle \ varphi: \ mathbb {R} ^ {n} \ to \ mathbb {R}}$

{\ displaystyle \ varphi (\ mathbf {x}) = \ sum _ {i = 1} ^ {N} a_ {i} \ rho (|| \ mathbf {x} - \ mathbf {c} _ {i} | |)}

где - количество нейронов в скрытом слое, - центральный вектор нейрона и - вес нейрона в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальная базисная функция. В базовой форме все входы подключены к каждому скрытому нейрону. Норма , как правило , принимается за евклидово расстояния (хотя расстояние Махаланобиса по- видимому, лучше выполнить с распознаванием образами) и радиальная базисная функция обычно берутся гауссовским ${\ displaystyle N}$ ${\ displaystyle \ mathbf {c} _ {i}}$ ${\ displaystyle i}$ ${\ displaystyle a_ {i}}$ ${\ displaystyle i}$

{\ displaystyle \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} = \ exp \ left [- \ beta _ {i } \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert ^ {2} \ right]}

.

Базисные функции Гаусса локальны по отношению к центральному вектору в том смысле, что

{\ Displaystyle \ lim _ {|| х || \ к \ infty} \ rho (\ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert) = 0}

т.е. изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.

При определенных мягких условиях на форму функции активации RBF-сети являются универсальными аппроксиматорами на компактном подмножестве . Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью. ${\ Displaystyle \ mathbb {R} ^ {п}}$

Параметры , и определяются таким образом, чтобы оптимизировать соответствие между данными и. ${\ displaystyle a_ {i}}$ ${\ displaystyle \ mathbf {c} _ {i}}$ ${\ displaystyle \ beta _ {я}}$ ${\ displaystyle \ varphi}$

Две ненормализованные радиальные базисные функции в одном входном измерении. Базовые функциональные центры расположены в точках и .

{\ displaystyle c_ {1} = 0,75}

{\ displaystyle c_ {2} = 3,25}

Нормализованный

Две нормированные радиальные базисные функции в одном входном измерении ( сигмоиды ). Базовые функциональные центры расположены в и .

{\ displaystyle c_ {1} = 0,75}

{\ displaystyle c_ {2} = 3,25}

Три нормализованных радиальных базисных функции в одном входном измерении. Дополнительная базовая функция имеет центр в

{\ displaystyle c_ {3} = 2,75}

Четыре нормализованных радиальных базисных функции в одном входном измерении. Четвертая базисная функция имеет центр в . Обратите внимание, что первая базовая функция (темно-синий) стала локализованной.

{\ displaystyle c_ {4} = 0}

Нормализованная архитектура

В дополнение к вышеупомянутой ненормализованной архитектуре, сети RBF могут быть нормализованы . В этом случае отображение

{\ displaystyle \ varphi (\ mathbf {x}) \ {\ stackrel {\ mathrm {def}} {=}} \ {\ frac {\ sum _ {i = 1} ^ {N} a_ {i} \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} \ rho { \ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}} = \ sum _ {i = 1} ^ {N} a_ {i } u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}

где

{\ displaystyle u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} \ {\ stackrel {\ mathrm {def}} {= }} \ {\ frac {\ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {j = 1} ^ {N} \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {j} \ right \ Vert {\ big)}}}}

называется нормализованной радиальной базисной функцией .

Теоретическая мотивация нормализации

Есть теоретическое обоснование этой архитектуры в случае стохастического потока данных. Предположим стохастическое ядерное приближение для совместной плотности вероятности

{\ displaystyle P \ left (\ mathbf {x} \ land y \ right) = {1 \ over N} \ sum _ {i = 1} ^ {N} \, \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} \, \ sigma {\ big (} \ left \ vert y-e_ {i} \ right \ vert {\ big )}}

где веса и являются примерами из данных, и мы требуем, чтобы ядра были нормализованы ${\ displaystyle \ mathbf {c} _ {i}}$ ${\ displaystyle e_ {i}}$

{\ displaystyle \ int \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} \, d ^ {n} \ mathbf { x} = 1}

а также

{\ displaystyle \ int \ sigma {\ big (} \ left \ vert y-e_ {i} \ right \ vert {\ big)} \, dy = 1}

.

Плотности вероятностей во входном и выходном пространствах равны

{\ displaystyle P \ left (\ mathbf {x} \ right) = \ int P \ left (\ mathbf {x} \ land y \ right) \, dy = {1 \ over N} \ sum _ {i = 1 } ^ {N} \, \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}

а также

Математическое ожидание y при вводе равно ${\ displaystyle \ mathbf {x}}$

{\ displaystyle \ varphi \ left (\ mathbf {x} \ right) \ {\ stackrel {\ mathrm {def}} {=}} \ E \ left (y \ mid \ mathbf {x} \ right) = \ int y \, P \ left (y \ mid \ mathbf {x} \ right) dy}

где

{\ displaystyle P \ left (y \ mid \ mathbf {x} \ right)}

условная вероятность данного y . Условная вероятность связана с совместной вероятностью через теорему Байеса. ${\ displaystyle \ mathbf {x}}$

{\ displaystyle P \ left (y \ mid \ mathbf {x} \ right) = {\ frac {P \ left (\ mathbf {x} \ land y \ right)} {P \ left (\ mathbf {x} \ верно)}}}

который дает

{\ displaystyle \ varphi \ left (\ mathbf {x} \ right) = \ int y \, {\ frac {P \ left (\ mathbf {x} \ land y \ right)} {P \ left (\ mathbf { x} \ right)}} \, dy}

.

Это становится

{\ displaystyle \ varphi \ left (\ mathbf {x} \ right) = {\ frac {\ sum _ {i = 1} ^ {N} e_ {i} \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} \ rho {\ big (} \ left \ Vert \ mathbf { x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}} = \ sum _ {i = 1} ^ {N} e_ {i} u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}

когда выполняются интеграции.

Локальные линейные модели

Иногда удобно расширить архитектуру, включив в нее локальные линейные модели. В этом случае архитектуры становятся, в первую очередь,

{\ displaystyle \ varphi \ left (\ mathbf {x} \ right) = \ sum _ {i = 1} ^ {N} \ left (a_ {i} + \ mathbf {b} _ {i} \ cdot \ left (\ mathbf {x} - \ mathbf {c} _ {i} \ right) \ right) \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}

а также

{\ displaystyle \ varphi \ left (\ mathbf {x} \ right) = \ sum _ {i = 1} ^ {N} \ left (a_ {i} + \ mathbf {b} _ {i} \ cdot \ left (\ mathbf {x} - \ mathbf {c} _ {i} \ right) \ right) u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Верт {\ big)}}

в ненормализованном и нормализованном случаях соответственно. Вот веса, которые предстоит определить. Возможны также линейные члены более высокого порядка. ${\ displaystyle \ mathbf {b} _ {i}}$

Этот результат можно записать

{\ displaystyle \ varphi \ left (\ mathbf {x} \ right) = \ sum _ {i = 1} ^ {2N} \ sum _ {j = 1} ^ {n} e_ {ij} v_ {ij} { \ big (} \ mathbf {x} - \ mathbf {c} _ {i} {\ big)}}

где

{\ displaystyle e_ {ij} = {\ begin {case} a_ {i}, & {\ mbox {if}} i \ in [1, N] \\ b_ {ij}, & {\ mbox {if}} i \ in [N + 1,2N] \ end {case}}}

а также

{\ displaystyle v_ {ij} {\ big (} \ mathbf {x} - \ mathbf {c} _ {i} {\ big)} \ {\ stackrel {\ mathrm {def}} {=}} \ {\ begin {case} \ delta _ {ij} \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}, & {\ mbox {if}} i \ in [1, N] \\\ left (x_ {ij} -c_ {ij} \ right) \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c } _ {i} \ right \ Vert {\ big)}, & {\ mbox {if}} i \ in [N + 1,2N] \ end {case}}}

в ненормализованном случае и

{\ displaystyle v_ {ij} {\ big (} \ mathbf {x} - \ mathbf {c} _ {i} {\ big)} \ {\ stackrel {\ mathrm {def}} {=}} \ {\ begin {case} \ delta _ {ij} u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}, & {\ mbox { if}} i \ in [1, N] \\\ left (x_ {ij} -c_ {ij} \ right) u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}, & {\ mbox {if}} i \ in [N + 1,2N] \ end {case}}}

в нормализованном случае.

Вот является функция Кронекера определяется как ${\ displaystyle \ delta _ {ij}}$

{\ displaystyle \ delta _ {ij} = {\ begin {cases} 1, & {\ mbox {if}} i = j \\ 0, & {\ mbox {if}} i \ neq j \ end {cases} }}

.

Обучение

Сети RBF , как правило , обучены с парами входных и выходных значений , с помощью алгоритма двухступенчатого. ${\ Displaystyle \ mathbf {х} (т), у (т)}$ ${\ displaystyle t = 1, \ dots, T}$

На первом этапе выбираются центральные векторы функций RBF в скрытом слое. Этот шаг можно выполнить несколькими способами; центры могут быть отобраны случайным образом из некоторого набора примеров, или они могут быть определены с помощью кластеризации k-средних . Обратите внимание, что этот шаг выполняется без присмотра . ${\ displaystyle \ mathbf {c} _ {i}}$

Второй шаг просто подбирает линейную модель с коэффициентами для выходов скрытого слоя по отношению к некоторой целевой функции. Общей целевой функцией, по крайней мере, для оценки регрессии / функции, является функция наименьших квадратов: ${\ displaystyle w_ {i}}$

{\ Displaystyle К (\ mathbf {w}) \ {\ stackrel {\ mathrm {def}} {=}} \ \ sum _ {t = 1} ^ {T} K_ {t} (\ mathbf {w}) }

где

{\ Displaystyle K_ {t} (\ mathbf {w}) \ {\ stackrel {\ mathrm {def}} {=}} \ {\ big [} y (t) - \ varphi {\ big (} \ mathbf { x} (t), \ mathbf {w} {\ big)} {\ big]} ^ {2}}

.

Мы явно включили зависимость от весов. Минимизация целевой функции наименьших квадратов за счет оптимального выбора весов оптимизирует точность подбора.

Бывают случаи, когда необходимо оптимизировать несколько целей, таких как плавность и точность. В этом случае полезно оптимизировать регуляризованную целевую функцию, такую как

{\ Displaystyle H (\ mathbf {w}) \ {\ stackrel {\ mathrm {def}} {=}} \ K (\ mathbf {w}) + \ lambda S (\ mathbf {w}) \ {\ stackrel {\ mathrm {def}} {=}} \ \ sum _ {t = 1} ^ {T} H_ {t} (\ mathbf {w})}

где

{\ Displaystyle S (\ mathbf {w}) \ {\ stackrel {\ mathrm {def}} {=}} \ \ sum _ {t = 1} ^ {T} S_ {t} (\ mathbf {w}) }

а также

{\ displaystyle H_ {t} (\ mathbf {w}) \ {\ stackrel {\ mathrm {def}} {=}} \ K_ {t} (\ mathbf {w}) + \ lambda S_ {t} (\ mathbf {w})}

где оптимизация S максимизирует гладкость и известна как параметр регуляризации . ${\ displaystyle \ lambda}$

Третий необязательный шаг обратного распространения может быть выполнен для точной настройки всех параметров сети RBF.

Интерполяция

RBF сети могут быть использованы для интерполяции функции , когда значения этой функции известны на конечном числе точек: . Принимая известные точки за центры радиальных базисных функций и оценивая значения базисных функций в тех же точках, веса могут быть решены из уравнения ${\ displaystyle y: \ mathbb {R} ^ {n} \ to \ mathbb {R}}$ ${\ Displaystyle у (\ mathbf {х} _ {я}) = b_ {я}, я = 1, \ ldots, N}$ ${\ Displaystyle \ mathbf {х} _ {я}}$ ${\ displaystyle g_ {ij} = \ rho (|| \ mathbf {x} _ {j} - \ mathbf {x} _ {i} ||)}$

{\ displaystyle \ left [{\ begin {matrix} g_ {11} & g_ {12} & \ cdots & g_ {1N} \\ g_ {21} & g_ {22} & \ cdots & g_ {2N} \\\ vdots && \ ddots & \ vdots \\ g_ {N1} & g_ {N2} & \ cdots & g_ {NN} \ end {matrix}} \ right] \ left [{\ begin {matrix} w_ {1} \\ w_ {2} \ \\ vdots \\ w_ {N} \ end {matrix}} \ right] = \ left [{\ begin {matrix} b_ {1} \\ b_ {2} \\\ vdots \\ b_ {N} \ end {матрица}} \ right]}

Можно показать, что матрица интерполяции в приведенном выше уравнении неособая, если точки различны, и, таким образом, веса могут быть решены с помощью простой линейной алгебры: ${\ Displaystyle \ mathbf {х} _ {я}}$ ${\ displaystyle w}$

{\ displaystyle \ mathbf {w} = \ mathbf {G} ^ {- 1} \ mathbf {b}}

где . ${\ displaystyle G = (g_ {ij})}$

Аппроксимация функции

Если целью является не выполнение строгой интерполяции, а вместо этого более общее приближение или классификация функций, оптимизация несколько сложнее, потому что нет очевидного выбора для центров. Тренировка обычно проводится в два этапа: сначала фиксируются ширина и центры, а затем веса. Это может быть оправдано, если рассмотреть различную природу нелинейных скрытых нейронов по сравнению с линейным выходным нейроном.

Обучение базовых функциональных центров

Центры базисных функций могут быть случайным образом отобраны среди входных экземпляров или получены с помощью алгоритма обучения методом наименьших квадратов, либо найдены путем кластеризации выборок и выбора кластерных средних в качестве центров.

Ширина RBF обычно фиксируется на одном и том же значении, которое пропорционально максимальному расстоянию между выбранными центрами.

Псевдообратное решение для линейных весов

После фиксации центров веса, которые минимизируют ошибку на выходе, могут быть вычислены с помощью линейного псевдообратного решения: ${\ displaystyle c_ {i}}$

{\ Displaystyle \ mathbf {ш} = \ mathbf {G} ^ {+} \ mathbf {b}}

,

где элементы матрицы G являются значения радиальных базисных функций оцененных в точках : . ${\ displaystyle x_ {i}}$ ${\ Displaystyle g_ {ji} = \ rho (|| x_ {j} -c_ {i} ||)}$

Существование этого линейного решения означает, что в отличие от многослойных сетей персептронов (MLP), сети RBF имеют явный минимизатор (когда центры фиксированы).

Тренировка линейных весов градиентным спуском

Другой возможный алгоритм обучения - градиентный спуск . При обучении градиентному спуску веса корректируются на каждом временном шаге, перемещая их в направлении, противоположном градиенту целевой функции (что позволяет найти минимум целевой функции),

{\ displaystyle \ mathbf {w} (t + 1) = \ mathbf {w} (t) - \ nu {\ frac {d} {d \ mathbf {w}}} H_ {t} (\ mathbf {w} )}

где - «параметр обучения». ${\ displaystyle \ nu}$

Для случая обучения линейных весов алгоритм принимает вид ${\ displaystyle a_ {i}}$

{\ displaystyle a_ {i} (t + 1) = a_ {i} (t) + \ nu {\ big [} y (t) - \ varphi {\ big (} \ mathbf {x} (t), \ mathbf {w} {\ big)} {\ big]} \ rho {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big )}}

в ненормализованном случае и

{\ displaystyle a_ {i} (t + 1) = a_ {i} (t) + \ nu {\ big [} y (t) - \ varphi {\ big (} \ mathbf {x} (t), \ mathbf {w} {\ big)} {\ big]} u {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big) }}

в нормализованном случае.

Для локальной линейно-линейной архитектуры обучение градиентному спуску

{\ Displaystyle е_ {ij} (t + 1) = e_ {ij} (t) + \ nu {\ big [} y (t) - \ varphi {\ big (} \ mathbf {x} (t), \ mathbf {w} {\ big)} {\ big]} v_ {ij} {\ big (} \ mathbf {x} (t) - \ mathbf {c} _ {i} {\ big)}}

Обучение оператора проекции линейных весов

Для случая обучения линейных весов и алгоритм принимает вид ${\ displaystyle a_ {i}}$ ${\ displaystyle e_ {ij}}$

{\ displaystyle a_ {i} (t + 1) = a_ {i} (t) + \ nu {\ big [} y (t) - \ varphi {\ big (} \ mathbf {x} (t), \ mathbf {w} {\ big)} {\ big]} {\ frac {\ rho {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} \ rho ^ {2} {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}}}

в ненормализованном случае и

{\ displaystyle a_ {i} (t + 1) = a_ {i} (t) + \ nu {\ big [} y (t) - \ varphi {\ big (} \ mathbf {x} (t), \ mathbf {w} {\ big)} {\ big]} {\ frac {u {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} u ^ {2} {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i } \ right \ Vert {\ big)}}}}

в нормированном случае и

{\ Displaystyle е_ {ij} (t + 1) = e_ {ij} (t) + \ nu {\ big [} y (t) - \ varphi {\ big (} \ mathbf {x} (t), \ mathbf {w} {\ big)} {\ big]} {\ frac {v_ {ij} {\ big (} \ mathbf {x} (t) - \ mathbf {c} _ {i} {\ big)} } {\ sum _ {i = 1} ^ {N} \ sum _ {j = 1} ^ {n} v_ {ij} ^ {2} {\ big (} \ mathbf {x} (t) - \ mathbf {c} _ {i} {\ big)}}}}

в локально-линейном случае.

Для одной базовой функции обучение оператора проекции сводится к методу Ньютона .

Рисунок 6: Временные ряды логистической карты. Повторяющаяся итерация логистической карты порождает хаотический временной ряд. Значения лежат между нулем и единицей. Здесь показаны 100 тренировочных точек, использованных для обучения примерам из этого раздела. Веса c являются первыми пятью точками этого временного ряда.

Примеры

Логистическая карта

Основные свойства радиальных базисных функций можно проиллюстрировать с помощью простой математической карты, логистической карты , которая отображает единичный интервал на себя. Его можно использовать для создания удобного потока данных прототипа. Логистическая карта может использоваться для изучения приближения функций , прогнозирования временных рядов и теории управления . Карта возникла из области динамики численности населения и стала прототипом хаотических временных рядов. Карта в полностью хаотическом режиме имеет вид

{\ Displaystyle х (т + 1) \ {\ stackrel {\ mathrm {def}} {=}} \ е \ влево [х (т) \ вправо] = 4х (т) \ влево [1-х (т) \верно]}

где t - временной индекс. Значение x в момент времени t + 1 является параболической функцией x в момент времени t. Это уравнение представляет собой базовую геометрию хаотического временного ряда, созданного логистической картой.

Генерация временных рядов из этого уравнения - прямая задача . Примеры здесь иллюстрируют обратную задачу ; идентификация основной динамики или фундаментального уравнения логистической карты по образцам временного ряда. Цель - найти оценку

{\ Displaystyle х (т + 1) = е \ влево [х (т) \ вправо] \ приблизительно \ varphi (т) = \ varphi \ влево [х (т) \ вправо]}

для f.

Аппроксимация функции

Ненормализованные радиальные базисные функции

Архитектура

Рисунок 7: Ненормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающую выборку.

{\ displaystyle \ varphi (\ mathbf {x}) \ {\ stackrel {\ mathrm {def}} {=}} \ sum _ {i = 1} ^ {N} a_ {i} \ rho {\ big ( } \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}

где

{\ displaystyle \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} = \ exp \ left [- \ beta _ {i } \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert ^ {2} \ right] = \ exp \ left [- \ beta _ {i} \ left (x (t ) -c_ {i} \ right) ^ {2} \ right]}

.

Поскольку входные данные являются скаляром, а не вектором , размерность входных данных равна единице. Мы выбираем количество базисных функций как N = 5, а размер обучающей выборки - 100 экземпляров, сгенерированных хаотическим временным рядом. Вес взят постоянным, равным 5. Веса - это пять экземпляров из временного ряда. Гири обучаются с обучением оператора проецирования: ${\ displaystyle \ beta}$ ${\ displaystyle c_ {i}}$ ${\ displaystyle a_ {i}}$

{\ Displaystyle а_ {я} (т + 1) = а_ {я} (т) + \ ню {\ большой [} х (т + 1) - \ varphi {\ большой (} \ mathbf {х} (т) , \ mathbf {w} {\ big)} {\ big]} {\ frac {\ rho {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} \ rho ^ {2} {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c } _ {i} \ right \ Vert {\ big)}}}}

где скорость обучения принята равной 0,3. Тренировка проводится с одним проходом через 100 тренировочных точек. Квадратичная ошибка равна 0,15. ${\ displaystyle \ nu}$

Рисунок 8: Нормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающую выборку. Обратите внимание на улучшение по сравнению с ненормализованным случаем.

Нормализованные радиальные базисные функции

Нормализованная архитектура RBF

{\ displaystyle \ varphi (\ mathbf {x}) \ {\ stackrel {\ mathrm {def}} {=}} \ {\ frac {\ sum _ {i = 1} ^ {N} a_ {i} \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} \ rho { \ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}} = \ sum _ {i = 1} ^ {N} a_ {i } u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}

где

{\ displaystyle u {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} \ {\ stackrel {\ mathrm {def}} {= }} \ {\ frac {\ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}}}

.

Очередной раз:

{\ displaystyle \ rho {\ big (} \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert {\ big)} = \ exp \ left [- \ beta \ left \ Vert \ mathbf {x} - \ mathbf {c} _ {i} \ right \ Vert ^ {2} \ right] = \ exp \ left [- \ beta \ left (x (t) -c_ {i} \ right ) ^ {2} \ right]}

.

Опять же, мы выбираем количество базовых функций, равное пяти, и размер обучающего набора, равный 100 образцам, сгенерированным хаотическим временным рядом. Вес взят постоянным, равным 6. Веса - это пять экземпляров из временного ряда. Гири обучаются с обучением оператора проецирования: ${\ displaystyle \ beta}$ ${\ displaystyle c_ {i}}$ ${\ displaystyle a_ {i}}$

{\ Displaystyle а_ {я} (т + 1) = а_ {я} (т) + \ ню {\ большой [} х (т + 1) - \ varphi {\ большой (} \ mathbf {х} (т) , \ mathbf {w} {\ big)} {\ big]} {\ frac {u {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} u ^ {2} {\ big (} \ left \ Vert \ mathbf {x} (t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}}}

где скорость обучения снова принята равной 0,3. Тренировка проводится с одним проходом через 100 тренировочных точек. Квадратичная ошибка на тестовом наборе 100 экземпляров является 0,084, меньше ненормированного ошибки. Нормализация дает повышение точности. Обычно точность с нормализованными базисными функциями увеличивается еще больше по сравнению с ненормализованными функциями по мере увеличения входной размерности. ${\ displaystyle \ nu}$

Рисунок 9: Нормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) как функция времени. Обратите внимание, что приближение подходит только для нескольких временных шагов. Это общая характеристика хаотических временных рядов.

Прогнозирование временных рядов

После того, как базовая геометрия временного ряда оценена, как в предыдущих примерах, прогноз для временного ряда может быть сделан путем итерации:

{\ Displaystyle \ varphi (0) = х (1)}

{\ Displaystyle {х} (т) \ приблизительно \ varphi (т-1)}

{\ Displaystyle {х} (т + 1) \ приблизительно \ varphi (t) = \ varphi [\ varphi (t-1)]}

.

На рисунке показано сравнение фактического и расчетного временных рядов. Расчетный временной ряд начинается в нулевой момент времени с точным знанием x (0). Затем он использует оценку динамики для обновления оценки временного ряда для нескольких временных шагов.

Обратите внимание, что оценка точна только для нескольких временных шагов. Это общая характеристика хаотических временных рядов. Это свойство чувствительной зависимости от начальных условий, характерных для хаотических временных рядов. Небольшая начальная ошибка со временем усиливается. Мера расхождения временных рядов с почти одинаковыми начальными условиями известна как показатель Ляпунова .

Контроль хаотического временного ряда

Рисунок 10: Управление логистической картой. Системе позволено естественным образом развиваться за 49 временных шагов. В момент времени 50 включается управление. Желаемая траектория для временного ряда отмечена красным. Управляемая система изучает основную динамику и приводит временной ряд к желаемому результату. Архитектура такая же, как и в примере прогнозирования временных рядов.

Мы предполагаем, что выходными данными логистической карты можно управлять с помощью управляющего параметра , так что ${\ Displaystyle с [х (т), т]}$

{\ displaystyle {x} _ {} ^ {} (t + 1) = 4x (t) [1-x (t)] + c [x (t), t]}

.

Цель состоит в том, чтобы выбрать параметр управления таким образом, чтобы привести временной ряд к желаемому результату . Это можно сделать, если мы выберем управляющий параметр равным ${\ displaystyle d (t)}$

{\ Displaystyle с _ {} ^ {} [х (т), т] \ {\ stackrel {\ mathrm {def}} {=}} \ - \ varphi [х (т)] + d (т + 1)}

где

{\ Displaystyle у [х (т)] \ приблизительно е [х (т)] = х (т + 1) -с [х (т), т]}

является приближением к основной естественной динамике системы.

Алгоритм обучения представлен

{\ Displaystyle а_ {я} (т + 1) = а_ {я} (т) + \ ню \ варепсилон {\ гидроразрыва {и {\ большой (} \ влево \ Верт \ mathbf {х} (т) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}} {\ sum _ {i = 1} ^ {N} u ^ {2} {\ big (} \ left \ Vert \ mathbf {x} ( t) - \ mathbf {c} _ {i} \ right \ Vert {\ big)}}}}

где

{\ Displaystyle \ varepsilon \ {\ stackrel {\ mathrm {def}} {=}} \ f [x (t)] - \ varphi [x (t)] = x (t + 1) -c [x (t ), t] - \ varphi [x (t)] = x (t + 1) -d (t + 1)}

.

Смотрите также

дальнейшее чтение

J. Moody и CJ Darken, "Быстрое обучение в сетях локально настроенных процессоров", Neural Computation, 1, 281-294 (1989). См. Также Радиальные сети базисных функций согласно Moody и Darken.
T. Poggio и F. Girosi, " Сети для приближения и обучения ", Proc. IEEE 78 (9), 1484-1487 (1990).
Роджер Д. Джонс , YC Lee, CW Barnes, GW Flake, K. Lee, PS Lewis и S. Qian,? Функция приближения и прогнозирования временных рядов с нейронными сетями ,? Труды Международной совместной конференции по нейронным сетям, 17–21 июня, с. И-649 (1990).
Мартин Д. Бухманн (2003). Радиальные базисные функции: теория и реализации . Кембриджский университет. ISBN 0-521-63338-9.
Йи, Пол В. и Хайкин, Саймон (2001). Регуляризованные сети с радиальными базисными функциями: теория и приложения . Джон Вили. ISBN 0-471-35349-3.
Джон Р. Дэвис, Стивен В. Коггесхолл, Роджер Д. Джонс и Дэниел Шутцер, «Интеллектуальные системы безопасности», в книге Фридмана, Роя С., Флейна, Роберта А. и Ледермана, Джесс, редакторов (1995). Искусственный интеллект на рынках капитала . Чикаго: Ирвин. ISBN 1-55738-811-3.CS1 maint: несколько имен: список авторов ( ссылка )
Саймон Хайкин (1999). Нейронные сети: всеобъемлющий фундамент (2-е изд.). Река Аппер Сэдл, штат Нью-Джерси: Prentice Hall. ISBN 0-13-908385-5.
С. Чен, CFN Cowan и PM Grant, " Алгоритм обучения ортогональным наименьшим квадратам для сетей с радиальными базисными функциями ", IEEE Transactions on Neural Networks, Vol 2, No. 2 (Mar) 1991.

Languages

In other projects

Сеть радиальных базисных функций - Radial basis function network

СОДЕРЖАНИЕ

Сетевая архитектура

Нормализованный

Нормализованная архитектура

Теоретическая мотивация нормализации

Локальные линейные модели

Обучение

Интерполяция

Аппроксимация функции

Обучение базовых функциональных центров

Псевдообратное решение для линейных весов

Тренировка линейных весов градиентным спуском

Обучение оператора проекции линейных весов

Примеры

Логистическая карта

Аппроксимация функции

Ненормализованные радиальные базисные функции

Нормализованные радиальные базисные функции

Прогнозирование временных рядов

Контроль хаотического временного ряда

Смотрите также

Рекомендации

дальнейшее чтение