Сеть состояния эха - Echo state network

Сеть эхосигналов ( ESN ) - это тип компьютера-коллектора, в котором используется рекуррентная нейронная сеть с редко подключенным скрытым слоем (обычно с подключением 1%). Связность и веса скрытых нейронов фиксированы и назначаются случайным образом. Веса выходных нейронов можно узнать, чтобы сеть могла создавать или воспроизводить определенные временные паттерны. Главный интерес этой сети заключается в том, что, хотя ее поведение является нелинейным, единственные веса, которые изменяются во время обучения, относятся к синапсам, которые соединяют скрытые нейроны с выходными нейронами. Таким образом, функция ошибок является квадратичной по отношению к вектору параметров и может быть легко дифференцирована до линейной системы.

В качестве альтернативы можно рассмотреть непараметрическую байесовскую формулировку выходного слоя, согласно которой: (i) на выходные веса накладывается априорное распределение; и (ii) выходные веса не учитываются в контексте генерации прогнозов с учетом обучающих данных. Эта идея была продемонстрирована с использованием априорных значений Гаусса, в результате чего была получена гауссова модель процесса с функцией ядра, управляемой ESN. Было показано, что такое решение превосходит ESN с обучаемыми (конечными) наборами весов в нескольких тестах.

Некоторые общедоступные реализации ESN: (i) резервуар : эффективная библиотека C ++ для различных типов сетей эхо-состояний с привязками python / numpy; и (ii) код Matlab : эффективный Matlab для сети состояний эха, (iii) ReservoirComputing.jl : эффективная реализация на основе Julia различных типов сетей состояний эха и (iv) pyESN : простые сети состояний эха на Python.

Сеть состояний эха (ESN) принадлежит к семейству рекуррентных нейронных сетей (RNN) и обеспечивает их архитектуру и принцип контролируемого обучения. В отличие от нейронных сетей прямого распространения, рекуррентные нейронные сети являются динамическими системами, а не функциями. Рекуррентные нейронные сети обычно используются для: изучения динамического процесса: обработки сигналов в инженерии и телекоммуникациях, анализа вибрации, сейсмологии, управления двигателями и генераторами. Прогнозирование и генерация сигналов: текст, музыка, электрические сигналы. Моделирование биологических систем, нейронауки (когнитивная нейродинамика), моделирование памяти, интерфейсы мозг-компьютер (BCI), фильтрация и процессы Калмана, военные приложения, моделирование волатильности и т. Д.

Для обучения RNN доступен ряд алгоритмов обучения: обратное распространение во времени, периодическое обучение в реальном времени. Сходимость не гарантируется из-за явлений нестабильности и бифуркации.  

Основной подход ESN состоит в том, чтобы, во-первых, управлять случайной, большой, фиксированной, повторяющейся нейронной сетью с входным сигналом, который индуцирует нелинейный ответный сигнал в каждом нейроне в этой «резервуарной» сети, и, во-вторых, соединять требуемый выходной сигнал с помощью обучаемая линейная комбинация всех этих ответных сигналов.

Другой особенностью ESN является автономная работа при прогнозировании: если сеть состояний эха обучена с использованием входа, который является версией выхода с обратным смещением, то ее можно использовать для генерации / прогнозирования сигнала, используя предыдущий выход в качестве входа.

Основная идея ESN связана с Liquid State Machines (LSM), которые независимо и одновременно с ESN были разработаны Вольфгангом Маассом. LSM, ESN и недавно исследованное правило обучения декорреляции обратного распространения для RNN все больше и больше обобщается под названием Reservoir Computing.

Шиллер и Стейл также продемонстрировали, что в традиционных подходах к обучению для RNN, в которых адаптируются все веса (а не только выходные веса), преобладающие изменения происходят в выходных весах. В области когнитивной нейробиологии Питер Ф. Домини проанализировал связанный процесс, связанный с моделированием обработки последовательностей в мозге млекопитающих, в частности с распознаванием речи в человеческом мозге. Основная идея также включала модель временной дискриминации входа в биологических нейронных сетях. Ранняя четкая формулировка идеи расчета резервуаров принадлежит К. Кирби, который раскрыл эту концепцию в почти забытом докладе конференции. Первая формулировка известной сегодня идеи пластовых вычислений исходит от Л. Шомакера, который описал, как желаемый целевой выходной сигнал может быть получен из RNN путем обучения объединению сигналов от случайно сконфигурированного ансамбля импульсных нейронных осцилляторов.

Варианты

Сети эхо-состояний могут быть построены по-разному. Их можно настроить с или без напрямую обучаемых соединений ввода-вывода, с обратной связью резервирования вывода или без, с различными нейротипами, различными шаблонами внутренней связи резервуара и т. Д. Выходной вес может быть рассчитан для линейной регрессии со всеми алгоритмами, независимо от того, являются ли они онлайн или офлайн. В дополнение к решениям для ошибок с наименьшими квадратами, критерии максимизации маржи, так называемые машины векторов поддержки обучения, используются для определения выходных значений. Другие варианты сетей эхо-состояний стремятся изменить формулировку, чтобы лучше соответствовать общим моделям физических систем, например тем, которые обычно определяются дифференциальными уравнениями. Работа в этом направлении включает сети с эхо-состояниями, которые частично включают физические модели, гибридные сети с эхо-состояниями и сети с непрерывным временем эхо-состояний.

Фиксированная RNN действует как случайная нелинейная среда, динамический отклик которой, «эхо», используется в качестве базы сигнала. Линейную комбинацию этой базы можно обучить для восстановления желаемого результата путем минимизации некоторых критериев ошибки.

Значение

До введения ESN на практике RNN использовались редко. Поскольку эти модели подходят, нужна версия градиентного спуска для корректировки соединений. В результате алгоритмы работают медленно и намного хуже, что делает процесс обучения уязвимым для ошибок ветвления. Следовательно, сходимость не может быть гарантирована. Обучение ESN не имеет проблем с ветвлением и, кроме того, его легко реализовать. ESN превосходят все другие нелинейные динамические модели. Однако сегодня проблема, которая делала RNN медленными и склонными к ошибкам, была решена с появлением Deep Learning, и уникальные преимущества ESN были потеряны. Кроме того, RNN зарекомендовали себя в нескольких практических областях, таких как языковая обработка. Чтобы справиться с задачами аналогичной сложности с использованием методов расчета коллектора, потребуется память чрезмерного размера. Однако они используются в некоторых областях, например, во многих приложениях для обработки сигналов. Однако ESN широко используются в качестве вычислительного принципа, который сочетается с нецифровыми компьютерными подложками. Например: оптические микрочипы, механические наноосцилляторы, полимерные смеси или даже протезы мягких конечностей.

Смотрите также

использованная литература

  1. ^ a b Jaeger, H .; Хаас, Х. (2004). «Использование нелинейности: прогнозирование хаотических систем и экономия энергии в беспроводной связи» (PDF) . Наука . 304 (5667): 78–80. Bibcode : 2004Sci ... 304 ... 78J . DOI : 10.1126 / science.1091277 . PMID  15064413 . S2CID  2184251 .
  2. ^ a b c d e Jaeger, Herbert (2007). «Эхо государственной сети» . Scholarpedia . 2 (9): 2330. Bibcode : 2007SchpJ ... 2.2330J . DOI : 10,4249 / scholarpedia.2330 .
  3. ^ Chatzis, SP; Демирис, Ю. (2011). «Эхо-состояние гауссовского процесса». IEEE-транзакции в нейронных сетях . 22 (9): 1435–1445. DOI : 10.1109 / TNN.2011.2162109 . PMID  21803684 . S2CID  8553623 .
  4. ^ a b c Jaeger, Герберт (2002). Учебное пособие по обучению рекуррентных нейронных сетей, охватывающее BPPT, RTRL, EKF и подход «сеть состояний эха» . Германия: Немецкий национальный исследовательский центр информационных технологий. С. 1–45.
  5. ^ Маас У., Natschlaeger Т., и Маркрэм H. (2002). «Вычисления в реальном времени без стабильных состояний: новая структура для нейронных вычислений на основе возмущений». Нейронные вычисления . 14 (11): 2531–2560. DOI : 10.1162 / 089976602760407955 . PMID  12433288 . S2CID  1045112 .CS1 maint: несколько имен: список авторов ( ссылка )
  6. ^ a b Шиллер UD и Steil JJ (2005). «Анализ динамики веса повторяющихся алгоритмов обучения». Нейрокомпьютеры . 63 : 5–23. DOI : 10.1016 / j.neucom.2004.04.006 .
  7. ^ Домини PF (1995). «Сложное обучение сенсорно-моторной последовательности на основе репрезентации повторяющегося состояния и обучения с подкреплением». Биол. Кибернетика . 73 (3): 265–274. DOI : 10.1007 / BF00201428 . PMID  7548314 . S2CID  1603500 .
  8. ^ Buonomano, DV и Мерцених, MM (1995). «Временная информация, преобразованная в пространственный код нейронной сетью с реалистичными свойствами». Наука . 267 (5200): 1028–1030. Bibcode : 1995Sci ... 267.1028B . DOI : 10.1126 / science.7863330 . PMID  7863330 . S2CID  12880807 .CS1 maint: несколько имен: список авторов ( ссылка )
  9. ^ Кирби, К. (1991). «Контекстная динамика в нейронном последовательном обучении. Учеб.». Симпозиум исследований искусственного интеллекта во Флориде : 66–70.
  10. ^ Шомакер, Л. (1992). «Нейронная осцилляторно-сетевая модель генерации временных паттернов». Наука человеческого движения . 11 (1–2): 181–192. DOI : 10.1016 / 0167-9457 (92) 90059-K .
  11. ^ Шмидхубер Дж, Гомес Ф., Wierstra Д. и Gagliolo М. (2007). «Обучение рекуррентных сетей от evolino». Нейронные вычисления . 19 (3): 757–779. DOI : 10.1162 / neco.2007.19.3.757 . PMID  17298232 . S2CID  11745761 .CS1 maint: несколько имен: список авторов ( ссылка )
  12. ^ Доан N, Polifke Вт, Магри л (2020). "Физически-обоснованные сети эхо-состояний". Журнал вычислительной науки . 47 : 101237. arXiv : 2011.02280 . DOI : 10.1016 / j.jocs.2020.101237 . S2CID  226246385 .CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ Pathak Дж, Wikner А, Рассел R, S Chandra, Хант В, Герваны М, Отты Е (2018). «Гибридное прогнозирование хаотических процессов: использование машинного обучения в сочетании с моделью, основанной на знаниях». Хаос . 28 (4): 041101. arXiv : 1803.04779 . Bibcode : 2018Chaos..28d1101P . DOI : 10.1063 / 1.5028373 . PMID  31906641 . S2CID  3883587 .CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Anantharaman, Ranjan; Ма, Инбо; Говда, Шаши; Лафман, Крис; Шах, Вирал; Эдельман, Алан; Ракауцкас, Крис (2020). «Ускорение моделирования жестких нелинейных систем с использованием сетей с непрерывным эхом состояния». arXiv : 2010.04004 [ cs.LG ].
  15. ^ Доя К. (1992). «Бифуркации в обучении рекуррентных нейронных сетей». В трудах 1992 г. IEEE Int. Symp. О схемах и системах . 6 : 2777–2780. DOI : 10.1109 / ISCAS.1992.230622 . ISBN 0-7803-0593-0. S2CID  15069221 .
  16. Перейти ↑ Jaeger H. (2007). «Обнаружение многомасштабных динамических функций с помощью иерархических сетей эхо-состояний». Технический отчет 10, Школа инженерии и науки, Университет Джейкобса .