Обучение временной разнице - Temporal difference learning

Временная разница ( ТД ) обучение относится к классу безмодельного обучения подкрепления методов , которые изучают с помощью самозагрузки из текущей оценки функции цены. Эти методы выбирают из среды, как методы Монте-Карло , и выполняют обновления на основе текущих оценок, как методы динамического программирования .

В то время как методы Монте-Карло корректируют свои оценки только после того, как становится известен окончательный результат, методы TD корректируют прогнозы для соответствия более поздним, более точным предсказаниям о будущем до того, как станет известен окончательный результат. Это форма начальной загрузки , как показано в следующем примере:

«Предположим, вы хотите спрогнозировать погоду на субботу и у вас есть некая модель, которая предсказывает погоду в субботу с учетом погоды каждого дня недели. В стандартном случае вы должны подождать до субботы, а затем настроить все свои модели. когда, например, пятница, вы должны иметь довольно хорошее представление о погоде в субботу - и, таким образом, иметь возможность изменить, скажем, субботнюю модель до наступления субботы ».

Методы временной разницы связаны с моделью временной разницы обучения животных.

Математическая формулировка

Табличный метод TD (0) - один из простейших методов TD. Это частный случай более общих методов стохастической аппроксимации. Он оценивает функцию значения состояния конечного марковского процесса принятия решений (MDP) в рамках политики . Пусть обозначим функцию состояния ценностный MDP с государствами , награды и ставки дисконтирования в соответствии с политикой :

Для удобства мы опускаем действие из обозначений. удовлетворяет уравнению Гамильтона-Якоби-Беллмана :

так это объективная оценка для . Это наблюдение мотивирует следующий алгоритм оценки .

Алгоритм начинается с произвольной инициализации таблицы с одним значением для каждого состояния MDP. Выбрана положительная скорость обучения .

Затем мы повторно оцениваем политику , получаем вознаграждение и обновляем функцию значения для старого состояния, используя правило:

где и - старое и новое состояния соответственно. Значение известно как цель TD.

ТД-лямбда

TD-Lambda - это алгоритм обучения, изобретенный Ричардом С. Саттоном на основе более ранней работы Артура Сэмюэла по изучению временной разницы . Этот алгоритм был классно применен Джеральдом Тесауро для создания TD-Gammon , программы, которая научилась играть в нарды на уровне опытных игроков-людей.

Параметр lambda ( ) относится к параметру затухания следа с . Более высокие настройки приводят к более длительным следам; то есть, большая часть вознаграждения может быть отдана более отдаленным состояниям и действиям, когда она выше, с параллельным обучением алгоритмам Монте-Карло RL.

Алгоритм TD в неврологии

Алгоритм TD также привлек внимание в области нейробиологии . Исследователи обнаружили, что частота возбуждения дофаминовых нейронов в вентральной тегментальной области (VTA) и черной субстанции (SNc), по-видимому, имитирует функцию ошибок в алгоритме. Функция ошибок сообщает о разнице между предполагаемым вознаграждением в любом заданном состоянии или временном шаге и фактическим полученным вознаграждением. Чем больше функция ошибок, тем больше разница между ожидаемым и фактическим вознаграждением. Когда это сочетается со стимулом, который точно отражает будущую награду, ошибку можно использовать, чтобы связать стимул с будущим вознаграждением .

Похоже, что дофаминовые клетки ведут себя аналогичным образом. В одном эксперименте измерения дофаминовых клеток были сделаны во время обучения обезьяны ассоциировать стимул с наградой за сок. Первоначально дофаминовые клетки увеличивали скорость возбуждения, когда обезьяна получала сок, что указывает на разницу в ожидаемой и фактической награде. Со временем это увеличение ответной реакции распространилось на самый ранний надежный стимул для вознаграждения. После того, как обезьяна была полностью обучена, после предъявления предсказанной награды скорость стрельбы не увеличивалась. Впоследствии скорость активации дофаминовых клеток снизилась ниже нормальной активации, когда ожидаемое вознаграждение не было получено. Это очень похоже на то, как функция ошибок в TD используется для обучения с подкреплением .

Связь между моделью и потенциальной неврологической функцией привела к исследованию, в котором пытались использовать TD для объяснения многих аспектов поведенческих исследований. Он также использовался для изучения таких состояний, как шизофрения, или последствий фармакологических манипуляций с допамином для обучения.

Смотрите также

Заметки

  1. ^ а б Ричард Саттон и Эндрю Барто (1998). Обучение с подкреплением . MIT Press. ISBN 978-0-585-02445-5. Архивировано из оригинала на 2017-03-30.
  2. ^ а б Ричард Саттон (1988). «Учимся предсказывать методами временных разностей» . Машинное обучение . 3 (1): 9–44. DOI : 10.1007 / BF00115009 .(Пересмотренная версия доступна на странице публикации Ричарда Саттона, заархивирована 30 марта 2017 г. в Wayback Machine )
  3. ^ a b Шульц, В., Даян, П и Монтегю, PR. (1997). «Нейронный субстрат предсказания и вознаграждения». Наука . 275 (5306): 1593–1599. CiteSeerX  10.1.1.133.6176 . DOI : 10.1126 / science.275.5306.1593 . PMID  9054347 .CS1 maint: несколько имен: список авторов ( ссылка )
  4. ^ a b Монтегю, PR; Dayan, P .; Сейновски, Т.Дж. (1996-03-01). «Основа для мезэнцефальных дофаминовых систем, основанная на прогнозирующем обучении Хебба» (PDF) . Журнал неврологии . 16 (5): 1936–1947. DOI : 10.1523 / JNEUROSCI.16-05-01936.1996 . ISSN  0270-6474 . PMC  6578666 . PMID  8774460 .
  5. ^ a b Монтегю, PR; Dayan, P .; Новлан, SJ; Pouget, A .; Сейновски, Т.Дж. (1993). «Использование апериодического подкрепления для направленной самоорганизации» (PDF) . Достижения в системах обработки нейронной информации . 5 : 969–976.
  6. ^ a b Монтегю, PR; Сейновски, Т.Дж. (1994). «Прогнозирующий мозг: временное совпадение и временной порядок в механизмах синаптического обучения». Обучение и память . 1 (1): 1–33. ISSN  1072-0502 . PMID  10467583 .
  7. ^ а б Сейновски, Т.Дж.; Dayan, P .; Монтегю, PR (1995). «Прогнозирующее обучение хебба» (PDF) . Труды восьмой конференции ACM по вычислительной теории обучения : 15–18. DOI : 10.1145 / 225298.225300 . ISBN 0897917235.
  8. ^ Параметр ставки дисконтирования позволяет выбрать временное предпочтение в пользу более немедленных вознаграждений, а не отдаленных будущих вознаграждений.
  9. ^ Обучение с подкреплением: Введение (PDF) . п. 130. Архивировано из оригинального (PDF) 12.07.2017.
  10. ^ Тесауро, Джеральд (март 1995). «Обучение временной разнице и TD-Gammon» . Коммуникации ACM . 38 (3): 58–68. DOI : 10.1145 / 203330.203343 . Проверено 8 февраля 2010 .
  11. Перейти ↑ Schultz, W. (1998). «Прогнозирующий сигнал вознаграждения дофаминовых нейронов». Журнал нейрофизиологии . 80 (1): 1-27. CiteSeerX  10.1.1.408.5994 . DOI : 10.1152 / jn.1998.80.1.1 . PMID  9658025 .
  12. ^ Даян, П. (2001). «Мотивированное обучение с подкреплением» (PDF) . Достижения в системах обработки нейронной информации . MIT Press. 14 : 11–18.
  13. ^ Смит, А., Ли, М., Беккер, С. и Капур, С. (2006). «Допамин, ошибка предсказания и ассоциативное обучение: учет на основе модели». Сеть: вычисления в нейронных системах . 17 (1): 61–84. DOI : 10.1080 / 09548980500361624 . PMID  16613795 .CS1 maint: несколько имен: список авторов ( ссылка )

Библиография

Внешние ссылки