AlphaGo Zero - AlphaGo Zero

AlphaGo Ноль является версия DeepMind «s Go программного обеспечения AlphaGo . Команда AlphaGo опубликовала статью в журнале Nature 19 октября 2017 года, в которой представила AlphaGo Zero, версию, созданную без использования данных из человеческих игр, и более сильную, чем любая предыдущая версия. Играя против себя, AlphaGo Zero превзошла AlphaGo Lee за три дня, выиграв 100 игр с 0, достигла уровня AlphaGo Master за 21 день и превзошла все старые версии за 40 дней.

Обучение искусственного интеллекта (ИИ) без наборов данных, полученных от экспертов-людей, имеет значительные последствия для развития ИИ со сверхчеловеческими навыками, поскольку данные экспертов «часто дороги, ненадежны или просто недоступны». Демис Хассабис , соучредитель и генеральный директор DeepMind, сказал, что AlphaGo Zero была настолько мощной, потому что «больше не была ограничена рамками человеческого знания». Кроме того, AlphaGo Zero работает лучше, чем стандартные модели глубокого обучения с подкреплением (например, реализации DQN), благодаря интеграции поиска по дереву Монте-Карло. Дэвид Сильвер , один из первых авторов статей DeepMind, опубликованных в Nature на AlphaGo, сказал, что можно получить обобщенные алгоритмы ИИ, устранив необходимость учиться у людей.

Позже Google разработал AlphaZero , обобщенную версию AlphaGo Zero, которая может играть в шахматы и Сёги в дополнение к Го. В декабре 2017 года AlphaZero превзошла 3-дневную версию AlphaGo Zero, выиграв 60 игр против 40, а после 8 часов тренировок превзошла AlphaGo Lee по шкале Эло . AlphaZero также победила лучшую шахматную программу ( Stockfish ) и лучшую программу Сёги ( Elmo ).

Обучение

Нейронная сеть AlphaGo Zero была обучена с использованием TensorFlow с 64 рабочими процессорами и 19 серверами параметров ЦП. Для вывода использовались только четыре TPU . Нейронная сеть изначально ничего не знал о Go Beyond The правил . В отличие от более ранних версий AlphaGo, Zero воспринимал только камни на доске, а не использовал некоторые редкие запрограммированные человеком крайние случаи, помогающие распознать необычные положения доски в го. ИИ занимается обучением с подкреплением , играя против самого себя, пока не сможет предвидеть свои собственные ходы и то, как эти ходы повлияют на исход игры. За первые три дня AlphaGo Zero сыграла против самой себя 4,9 миллиона игр подряд. Казалось, что он развил навыки, необходимые для победы над лучшими людьми, всего за несколько дней, тогда как более раннему AlphaGo требовались месяцы обучения, чтобы достичь того же уровня.

Для сравнения, исследователи также обучили версию AlphaGo Zero, используя игры для людей, AlphaGo Master, и обнаружили, что она обучалась быстрее, но на самом деле работала хуже в долгосрочной перспективе. DeepMind представила свои первые результаты в документе Nature в апреле 2017 года, который затем был опубликован в октябре 2017 года.

Стоимость оборудования

Стоимость оборудования для одной системы AlphaGo Zero в 2017 году, включая четыре TPU, оценивается примерно в 25 миллионов долларов.

Приложения

По словам Хассабиса, алгоритмы AlphaGo, вероятно, принесут наибольшую пользу доменам, которые требуют интеллектуального поиска в огромном пространстве возможностей, таких как сворачивание белков (см. AlphaFold ) или точное моделирование химических реакций. Методы AlphaGo, вероятно, менее полезны в областях, которые сложно моделировать, таких как обучение вождению автомобиля. DeepMind заявила в октябре 2017 года, что она уже начала активную работу по попытке использовать технологию AlphaGo Zero для сворачивания белков, и заявила, что вскоре опубликует новые результаты.

Прием

AlphaGo Zero считалась значительным достижением даже по сравнению со своим революционным предшественником AlphaGo. Орен Эциони из Института искусственного интеллекта Аллена назвал AlphaGo Zero «очень впечатляющим техническим результатом» в «как их способности сделать это, так и их способности обучить систему за 40 дней на четырех TPU». The Guardian назвал это «крупным прорывом в области искусственного интеллекта», цитируя Элени Василаки из Шеффилдского университета и Тома Митчелла из Университета Карнеги-Меллона , которые назвали это впечатляющим подвигом и «выдающимся инженерным достижением» соответственно. Марк Пеше из Сиднейского университета назвал AlphaGo Zero - «большой технологический прорыв», ведущий нас на «неизведанную территорию».

Гэри Маркус , психолог из Нью-Йоркского университета , предупредил, что, насколько нам известно, AlphaGo может содержать «неявные знания, которые есть у программистов о том, как создавать машины для решения таких задач, как Go», и перед тем, как его можно будет протестировать в других областях, его нужно будет протестировать. уверен, что его базовая архитектура эффективна не только для игры в го. Напротив, DeepMind «уверен, что этот подход можно распространить на большое количество областей».

В ответ на сообщения южнокорейский профессионал по игре в го Ли Седол сказал: «Предыдущая версия AlphaGo не была идеальной, и я считаю, что именно поэтому была создана AlphaGo Zero». Что касается потенциала развития AlphaGo, Ли сказал, что ему придется подождать и посмотреть, но также сказал, что это повлияет на молодых игроков в го. Мок Джин Сок , который руководит национальной сборной Южной Кореи по Го, сказал, что мир Го уже имитирует стили игры предыдущих версий AlphaGo и создает на их основе новые идеи, и он надеется, что новые идеи появятся в AlphaGo Zero. . Мок также добавил, что на общие тенденции в мире го теперь влияет стиль игры AlphaGo. «Сначала это было трудно понять, и я почти почувствовал, что играю против инопланетян. Однако, имея большой опыт, я привык к этому», - сказал Мок. «Сейчас мы прошли тот момент, когда мы обсуждаем разрыв между возможностями AlphaGo и людьми. Теперь это между компьютерами». Сообщается, что Мок уже начал анализировать стиль игры AlphaGo Zero вместе с игроками национальной сборной. «Несмотря на то, что мы посмотрели всего несколько матчей, у нас сложилось впечатление, что AlphaGo Zero играет больше как человек, чем его предшественники», - сказал Мок. Ке Цзе, профессионал в китайском го, прокомментировал замечательные достижения новой программы: «Самообучающийся AlphaGo - самый сильный. Люди кажутся излишними перед его самосовершенствованием».

Сравнение с предшественниками

Конфигурация и сила
Версии	Игровое оборудование	Рейтинг Эло	Матчи
AlphaGo Fan	176 графических процессоров , распределено	3144	5: 0 против Фань Хуэй
AlphaGo Lee	48 TPU , распределено	3739	4: 1 против Ли Седола
Мастер AlphaGo	4 TPU, одна машина	4858	60: 0 против профессиональных игроков; Будущее Go Summit
AlphaGo Zero (40 дней)	4 TPU, одна машина	5 185	100: 0 против AlphaGo Lee 89:11 против AlphaGo Master
AlphaZero (34 часа)	4 TPU, одна машина	4430 (оценка)	60:40 против 3-дневного AlphaGo Zero

AlphaZero

5 декабря 2017 года команда DeepMind выпустила препринт на arXiv , представив AlphaZero, программу, использующую обобщенный подход AlphaGo Zero, которая в течение 24 часов достигла сверхчеловеческого уровня игры в шахматы , сёги и го , победив программы чемпионов мира Stockfish , Elmo и 3-дневная версия AlphaGo Zero в каждом случае.

AlphaZero (AZ) - это более обобщенный вариант алгоритма AlphaGo Zero (AGZ) , который может играть в сёги и шахматы, а также в го. Различия между AZ и AGZ включают:

В AZ жестко запрограммированы правила настройки гиперпараметров поиска .
Нейронная сеть теперь постоянно обновляется.
Шахматы (в отличие от го) могут закончиться ничьей; поэтому АЗ может принять во внимание возможность ничьей.

С открытым исходным кодом программы, Leela Ноль , основанный на идеях из AlphaGo работ имеется. Он использует графический процессор вместо TPU, на которых полагаются последние версии AlphaGo.

использованная литература

Внешние ссылки и дальнейшее чтение

Блог AlphaGo
Singh, S .; Окунь, А .; Джексон, А. (2017). «АОП» . Природа . 550 (7676): 336–337. Bibcode : 2017Natur.550..336S . DOI : 10.1038 / 550336a . PMID 29052631 . S2CID 4447445 .
Сильвер, Дэвид; Шриттвизер, Джулиан; Симонян, Карен; Антоноглоу Иоаннис; Хуанг, Аджа; Гез, Артур; Хуберт, Томас; Бейкер, Лукас; Лай, Мэтью; Болтон, Адриан; Чен, Юйтянь; Лилликрап, Тимоти; Хуэй, Фань; Сифре, Лоран; Ван ден Дрише, Джордж; Грэпель, Тор; Хассабис, Демис (2017). «Освоение игры в го без человеческого знания» (PDF) . Природа . 550 (7676): 354–359. Bibcode : 2017Natur.550..354S . DOI : 10.1038 / nature24270 . PMID 29052630 . S2CID 205261034 .
Игры AlphaGo Zero
AMA на Reddit

Languages

In other projects