Нейросеть от DeepMind научилась одинаково хорошо играть и в шахматы, и в компьютерные игры

24.12.2020

Для этого ей понадобилось всего 12 часов тренировок

Компьютерная программа MuZero стартапа DeepMind научилась одинаково хорошо играть как в шахматы, так и в компьютерные игры. Ей удалось это благодаря способности учить правила игры с нуля и при этом планировать свои действия. Статью с описанием достижения опубликовал научный журнал Nature.

Стартап DeepMind, который раньше был частью компании Google, уже много лет лидирует в разработке систем "игрового" искусственного интеллекта на основе глубинных нейросетей и методов машинного обучения. Пять лет назад они стали известны всему миру благодаря AlphaGo - первой программе на основе искусственного интеллекта, которая обыграла чемпиона Европы по игре в древнекитайскую настольную игру го, которую раньше считали слишком сложной для компьютеров.

Более совершенная версия этой программы, AlphaZero, научилась совершенствоваться без участия человека, играя сама с собой. Она освоила и другие игры - обычные и японские шахматы, компьютерную стратегию Starcraft II и шутер Quake 3 Arena.

Подобных успехов ученые добились благодаря тому, что их программы основываются сразу на двух нейронных сетях - компьютерных алгоритмах, которые имитируют работу цепочек нейронов в мозге человека. Одна из этих нейросетей оценивает текущую позицию игрока на доске или поле, а вторая использует результаты первой, чтобы выбирать следующий шаг и ускорять расчеты, отсеивая невозможные варианты.

В последние два года глава DeepMind Дэвид Сильвер и его коллеги попытаются адаптировать эти подходы для создания искусственного интеллекта, который смог бы играть в "Пакмэна" и другие классические компьютерные игры, которые появились в 1970 и 1980 годах для первых компьютеров. В начале 2020 года они решили эту задачу. Но их программа Agent57 не смогла научиться играть в го и шахматы на гроссмейстерском уровне из-за того, что не могла планировать свои действия.

Другая программа DeepMind - MuZero - лишена этого недостатка. Она может отслеживать закономерности в том, что происходит во время игры при совершении тех или иных действий и использовать эти "наблюдения", чтобы "придумывать" стратегию поведения и планировать действия, которые помогают ей предсказывать, что будет происходить в игре. Программа непрерывно меняет эту модель поведения и корректирует ее с каждым событием в игровом мире. Благодаря этому MuZero может приспосабливаться к изменениям в нем.

Первые опыты с относительно простой версией MuZero, которая может "думать" на пять шагов вперед, показали, что она достигла уровня AlphaZero в шахматах, го и других настольных играх, а также превзошла все существующие нейросети, кроме Agent57, при игре в "Пакмэна" и почти все остальные компьютерные игры. Для этого ей нужно было всего 12 часов тренировок и 800 миллионов игровых сессий.

Ученые предполагают, что подобный подход можно использовать не только для создания программ для игр, но и для решения сложных задач в реальном мире, которые невозможно идеально воспроизводить в виртуальной реальности.

Источник: Тасс

Читайте другие наши новости