В DeepMind создали алгоритм IMPALA, способный обучаться в сложных средах

14.02.2018

В британской Deepmind поставили перед собой очередную сложную задачу - ускорить обучение искусственного интеллекта, что критически необходимо для перехода от обучения в простой среде к обучению функционированию в сложной среде или различных средах.

Разработанный алгоритм DeepRL (от англ. Deep Reinforcement Learning - глубокое обучение с подкреплением) показывал заметные успехи при решении ряда задач, начиная от управления роботами до прохождения игр Go и Atari. Но под каждую отдельную задачу нейросеть приходилось обучать, что называется, с нуля. Обученный алгоритм мог затем хорошо справляться с решением задачи для которой он обучался, но для любой другой задачи процесс приходилось начинать с нуля.

В DeepMind создали обучающую среду DMLab-30, представляющую собой набор задач в визуально похожей среде. Чтобы обучить сеть решать одновременно самые разные задачи, требуется высопроизводительное решение, которое было бы способно использовать всю собранную информацию и полученные навыки. В Deepmind разработали масштабируемое решение для распределенного обучения под названием IMPALA (от англ. Importances Weighted Actor-Learner Architectures - Архитектура основанная на обучении действующего персонажа со взвешиванием важности), которое использует новый алгоритм коррекции политик без необходимости остановок для синхронизации под названием V-trace.

DMLab-30-06_CR_DeepMind.gif

DMLab-30 - это оупенсорсная среда, которую любой разработчик ИИ, основанных на глубоком обучении с подкреплением, может использовать для тестирования систем на наборе интересных задач, в том числе, в многозадачном варианте. В DMLab-30 включены самые разные задачи, отличающиеся по цели, задаче, объемам памяти, навигации. Они представляют самые разные пейзажи и обстановку. В некоторых сценариях присутствуют “боты”, действующие в своих собственных целях. Цели и вознаграждения отличаются в зависимости от уровня, как отличаются языки команд и клавиши, которые отвечают, например, за открывание дверей и т.п.

Более детальное описание среды можно найти здесь: DMLab GitHub page

IMPALA основана на распространенной архитектуре A3C, которая подразумевает, что множество распределенных “действующих лиц”, актеров, обучаются выполнению функций действующих агентов. Обычно такие агенты используют единые настройки политики.

Периодически актеры останавливаются и обмениваются вычисленными градиентами для синхронизации настроек политики. Актеры в IMPALA не занимаются вычислением градиентов. Вместо этого они накапливают опыт, который передается “главному обучающемуся”, который и рассчитывает градиенты, формируя модель, в которой действуют независимые актеры и обучающиеся.

Современные вычислительные средства позволяют развернуть IMPALA на одной “обучающейся машине” или на множестве машин, которые будут обмениваться синхронизирующими их апдейтами. Разделение обучения и действия обеспечивает рост производительности всей системы, поскольку актерам более не нужно ожидать каждого отдельного шага в процессе обучения, как это требовалось в архитектурах типа A2C.

Разделение процесса действий и обучения приводит к тому, что политика каждого актера отстает от политики, формируемой главным обучающимся. Чтобы справиться с этой проблемой, в DeepMind используют алгоритм V-trace, который обеспечивает компенсацию траекторий актеров. Детальное описание алгоритма можно найти здесь.

IMPALA ускорила обучение алгоритма на 1-2 порядка по сравнению с другими подходами, что позволяет решать задачи обучения действиям в сложной внешней среде. Обучаемость системы почти линейно растет с повышением задействованных вычислительных ресурсов, что позволяет наращивать число одновременно действующих актеров и обучающихся при объединении в сеть сотен или тысяч вычислительных машин.

В тестах в DeepMind было достигнуто 10-кратное превышение производительности IMPALA по-сравнению с распределенной реализацией A3C. Кроме того, IMPALA позволила перейти от обучения в одной среде, к обучению в мультисредах. Подробнее об IMPALA

+ +

Источник: deepmind.com
Источник иллюстраций: deepmind.com

Смотрите связанные статьи Robo-педии:

  Публикации

Последние материалы

Метки
AGV ai DARPA DIY DIY (своими руками) DJI Lely pick-and-place RPA VTOL авиация автоматизация автомобили автомобили и роботы автономные аддитивные технологии андроиды анималистичные антропоморфные Арт аэротакси безопасность безработица и роботы беспилотники бионика больницы будущее бытовые роботы вакансии вектор вертолеты видео внедрения роботов военные военные дроны военные роботы встречи высотные выставки газ Германия горнодобыча городское хозяйство гостиницы готовка еды Греция грузоперевозки группы дронов гуманоидные дайджест Дания доение роботизированное доильные роботы домашние роботы доставка беспилотниками доставка и роботы дронизация дроны Европа железные дороги животноводство захваты земледелие игрушки идеи измерения Израиль ИИ ИИ - вкратце инвентаризация Индия Иннополис инспекция интервью интерфейсы инфоботы Ирак Иран искусственный интеллект исследования история Италия Казахстан как заработать Канада кейсы киборгизация кино Китай коботы коллаборативные роботы колонки коммунальное хозяйство компании компоненты конкурсы конспекты конструкторы концепты кооперативные роботы космос курьезы курьеры лабораторные роботы Латвия лизинг линки логистика люди и роботы машинное обучение медицина медицина и роботы металлургия мобильные роботы мойка море морские мусор мусор и роботы надводные наземные военные роботы налоги научные роботы необычные нефтегаз нефть Нидерланды Новая Зеландия Норвегия носимые роботы ОАЭ образование образовательная робототехника обучающие роботы общепит и роботы общество Объединенное Королевство онлайн-курсы робототехники опрыскивание охрана и беспилотники охрана и роботы патенты персональные роботы пищепром пляжи ПО подводные подводные роботы подземные пожарные пожарные роботы полевые роботы полезные роботы Португалия потребительские роботы почта право презентации пресс-релизы применение беспилотников применение дронов применение роботов прогнозы проекты производство производство дронов происшествия промышленность промышленные роботы противодействие беспилотникам работа развлечения и беспилотники развлечения и роботы разработка распознавание речи растениеводство регулирование регулирование дронов регулирование робототехники рекорды рисунки робомех робомобили роботизация робототехника роботрендз роботренды роботы роботы и автомобили роботы и мусор роботы и обучение роботы и развлечения роботы и строительство роботы телеприсутствия роботы-транспортеры робошум рои рой Россия Руанда сад сайт RoboTrends.ru сбор урожая сварка связь сделки сельское хозяйство сенсоры сервисные роботы синтез речи склады склады и роботизация соревнования сортировка сотрудничество софт-роботика социальная робототехника социальные роботы спорт спорт и дроны спорт и роботы строительство США такси телеприсутствие теплицы термины терроризм тесты технологии техносказки торговля транспорт транспортные роботы тренды трубопроводы трубопроводы и роботизация уборка Украина уличные роботы Франция хобби-беспилотники ховербайки Хождение чатбот шагающие роботы Швейцария Швеция шоу экзоскелеты эко-дроны экология электроника энергетика этика (робоэтика) Южная Корея юмор

Подписка: RSS, Email, Telegram
  Информация