В DeepMind создали алгоритм IMPALA, способный обучаться в сложных средах

14.02.2018

В британской Deepmind поставили перед собой очередную сложную задачу - ускорить обучение искусственного интеллекта, что критически необходимо для перехода от обучения в простой среде к обучению функционированию в сложной среде или различных средах.

Разработанный алгоритм DeepRL (от англ. Deep Reinforcement Learning - глубокое обучение с подкреплением) показывал заметные успехи при решении ряда задач, начиная от управления роботами до прохождения игр Go и Atari. Но под каждую отдельную задачу нейросеть приходилось обучать, что называется, с нуля. Обученный алгоритм мог затем хорошо справляться с решением задачи для которой он обучался, но для любой другой задачи процесс приходилось начинать с нуля.

В DeepMind создали обучающую среду DMLab-30, представляющую собой набор задач в визуально похожей среде. Чтобы обучить сеть решать одновременно самые разные задачи, требуется высопроизводительное решение, которое было бы способно использовать всю собранную информацию и полученные навыки. В Deepmind разработали масштабируемое решение для распределенного обучения под названием IMPALA (от англ. Importances Weighted Actor-Learner Architectures - Архитектура основанная на обучении действующего персонажа со взвешиванием важности), которое использует новый алгоритм коррекции политик без необходимости остановок для синхронизации под названием V-trace.

DMLab-30-06_CR_DeepMind.gif

DMLab-30 - это оупенсорсная среда, которую любой разработчик ИИ, основанных на глубоком обучении с подкреплением, может использовать для тестирования систем на наборе интересных задач, в том числе, в многозадачном варианте. В DMLab-30 включены самые разные задачи, отличающиеся по цели, задаче, объемам памяти, навигации. Они представляют самые разные пейзажи и обстановку. В некоторых сценариях присутствуют “боты”, действующие в своих собственных целях. Цели и вознаграждения отличаются в зависимости от уровня, как отличаются языки команд и клавиши, которые отвечают, например, за открывание дверей и т.п.

Более детальное описание среды можно найти здесь: DMLab GitHub page

IMPALA основана на распространенной архитектуре A3C, которая подразумевает, что множество распределенных “действующих лиц”, актеров, обучаются выполнению функций действующих агентов. Обычно такие агенты используют единые настройки политики.

Периодически актеры останавливаются и обмениваются вычисленными градиентами для синхронизации настроек политики. Актеры в IMPALA не занимаются вычислением градиентов. Вместо этого они накапливают опыт, который передается “главному обучающемуся”, который и рассчитывает градиенты, формируя модель, в которой действуют независимые актеры и обучающиеся.

Современные вычислительные средства позволяют развернуть IMPALA на одной “обучающейся машине” или на множестве машин, которые будут обмениваться синхронизирующими их апдейтами. Разделение обучения и действия обеспечивает рост производительности всей системы, поскольку актерам более не нужно ожидать каждого отдельного шага в процессе обучения, как это требовалось в архитектурах типа A2C.

Разделение процесса действий и обучения приводит к тому, что политика каждого актера отстает от политики, формируемой главным обучающимся. Чтобы справиться с этой проблемой, в DeepMind используют алгоритм V-trace, который обеспечивает компенсацию траекторий актеров. Детальное описание алгоритма можно найти здесь.

IMPALA ускорила обучение алгоритма на 1-2 порядка по сравнению с другими подходами, что позволяет решать задачи обучения действиям в сложной внешней среде. Обучаемость системы почти линейно растет с повышением задействованных вычислительных ресурсов, что позволяет наращивать число одновременно действующих актеров и обучающихся при объединении в сеть сотен или тысяч вычислительных машин.

В тестах в DeepMind было достигнуто 10-кратное превышение производительности IMPALA по-сравнению с распределенной реализацией A3C. Кроме того, IMPALA позволила перейти от обучения в одной среде, к обучению в мультисредах. Подробнее об IMPALA

+ +

Источник: deepmind.com
Источник иллюстраций: deepmind.com

Смотрите связанные статьи Robo-педии:

  Публикации

Последние материалы

Метки
AGV ai AMR ARM BVLOS DARPA DIY DIY (своими руками) DJI eVTOL Lely pick-and-place RPA VTOL аватары авиация автоматизация автомобили автомобили и роботы автономные агродроны аддитивные технологии андроиды анималистичные АНПА антропоморфные Арт архитектура аэромобили аэропорты аэротакси безопасность безработица и роботы беспилотники бионика бионические больницы будущее бытовые роботы вакансии вектор вертолеты видео внедрения роботов внутритрубная диагностика водородные военные военные дроны военные роботы встречи высотные выставки газ Германия глайдеры горнодобыча городское хозяйство господдержка гостиницы готовка еды Греция грузоперевозки группы дронов гуманоидные дайджест Дания доение роботизированное доильные роботы дом домашние роботы доставка доставка беспилотниками доставка и роботы дронизация дронопорты дроны Европа еда железные дороги животноводство жилище захваты земледелие игрушки идеи измерения Израиль ИИ ИИ - вкратце инвентаризация Индия Иннополис инспекция интервью интерфейсы инфоботы Ирак Иран искусственный интеллект испытания исследования история Италия Казахстан как заработать Канада квадрупеды кейсы киборгизация кино Китай коботы коллаборативные роботы колонки коммунальное хозяйство компании компоненты конвертопланы конкурсы конспекты конструкторы концепты кооперативные роботы космос культура курьезы курьеры лабораторные роботы Латвия лесоустройство лизинг линки логистика люди и роботы магазины машинное обучение медицина медицина и роботы металлургия мнения мобильные роботы модульные мойка море морские мусор мусор и роботы навигация надводные наземные военные роботы налоги наука научные научные роботы необычные нефтегаз нефть Нидерланды Новая Зеландия Норвегия носимые роботы ОАЭ образование образовательная робототехника обучающие роботы общепит общепит и роботы общество Объединенное Королевство октокоптеры онлайн-курсы робототехники опрыскивание офисные охрана и беспилотники охрана и роботы парники патенты персональные роботы пищепром пляжи ПО подводные подводные роботы подземные пожарные пожарные роботы поиск полевые роботы полезные роботы полиция помощники Португалия порты последняя миля потребительские роботы почта право презентации пресс-релизы применение беспилотников применение дронов применение роботов прогнозы проекты производство производство дронов происшествия промышленность промышленные роботы противодействие беспилотникам псевдоспутники работа развлечения и беспилотники развлечения и роботы разгрузка разработка распознавание речи растениеводство регулирование регулирование дронов регулирование робототехники рекорды рисунки робомех робомобили роботакси роботизация робототехника роботрендз роботренды роботы роботы и автомобили роботы и мусор роботы и обучение роботы и развлечения роботы и строительство роботы телеприсутствия роботы-транспортеры робошум рои рой Россия Руанда сад садоводство сайт RoboTrends.ru сбор урожая сборка заказов сварка связь сделки сельское хозяйство сенсоры сервисные роботы синтез речи склады склады и роботизация смартроботы соревнования сортировка сотрудничество софт-роботика социальная робототехника социальные социальные роботы спорт спорт и дроны спорт и роботы спутниковая статистика строительство судовождение США такси телеком телеприсутствие теплицы теплосети термины терроризм тесты технологии техносказки тилтроторы ТНПА торговля транспорт транспортные роботы тренды трубопроводы трубопроводы и роботизация уборка Украина уличные роботы участники рынка фотограмметрия Франция химия хобби-беспилотники ховербайки Хождение цифры частоты чатбот шагающие роботы Швейцария Швеция шоу экзоскелеты эко-дроны экология электроника энергетика этика (робоэтика) Южная Корея юмор Япония

Подписка: RSS, Email, Telegram
  Информация