| Русский Русский | English English |
   
Главная Текущий номер
06 | 07 | 2020
10.14489/vkit.2020.06.pp.048-056

DOI: 10.14489/vkit.2020.06.pp.048-056

Дубенко Ю. В.
АНАЛИТИЧЕСКИЙ ОБЗОР ПРОБЛЕМ МНОГОАГЕНТНОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ
(c. 48-56)

Аннотация. Рассмотрена проблема коллективного искусственного разума при решении задач интеллектуальными агентами во внешних средах, которые могут быть полностью или частично наблюдаемыми, детерминированными или стохастическими, эпизодическими или последовательными, статическими или динамическими, дискретными или непрерывными. Определены проблемы, возникающие при коллективном взаимодействии интеллектуальных агентов при решении класса задач, требующих координации действий целой группы агентов, в частности, задача обследования территории сложного инфраструктурного объекта в целях мониторинга. Проведен анализ обучения с подкреплением, дано описание иерархического обучения с подкреплением, представлены основные методы реализации обучения с подкреплением. Введено понятие макродействия агентами, интегрированными в группы. Выявлены основные проблемы, которые возникают при коллективном взаимодействии интеллектуальных агентов для решения поставленной задачи: расчет индивидуальных вознаграждений для каждого агента; проблемы координации агентов; применение макродействий агентами, интегрированными в группы; обмен опытом, сгенерированным различными агентами в рамках решения коллективной задачи. С математическим обоснованием даны описания модели многоагентного обучения с подкреплением, основные проблемы реализации данного подхода с учетом существующих решений, предлагаемых в англоязычных источниках. Сформулированы основные проблемы многоагентного обучения с подкреплением.

Ключевые слова:  многоагентные системы; машинное обучение; многоагентное обучение; обучение с подкреплением; иерархическое обучение с подкреплением; Q-обучение.

 

Dubenko Yu. V.
ANALYTICAL REVIEW OF MULTI-AGENT REINFORCEMENT LEARNING PROBLEMS
(pp. 48-56)

Abstract. This paper is devoted to the problem of collective artificial intelligence in solving problems by intelligent agents in external environments. The environments may be: fully or partially observable, deterministic or stochastic, static or dynamic, discrete or continuous. The paper identifies problems of collective interaction of intelligent agents when they solve a class of tasks, which need to coordinate actions of agent group, e. g. task of exploring the territory of a complex infrastructure facility. It is revealed that the problem of reinforcement training in multi-agent systems is poorly presented in the press, especially in Russian-language publications. The article analyzes reinforcement learning, describes hierarchical reinforcement learning, presents basic methods to implement reinforcement learning. The concept of macro-action by agents integrated in groups is introduced. The main problems of intelligent agents collective interaction for problem solving (i. e. calculation of individual rewards for each agent; agent coordination issues; application of macro actions by agents integrated into groups; exchange of experience generated by various agents as part of solving a collective problem) are identified. The model of multi-agent reinforcement learning is described in details. The article describes problems of this approach building on existing solutions. Basic problems of multi-agent reinforcement learning are formulated in conclusion.

Keywords: Multi-agent systems; Machine learning; Multi-agent learning; Reinforcement learning; Hierarchical reinforcement learning; Q-learning.

Рус

Ю. В. Дубенко (Кубанский государственный технологический университет, Краснодар, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

Yu. V. Dubenko (Kuban State Technological University, Krasnodar, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Azhikodan A. R., Bhat A. G. K., Jadhav M. V. Stock Trading Bot Using Deep Reinforcement Learning // Innovations in Computer Science and Engineering. Singapore, 2019. P. 41 – 49. doi: 10.1007/978-981-10-8201-6_5
2. Bacon P.-L., Precup D. Using Label Propagation for Learning Temporally Abstract Actions in Reinforcement Learning // Proc. of the Workshop on Multiagent Interaction Networks (MAIN’2013). 2013. 7 p. URL: http://pierrelucbacon. com/bacon-2013-label_propagation.pdf (дата обращения: 11.05.2020).
3. Саттон Р. С., Барто Э. Г. Обучение с подкреплением [Электронный ресурс] / под ред. Ю. В. Тюменцева; пер. с англ. О. Е. Романова. 2-е изд. (эл.). М.: БИНОМ. Лаб. знаний, 2014. 402 с. URL: https://yadi.sk/i/ScoZdj3W3MNL7d (дата обращения: 11.05.2020).
4. Human-Level Control Through Deep Reinforcement Learning / V. Mnih et al. // Nature. 2015. V. 518, No. 7540. Р. 529 – 533. doi: 10.1038/nature14236
5. Foerster J. N. Deep Multi-Agent Reinforcement Learning [PhD thesis]. University of Oxford. 2018. URL: https:// ora.ox.ac.uk/objects/uuid:a55621b3-53c0-4e1b-ad1c-92438b57ffa4 (дата обращения: 11.05.2020).
6. Еремеев А. П., Подогов И. Ю. Обобщенный метод иерархического подкрепленного обучения для интеллектуальных систем поддержки принятия решений // Программные продукты и системы. 2008. № 2. C. 35 – 39.
7. Ahilan S., Dayan P. Feudal Multi-Agent Hierarchies for Cooperative Reinforcement Learning // Proc. of the Workshop on Structure & Priors in Reinforcement Learning (SPiRL 2019) at ICLR 2019. New Orleans, LA, USA, May 06, 2019. P. 1 – 11.
8. Hierarchical Deep Multiagent Reinforcement Learning with Temporal Abstraction / H. Tang et al. 2018. URL: https://arxiv.org/abs/1809.09332 (дата обращения: 11.05.2020).
9. Multi-Agent Reinforcement Learning in Sequential Social Dilemmas / J. Z. Leibo et al. 2017. URL: https:// arxiv.org/abs/1702.03037 (дата обращения: 11.05.2020).
10. Learning to Communicate with Deep Multi-Agent Reinforcement Learning / J. Foerster et al. // Advances in Neural Information Processing Systems. 2016. Р. 2137 – 2145.

Eng

1. Azhikodan A. R., Bhat A. G. K., Jadhav M. V. (2019). Stock Trading Bot Using Deep Reinforcement Learning. Innovations in Computer Science and Engineering, pp. 41 – 49. Singapore, doi: 10.1007/978-981-10-8201-6_5
2. Bacon P.-L., Precup D. (2013). Using Label Propagation for Learning Temporally Abstract Actions in Reinforcement Learning. Proceedings of the Workshop on Multiagent Interaction Networks (MAIN’2013). Available at: http://pierrelucbacon. com/bacon-2013-label_propagation.pdf (Accessed: 11.05.2020).
3. Tyumentsev Yu. V. (Ed.), Satton R. S., Barto E. G. (2014). Reinforcement training. 2nd ed. Moscow: BINOM. Laboratoriya znaniy. Available at: https://yadi.sk/i/ScoZdj3W3MNL7d (Accessed: 11.05.2020). [in Russian language]
4. Mnih V/ et al. (2015). Human-Level Control Through Deep Reinforcement Learning. Nature, Vol. 518, 7540, pp. 529 – 533. doi: 10.1038/nature14236
5. Foerster J. N. (2018). Deep Multi-Agent Reinforcement Learning [PhD thesis]. University of Oxford. Available at: https:// ora.ox.ac.uk/objects/uuid:a55621b3-53c0-4e1b-ad1c-92438b57ffa4 (Accessed: 11.05.2020).
6. Eremeev A. P., Podogov I. Yu. (2008). Generalized method of hierarchical reinforced learning for intelligent decision support systems. Programmnye produkty i sistemy, (2), pp. 35 – 39. [in Russian language]
7. Ahilan S., Dayan P. (2019). Feudal Multi-Agent Hierarchies for Cooperative Reinforcement Learning. Proceedings of the Workshop on Structure & Priors in Reinforcement Learning (SPiRL 2019) at ICLR 2019, pp. 1 – 11. New Orleans.
8. Tang H. et al. (2018). Hierarchical Deep Multiagent Reinforcement Learning with Temporal Abstraction. Available at: https://arxiv.org/abs/1809.09332 (Accessed: 11.05.2020).
9. Leibo J. Z. et al. (2017). Multi-Agent Reinforcement Learning in Sequential Social Dilemmas. Available at: https:// arxiv.org/abs/1702.03037 (Accessed: 11.05.2020).
10. Foerster J. et al. (2016). Learning to Communicate with Deep Multi-Agent Reinforcement Learning. Advances in Neural Information Processing Systems, pp. 2137 – 2145.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2020.06.pp.048-056

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2020.06.pp.048-056

and fill out the  form  

 

.

 

 

 
Поиск
Баннер
Баннер
Баннер
Журнал КОНТРОЛЬ. ДИАГНОСТИКА
Баннер
Баннер
Rambler's Top100 Яндекс цитирования