10.14489/vkit.2022.08.pp.026-036 |
DOI: 10.14489/vkit.2022.08.pp.026-036 Сакулин С. А., Алфимцев А. Н. Аннотация. В мультиагентном машинном обучении с подкреплением необходим синтез функции награды. При этом возникают трудности, связанные с отсутствием интуитивного видения процесса агрегирования у многих практических специалистов. В статье предложен метод синтеза функции награды на основе применения трехмерной когнитивной графики. Функция награды представлена в виде оператора агрегирования. Свойства этого оператора напрямую связаны со свойствами физического объекта, в отношении которого хорошо развито интуитивное представление. В качестве такого объекта выступает абсолютно твердая плоскость, закрепленная на линии опоры пружинами. Результату агрегирования соответствует угол отклонения плоскости от горизонта. Для проверки результативности предложенного метода поставлен эксперимент, в ходе которого реализован синтез функции награды в обучении с подкреплением агентов на основе этой функции в среде компьютерной игры StarCraft II. Обучение проводилось для существующей функции награды и для функции, построенной посредством синтеза. Ключевые слова: обучение с подкреплением; функция награды; мультиагентное обучение; формализация экспертных знаний; трехмерная когнитивная графика; виртуальная реальность; операторы агрегирования.
Sakulin S. A., Alfimtsev A. N. Abstract. In recent years, reinforcement learning methods have become increasingly important for many applied areas. Such learning assumes the presence of a reward function. The reward should be the higher, the more the agent’s behavior corresponds to the desired one. At the same time, in many cases, the reward function is built axiomatically, by expert selection of one of the most widely used functions based on a superficial analysis of the subject area. This situation is due to cognitive difficulties encountered by an expert in the process of constructing reward functions, especially for a large number of arguments. At the same time, the reward function can be represented as an aggregation operator, since the range of valid values of any criterion can be reduced to a unit interval by an appropriate linear transformation. Thus, the task of constructing a reward function can be reduced to the task of constructing an aggregation operator with given properties. To ensure the intuitive clarity of the process of constructing aggregation operators, a method for their visualization using 3D-cognitive graphics has been developed. This article proposes a method for synthesizing the reward function for reinforcement learning, which includes the mentioned visualization. The synthesis method includes two procedures, which are sequences of steps performed by an expert, each of which requires him to take specific actions. An experiment was set up to test the effectiveness of the developed method. During this experiment, the synthesis of the reward function and reinforcement learning of agents based on the synthesized function were implemented in the multiagent machine learning environment of the StarCraft II computer game. Training was conducted for the standard StarCraft II reward function and for the reward function built using the proposed procedure. Keywords: Reinforcement learning; Reward function; Multiagent learning; Expert knowledge formalization; 3D-cognitive graphics; Virtual reality; Aggregation operators.
РусС. А. Сакулин, А. Н. Алфимцев (Московский государственный технический университет имени Н. Э. Баумана, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngS. A. Sakulin, A. N. Alfimtsev (Bauman Moscow State Technical University, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Дубенко Ю. В., Дышкант Е. Е., Гура Д. А. Анализ иерархического обучения с подкреплением для реализации поведенческих стратегий интеллектуальных агентов // Вестник компьютерных и информационных технологий. 2020. Т. 17, № 9. С. 35 – 45. Eng1. Dubenko Yu. V., Dyshkant E. E., Gura D. A. (2020). Analysis of hierarchical learning with reinforcement for the implementation of behavioral strategies of intelligent agents. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, Vol. 17, (9), pp. 35 – 45. [in Russian language] DOI: 10.14489/vkit.2020.09.pp.035-045
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2022.08.pp.026-036 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2022.08.pp.026-036 and fill out the
.
|