Мультиагентное обучение с подкреплением (1500,00 руб.)

Первый автор	Алфимцев А. Н.
Издательство	М.: Изд-во МГТУ им. Н.Э. Баумана
Страниц	225

1500,00р Предпросмотр

ID	808478
Аннотация	Рассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на языке программирования Python с использованием библиотеки глубокого обучения PyTorch. Средой машинного обучения является компьютерная игра StarCraft II с интерфейсом кооперативного мультиагентного обучения SMAC.
Кем рекомендовано	Научно-методическим советом МГТУ им. Н.Э. Баумана в качестве учебного пособия
Кому рекомендовано	Для магистрантов и аспирантов направления подготовки «Информатика и вычислительная техника».
ISBN	978-5-7038-5851-6
УДК	004.85(075.8)
ББК	32.813я73

Алфимцев, А.Н. Мультиагентное обучение с подкреплением : учеб. пособие / А.Н. Алфимцев .— 2-е изд., испр. — Москва : Изд-во МГТУ им. Н.Э. Баумана, 2022 .— 225 с. : ил. — ISBN 978-5-7038-5851-6 .— URL: https://rucont.ru/efd/808478 (дата обращения: 15.07.2025)

Предпросмотр (выдержки из произведения)

Мультиагентное_обучение_с_подкреплением.pdf

Стр.2

Стр.220

Стр.221

Стр.222

Мультиагентное_обучение_с_подкреплением.pdf

УДК 004.85 ББК 32.813 А53 Издание доступно в электронном виде по адресу https://bmstu.press/catalog/item/7425/ Факультет «Информатика и системы управления» Кафедра «Информационные системы и телекоммуникации» Рекомендовано Научно-методическим советом МГТУ им. Н.Э. Баумана в качестве учебного пособия Алфимцев, А. Н. А53 Мультиагентное обучение с подкреплением : учебное пособие / А. Н. Алфимцев. — 2-е изд., испр. — Москва : Издательство МГТУ им. Н. Э. Баумана, 2022. — 222, [2] с. : ил. ISBN 978-5-7038-5851-6 Рассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на языке программирования Python с использованием библиотеки глубокого обучения PyTorch. Средой машинного обучения является компьютерная игра StarCraft II с интерфейсом кооперативного мультиагентного обучения SMAC. Для магистрантов и аспирантов направления подготовки «Информатика и вычислительная техника». УДК 004.85 ББК 32.813 ISBN 978-5-7038-5851-6 © МГТУ им. Н.Э. Баумана, 2022 © Оформление. Издательство МГТУ им. Н.Э. Баумана, 2022

Стр.2

Оглавление Предисловие ...................................................... Введение ......................................................... Глава 1. Независимое табличное обучение ............................ 1.1. Классификация ................................................ 1.2. Модель ....................................................... 1.3. Алгоритм ..................................................... 1.4. Карта ......................................................... 1.5. Технология .................................................... 1.6. Код .......................................................... 1.6.1. Алгоритм независимого табличного Q-обучения ............... 1.6.2. Тестирование Q-таблицы ................................... 1.7. Эксперимент .................................................. 1.8. Выводы ....................................................... 1.9. Задачи для самоконтроля ....................................... Глава 2. Обучение в матричных и стохастических играх ................. 2.1. Классификация ................................................ 2.2. Модель ....................................................... 2.2.1. Матричные игры .......................................... 2.2.2. Стохастические игры ....................................... 2.3. Алгоритм ..................................................... 2.3.1. Поиск экстремума стратегий (PHC) .......................... 2.3.2. «Выигрывай или учись быстро» (WoLF-PHC) ................. 2.3.3. Q-обучение Нэша (Nash-Q) ................................. 2.4. Карта ......................................................... 2.5. Технология .................................................... 2.6. Код .......................................................... 2.6.1. Алгоритм WoLF-PHC ...................................... 2.6.2. Алгоритм Nash-Q .......................................... 2.7. Эксперимент .................................................. 2.7.1. Матричные игры .......................................... 2.7.2. Стохастические игры ....................................... 2.8. Выводы ....................................................... 2.9. Задачи для самоконтроля ....................................... 3 5 9 9 11 14 16 22 23 23 27 28 31 32 34 34 37 37 39 42 42 44 46 48 51 52 52 57 66 66 69 70 70

Стр.220

Оглавление Глава 3. Нейросетевое обучение ..................................... 3.1. Классификация ................................................ 3.2. Модель ....................................................... 3.2.1. Глубокое Q-обучение ....................................... 3.2.2. Децентрализованные частично наблюдаемые марковские процессы принятия решений (Dec-POMDP) ....................... 3.2.3. Двойная декомпозиция Q-значений ......................... 3.2.4. Глубокий детерминированный градиент стратегий ............. 3.3. Алгоритмы .................................................... 3.3.1. Независимое глубокое обучение с использованием полносвязной нейронной сети (IQN) ................................... 3.3.2. Централизованное обучение с использованием сверточной нейронной сети (CDQN) ........................................ 3.3.3. Декомпозиция Q-значений c использованием рекуррентной нейронной сети (VDN) .......................................... 3.3.4. Мультиагентный глубокий детерминированный градиент стратегий (MADDPG) ........................................... 221 73 73 78 78 79 81 83 85 85 90 92 96 3.4. Карта ......................................................... 101 3.5. Технология .................................................... 104 3.6. Код .......................................................... 105 3.6.1. Алгоритм IQN ............................................. 105 3.6.2. Алгоритм VDN ............................................ 111 3.6.3. Алгоритм MADDPG ....................................... 121 3.7. Эксперимент .................................................. 130 3.7.1. Алгоритм IQN ............................................. 130 3.7.2. Алгоритм CDQN .......................................... 132 3.7.3. Алгоритм VDN ............................................ 133 3.7.4. Алгоритм MADDPG ....................................... 135 3.8. Выводы ....................................................... 137 3.9. Задачи для самоконтроля ....................................... 138 Глава 4. Эволюционное обучение .................................... 143 4.1. Классификация ................................................ 143 4.2. Модель ....................................................... 147 4.2.1. Нейроэволюция ........................................... 147 4.2.2. Коэволюция .............................................. 149 4.3. Алгоритмы .................................................... 151 4.3.1. Независимый генетический алгоритм (InGA) ................. 151 4.3.2. Коэволюционный алгоритм (CoE) ........................... 153 4.4. Карта ......................................................... 156 4.5. Технология .................................................... 159 4.6. Код .......................................................... 160 4.6.1. Алгоритм InGA ........................................... 160 4.6.2. Алгоритм CoE ............................................. 165

Стр.221

222 Оглавление 4.7. Эксперимент .................................................. 171 4.7.1. Алгоритм InGA ............................................ 171 4.7.2. Алгоритм CoE ............................................. 173 4.8. Выводы ....................................................... 174 4.9. Задачи для самоконтроля ....................................... 175 Глава 5. Роевое обучение ........................................... 179 5.1. Классификация ................................................ 179 5.2. Модель ....................................................... 182 5.2.1. Комбинаторная оптимизация ............................... 182 5.2.2. Роевая марковская модель принятия решений ................. 186 5.3. Алгоритм ..................................................... 187 5.4. Карта ......................................................... 190 5.5. Технология .................................................... 194 5.6. Код .......................................................... 195 5.7. Эксперимент .................................................. 202 5.8. Выводы ....................................................... 203 5.9. Задачи для самоконтроля ....................................... 204 Заключение ....................................................... 207 Литература ....................................................... 209 К главе 1 ....................................................... 209 К главе 2 ....................................................... 210 К главе 3 ....................................................... 212 К главе 4 ....................................................... 215 К главе 5 ....................................................... 218

Стр.222

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или

Мультиагентное обучение с подкреплением (1500,00 руб.)

Популярные

Предпросмотр (выдержки из произведения)

Облако ключевых слов *