Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634932)
Контекстум
Руконтекст антиплагиат система

Мультиагентное обучение с подкреплением (1500,00 руб.)

0   0
Первый авторАлфимцев А. Н.
ИздательствоМ.: Изд-во МГТУ им. Н.Э. Баумана
Страниц225
ID808478
АннотацияРассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на языке программирования Python с использованием библиотеки глубокого обучения PyTorch. Средой машинного обучения является компьютерная игра StarCraft II с интерфейсом кооперативного мультиагентного обучения SMAC.
Кем рекомендованоНаучно-методическим советом МГТУ им. Н.Э. Баумана в качестве учебного пособия
Кому рекомендованоДля магистрантов и аспирантов направления подготовки «Информатика и вычислительная техника».
ISBN978-5-7038-5851-6
УДК004.85(075.8)
ББК32.813я73
Алфимцев, А.Н. Мультиагентное обучение с подкреплением : учеб. пособие / А.Н. Алфимцев .— 2-е изд., испр. — Москва : Изд-во МГТУ им. Н.Э. Баумана, 2022 .— 225 с. : ил. — ISBN 978-5-7038-5851-6 .— URL: https://rucont.ru/efd/808478 (дата обращения: 27.04.2024)

Предпросмотр (выдержки из произведения)

Мультиагентное_обучение_с_подкреплением.pdf
УДК 004.85 ББК 32.813 А53 Издание доступно в электронном виде по адресу https://bmstu.press/catalog/item/7425/ Факультет «Информатика и системы управления» Кафедра «Информационные системы и телекоммуникации» Рекомендовано Научно-методическим советом МГТУ им. Н.Э. Баумана в качестве учебного пособия Алфимцев, А. Н. А53 Мультиагентное обучение с подкреплением : учебное пособие / А. Н. Алфимцев. — 2-е изд., испр. — Москва : Издательство МГТУ им. Н. Э. Баумана, 2022. — 222, [2] с. : ил. ISBN 978-5-7038-5851-6 Рассмотрены современные и классические алгоритмы одновременного машинного обучения множества агентов, основанные на теории игр, табличных, нейросетевых, эволюционных и роевых технологиях. Представлено последовательное развитие теоретической модели алгоритмов, базирующееся на марковских процессах принятия решений. Реализация алгоритмов выполнена на языке программирования Python с использованием библиотеки глубокого обучения PyTorch. Средой машинного обучения является компьютерная игра StarCraft II с интерфейсом кооперативного мультиагентного обучения SMAC. Для магистрантов и аспирантов направления подготовки «Информатика и вычислительная техника». УДК 004.85 ББК 32.813 ISBN 978-5-7038-5851-6 © МГТУ им. Н.Э. Баумана, 2022 © Оформление. Издательство МГТУ им. Н.Э. Баумана, 2022
Стр.2
Оглавление Предисловие ...................................................... Введение ......................................................... Глава 1. Независимое табличное обучение ............................ 1.1. Классификация ................................................ 1.2. Модель ....................................................... 1.3. Алгоритм ..................................................... 1.4. Карта ......................................................... 1.5. Технология .................................................... 1.6. Код .......................................................... 1.6.1. Алгоритм независимого табличного Q-обучения ............... 1.6.2. Тестирование Q-таблицы ................................... 1.7. Эксперимент .................................................. 1.8. Выводы ....................................................... 1.9. Задачи для самоконтроля ....................................... Глава 2. Обучение в матричных и стохастических играх ................. 2.1. Классификация ................................................ 2.2. Модель ....................................................... 2.2.1. Матричные игры .......................................... 2.2.2. Стохастические игры ....................................... 2.3. Алгоритм ..................................................... 2.3.1. Поиск экстремума стратегий (PHC) .......................... 2.3.2. «Выигрывай или учись быстро» (WoLF-PHC) ................. 2.3.3. Q-обучение Нэша (Nash-Q) ................................. 2.4. Карта ......................................................... 2.5. Технология .................................................... 2.6. Код .......................................................... 2.6.1. Алгоритм WoLF-PHC ...................................... 2.6.2. Алгоритм Nash-Q .......................................... 2.7. Эксперимент .................................................. 2.7.1. Матричные игры .......................................... 2.7.2. Стохастические игры ....................................... 2.8. Выводы ....................................................... 2.9. Задачи для самоконтроля ....................................... 3 5 9 9 11 14 16 22 23 23 27 28 31 32 34 34 37 37 39 42 42 44 46 48 51 52 52 57 66 66 69 70 70
Стр.220
Оглавление Глава 3. Нейросетевое обучение ..................................... 3.1. Классификация ................................................ 3.2. Модель ....................................................... 3.2.1. Глубокое Q-обучение ....................................... 3.2.2. Децентрализованные частично наблюдаемые марковские процессы принятия решений (Dec-POMDP) ....................... 3.2.3. Двойная декомпозиция Q-значений ......................... 3.2.4. Глубокий детерминированный градиент стратегий ............. 3.3. Алгоритмы .................................................... 3.3.1. Независимое глубокое обучение с использованием полносвязной нейронной сети (IQN) ................................... 3.3.2. Централизованное обучение с использованием сверточной нейронной сети (CDQN) ........................................ 3.3.3. Декомпозиция Q-значений c использованием рекуррентной нейронной сети (VDN) .......................................... 3.3.4. Мультиагентный глубокий детерминированный градиент стратегий (MADDPG) ........................................... 221 73 73 78 78 79 81 83 85 85 90 92 96 3.4. Карта ......................................................... 101 3.5. Технология .................................................... 104 3.6. Код .......................................................... 105 3.6.1. Алгоритм IQN ............................................. 105 3.6.2. Алгоритм VDN ............................................ 111 3.6.3. Алгоритм MADDPG ....................................... 121 3.7. Эксперимент .................................................. 130 3.7.1. Алгоритм IQN ............................................. 130 3.7.2. Алгоритм CDQN .......................................... 132 3.7.3. Алгоритм VDN ............................................ 133 3.7.4. Алгоритм MADDPG ....................................... 135 3.8. Выводы ....................................................... 137 3.9. Задачи для самоконтроля ....................................... 138 Глава 4. Эволюционное обучение .................................... 143 4.1. Классификация ................................................ 143 4.2. Модель ....................................................... 147 4.2.1. Нейроэволюция ........................................... 147 4.2.2. Коэволюция .............................................. 149 4.3. Алгоритмы .................................................... 151 4.3.1. Независимый генетический алгоритм (InGA) ................. 151 4.3.2. Коэволюционный алгоритм (CoE) ........................... 153 4.4. Карта ......................................................... 156 4.5. Технология .................................................... 159 4.6. Код .......................................................... 160 4.6.1. Алгоритм InGA ........................................... 160 4.6.2. Алгоритм CoE ............................................. 165
Стр.221
222 Оглавление 4.7. Эксперимент .................................................. 171 4.7.1. Алгоритм InGA ............................................ 171 4.7.2. Алгоритм CoE ............................................. 173 4.8. Выводы ....................................................... 174 4.9. Задачи для самоконтроля ....................................... 175 Глава 5. Роевое обучение ........................................... 179 5.1. Классификация ................................................ 179 5.2. Модель ....................................................... 182 5.2.1. Комбинаторная оптимизация ............................... 182 5.2.2. Роевая марковская модель принятия решений ................. 186 5.3. Алгоритм ..................................................... 187 5.4. Карта ......................................................... 190 5.5. Технология .................................................... 194 5.6. Код .......................................................... 195 5.7. Эксперимент .................................................. 202 5.8. Выводы ....................................................... 203 5.9. Задачи для самоконтроля ....................................... 204 Заключение ....................................................... 207 Литература ....................................................... 209 К главе 1 ....................................................... 209 К главе 2 ....................................................... 210 К главе 3 ....................................................... 212 К главе 4 ....................................................... 215 К главе 5 ....................................................... 218
Стр.222

Облако ключевых слов *


* - вычисляется автоматически
Антиплагиат система на базе ИИ