Изменение пароля
Пользователь
anonymous
Текущий пароль
*
Новый пароль
*
Подтверждение
*
Запомнить меня
Забыли пароль?
Электронная библиотека (16+)
Впервые на сайте?
Вход
/
Регистрация
Национальный цифровой ресурс
Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 687529)
Для выхода нажмите Esc или
Введение в методы машинного обучения с подкреплением (326,00 руб.)
0
0
Первый автор
Медведев М. Ю.
Издательство
Ростов н/Д.: Изд-во ЮФУ
Страниц
219
326,00р
Предпросмотр
ID
947247
Аннотация
Cодержит теоретические сведения и практические задания учебного курса «Использование методов машинного обучения в разработке киберфизических систем», изучаемых магистрантами направлений «Мехатроника и робототехника», «Электротехника и электроэнергетика» Передовой инженерной школы Южного федерального университета. Последовательно рассматриваются следующие темы: классические методы обучения с учителем, глубокое обучение с учителем, архитектуры нейронных сетей, основные понятия обучения с подкреплением, метод динамического программирования, метод Монте-Карло, обучение на основе временных различий, приближенные методы аппроксимации функций ценности действий, приближенное управление и аппроксимация. Содержит теоретический материал, контрольные вопросы и задачи, практические задания для выполнения в среде Matlab или Python.
Кому рекомендовано
Предназначен для магистрантов, которые обучаются по программам магистратуры в области мехатроники и робототехники.
ISBN
978-5-9275-5006-7
УДК
004.8(075.8)
ББК
32.973я73
Медведев, М. Ю. Введение в методы машинного обучения с подкреплением : учебн. пособие / М. Ю. Медведев .— Ростов-на-Дону : Изд-во ЮФУ, 2025 .— 219 с. — ISBN 978-5-9275-5006-7 .— URL: https://rucont.ru/efd/947247 (дата обращения: 23.01.2026)
Вы уже смотрели
Квантовые нейронные сети
174,00 руб
Проектная деятельность в индустрии туриз...
120,00 руб
Предпросмотр (выдержки из произведения)
Резюме документа
Страницы
Текст
Введение_в_методы_машинного_обучения_с_подкреплением.pdf
Стр.3
Стр.214
Стр.215
Стр.216
Стр.217
Введение_в_методы_машинного_обучения_с_подкреплением.pdf
УДК 004.8(075.8) ББК 32.973я73 М42 Печатается по решению кафедры электротехники и мехатроники Передовой инженерной школы Южного федерального университета (протокол № 10 от 6 июня 2025 г.) Рецензенты: главный научный сотрудник ИПУ РАН им. В. А. Трапезникова, доктор технических наук, профессор Р. В. Мещеряков ведущий научный сотрудник НИИ робототехники и процессов управления Южного федерального университета, доктор технических наук Э. В. Мельник Медведев, М. Ю. М42 Введение в методы машинного обучения с подкреплением : учебное пособие / М. Ю. Медведев ; Южный федеральный университет. – Ростов-на-Дону ; Таганрог : Издательство Южного федерального университета, 2025. – 217 с. ISBN 978-5-9275-5006-7 Cодержит теоретические сведения и практические задания учебного курса «Использование методов машинного обучения в разработке киберфизических систем», изучаемых магистрантами направлений «Мехатроника и робототехника», «Электротехника и электроэнергетика» Передовой инженерной школы Южного федерального университета. Последовательно рассматриваются следующие темы: классические методы обучения с учителем, глубокое обучение с учителем, архитектуры нейронных сетей, основные понятия обучения с подкреплением, метод динамического программирования, метод Монте-Карло, обучение на основе временных различий, приближенные методы аппроксимации функций ценности действий, приближенное управление и аппроксимация. Содержит теоретический материал, контрольные вопросы и задачи, практические задания для выполнения в среде Matlab или Python. Предназначен для магистрантов, которые обучаются по программам магистратуры в области мехатроники и робототехники. УДК 004.8(075.8) ББК 32.973я73 ISBN 978-5-9275-5006-7 © Южный федеральный университет, 2025 © Медведев М. Ю., 2025 © Оформление. Макет. Издательство Южного федерального университета, 2025
Стр.3
СОДЕРЖАНИЕ ВВЕДЕНИЕ ........................................................................................................... 3 1. ОСНОВЫ МАШИННОГО ОБУЧЕНИЯ С УЧИТЕЛЕМ ............................. 5 1.1. Классификация методов машинного обучения .......................................... 5 1.2. Наивный байесовский классификатор ........................................................ 6 1.3. Деревья решений ........................................................................................... 9 1.4. Метод опорных векторов ............................................................................ 20 1.5. Линейная регрессия ..................................................................................... 23 1.6. Структурная схема обучения с учителем .................................................. 23 Контрольные вопросы к разделу 1 ................................................................... 24 2. ПРАКТИЧЕСКАЯ РАБОТА 1. ИССЛЕДОВАНИЕ НАИВНОГО БАЙЕСОВСКОГО КЛАССИФИКАТОРА ...................................................... 25 2.1. Задание к практической работе 1 ............................................................... 26 2.2. Варианты заданий к практической работе 1 ............................................. 27 3. ПРАКТИЧЕСКАЯ РАБОТА 2. ПОСТРОЕНИЕ ДЕРЕВА РЕШЕНИЙ .... 29 3.1. Задание к практической работе 2 ............................................................... 29 3.2. Варианты заданий к практической работе 2 ............................................. 32 Контрольные вопросы к практической работе 2 ............................................. 34 4. ГЛУБОКОЕ ОБУЧЕНИЕ С УЧИТЕЛЕМ. АРХИТЕКТУРЫ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ ................................................................ 35 4.1. Понятие глубокой нейронной сети ............................................................ 35 4.2. Структура сверточной нейронной сети ..................................................... 35 4.3. Операция свертки ........................................................................................ 36 4.4. Операция дополнения ................................................................................. 37 4.5. Операция объединения ............................................................................... 38 4.6. Выходные слои сверточной сети ............................................................... 39 4.7. Функции активации ..................................................................................... 39 4.8. Пример структуры сверточной нейронной сети ...................................... 39 4.9. Архитектура сети Resnet ............................................................................. 41 Контрольные вопросы к разделу 4 ................................................................... 44 5. ПРАКТИЧЕСКАЯ РАБОТА 3. ОБУЧЕНИЕ СВЕРТОЧНОЙ СЕТИ ЗАДАЧЕ ПЛАНИРОВАНИЯ ПУТИ ................................................................ 46 5.1. Задание к практической работе 3 ............................................................... 46 5.2. Пример выполнения практической работы .............................................. 47 213
Стр.214
Содержание 5.3. Варианты заданий к практической работе 3 ............................................ 51 Контрольные вопросы к практической работе 3 ............................................ 52 6. ОСНОВНЫЕ ПОНЯТИЯ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ ............... 53 6.1. Элементы обучения с подкреплением ...................................................... 53 6.2. Классификация методов обучения с подкреплением ............................. 54 6.3. Задача о k-руком бандите ........................................................................... 55 6.4. Метод ценности действий .......................................................................... 56 6.5. Итерационная форма оценки ценности действий ................................... 56 6.6. Доход и эпизоды ......................................................................................... 57 6.7. Стратегии и функции ценности ................................................................. 58 Контрольные вопросы к разделу 6 ................................................................... 60 7. ПРАКТИЧЕСКАЯ РАБОТА 4. ИССЛЕДОВАНИЕ ЗАДАЧИ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ НА ПРИМЕРЕ МНОГОРУКОГО БАНДИТА ........................................................................................................... 61 7.1. Описание задачи о многоруком бандите .................................................. 61 7.2. -жадная стратегия ...................................................................................... 63 7.3. Задание к практической работе 4 .............................................................. 66 7.4. Варианты к практической работе 4 ........................................................... 66 7.5. Пример выполнения практической работы 4 .......................................... 67 Контрольные вопросы к практической работе 4 ............................................ 70 8. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ И МОНТЕ – КАРЛО В ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ ............................................. 71 8.1. Марковский процесс принятия решений ................................................. 71 8.2. Метод динамического программирования ............................................... 73 8.3. Метод Монте – Карло. Оценивание ценности ......................................... 77 8.4. Метод Монте – Карло. Улучшение стратегии ......................................... 79 8.5. Метод Монте – Карло. Инкрементная форма оценивания ..................... 82 8.6. Улучшение стратегии методом МК с разделенной стратегией ............. 83 Контрольные вопросы к разделу 8 ................................................................... 83 9. ПРАКТИЧЕСКАЯ РАБОТА 5. ИССЛЕДОВАНИЕ ПРОЦЕССА ОЦЕНКИ ЦЕННОСТИ СОСТОЯНИЙ МЕТОДОМ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ ........................................... 85 9.1. Задание к практической работе 5 .............................................................. 85 9.2. Пример выполнения практической работы 5 .......................................... 86 214
Стр.215
Содержание 9.3. Варианты заданий к практической работе 5 ............................................. 87 Контрольные вопросы к практической работе 5 ............................................. 88 10. ПРАКТИЧЕСКАЯ РАБОТА 6. ИССЛЕДОВАНИЕ МЕТОДА МОНТЕ – КАРЛО В ОБУЧЕНИИ С ПОДКРЕПЛЕНИЕМ............................ 89 10.1. Задание к практической работе 6 ............................................................. 89 10.2. Пример выполнения практической работы 6 ......................................... 90 10.3. Варианты заданий к практической работе 6 ........................................... 93 11. ОБУЧЕНИЕ НА ОСНОВЕ ВРЕМЕННЫХ РАЗЛИЧИЙ .......................... 94 11.1. Предсказание методами временных различий ....................................... 94 11.2. Алгоритм SARSA ...................................................................................... 96 11.3. Алгоритм Expected SARSA ...................................................................... 97 11.4. Двойное обучение (DQ-обучение) ........................................................... 98 11.5. Многошаговое предсказание .................................................................... 99 11.6. n-шаговый алгоритм SARSA .................................................................. 101 Контрольные вопросы к разделу 11 ............................................................... 103 12. ПРАКТИЧЕСКАЯ РАБОТА 7. ИССЛЕДОВАНИЕ МЕТОДА Q-ОБУЧЕНИЯ ................................................................................................... 105 12.1. Описание задачи ...................................................................................... 105 12.2. Задание к практической работе 7 ........................................................... 106 12.3. Пример выполнения практической работы 7 ....................................... 108 12.4. Варианты к практической работе 7 ....................................................... 109 13. ПРАКТИЧЕСКАЯ РАБОТА 8. ИССЛЕДОВАНИЕ МЕТОДА Q-ОБУЧЕНИЯ С МОДЕЛЬЮ ......................................................................... 110 13.1. Краткие теоретические сведения ........................................................... 110 13.2. Описание задачи ...................................................................................... 111 13.3. Пример выполнения практической работы 8 ....................................... 114 13.4. Варианты к практической работе 8 ....................................................... 115 14. ПРИБЛИЖЕННЫЕ МЕТОДЫ АППРОКСИМАЦИИ ФУНКЦИИ ЦЕННОСТИ ...................................................................................................... 116 14.1. Задача аппроксимации функции ценности ........................................... 116 14.2. Стохастические градиентные и полуградиентные методы ................. 116 14.3. Линейная по параметрам аппроксимация ............................................. 118 14.4. Пример аппроксимации полиномами .................................................... 119 14.5. Радиально-базисные функции ................................................................ 120 215
Стр.216
Содержание 14.6. Нелинейная аппроксимация искусственными нейронными сетями . 121 14.7. Алгоритм TD наименьших квадратов .................................................. 122 14.8. Алгоритм аппроксимации с запоминанием ......................................... 122 14.9. Заинтересованность и значимость ........................................................ 123 Контрольные вопросы к разделу 14 ............................................................... 124 15. ПРАКТИЧЕСКАЯ РАБОТА 9. ИССЛЕДОВАНИЕ КЛАССИЧЕСКИХ И НЕЙРОСЕТЕВЫХ СПОСОБОВ АППРОКСИМАЦИИ ФУНКЦИИ ЦЕННОСТИ .......................................... 126 15.1. Описание задачи ..................................................................................... 126 15.2. Задание к практической работе 9 .......................................................... 127 15.3. Пример выполнения практической работы 9 ...................................... 129 15.4. Варианты к практической работе 9 ....................................................... 133 16. ПРАКТИЧЕСКАЯ РАБОТА 10. ИССЛЕДОВАНИЕ АЛГОРИТМА ГЛУБОКОГО Q-ОБУЧЕНИЯ В ЗАДАЧЕ ДВИЖЕНИЯ В ЦЕЛЕВУЮ ТОЧКУ .............................................................................................................. 134 16.1. Описание задачи ..................................................................................... 134 16.2. Задание к практической работе 10 ........................................................ 135 16.3. Пример выполнения практической работы 10 .................................... 136 16.4. Варианты к практической работе 10 ..................................................... 144 Контрольные вопросы к практической работе 10 ........................................ 144 17. ПРИБЛИЖЕННОЕ УПРАВЛЕНИЕ И АППРОКСИМАЦИЯ .............. 146 17.1. Эпизодический полуградиентный алгоритм SARSA .......................... 146 17.2. Использование среднего вознаграждения вместо обесценивания .......... 147 17.3. Расходимость полуградиентных методов с разделенной стратегией ......................................................................................................... 149 17.4. Основные причины расходимости ........................................................ 150 17.5. Геометрия линейной аппроксимации ................................................... 151 17.6. Градиентные методы для беллмановской ошибки .............................. 152 17.7. Градиентные TD-методы ....................................................................... 154 Контрольные вопросы к разделу 17 ............................................................... 154 ЗАКЛЮЧЕНИЕ ................................................................................................ 156 СПИСОК ЛИТЕРАТУРЫ ............................................................................... 157 ПРИЛОЖЕНИЯ ............................................................................................... 158 216
Стр.217
Облако ключевых слов *
* - вычисляется автоматически
Мы используем куки, чтобы сделать сайт удобней для вас.
Подробнее
Хорошо