Сергей Николенко. Обучение с подкреплением (Видео)

Сергей Николенко. Обучение с подкреплением (Видео)

Сергей Николенко (ПОМИ РАН, ВШЭ, Neuromation) 5 декабря прочитал миникурс «Обучение с подкреплением: от определений до AlphaZero и Dactyl» в Computer Science Club.

Машинное обучение обычно делится на обучение с учителем и без оного. Обучение с подкреплением — это «третий путь», в котором обучающийся агент взаимодействует с окружением, получая от него награды или наказания за свои действия. Обучение с подкреплением в последние годы производит много громких новостей: только в играх мы уже слышали об AlphaGo, AlphaZero, MuZero, AlphaStar, OpenAI Five и многом другом, а это только одно применение… В мини-курсе рассказывается об основных постановках задач в обучении с подкреплением, и разбирается, как в обучение с подкреплением вошли глубокие нейронные сети, — стараясь дойти до самых последних результатов.

 

Обновлено: этот же материал, с разбивкой на две лекции:

Обучение с подкреплением: от определений до AlphaZero и Dactyl, лекция 1. С.Николенко
Обучение с подкреплением: от определений до AlphaZero и Dactyl, лекция 2. С.Николенко
Страница курса в Computer Science Club: Обучение с подкреплением: от определений до AlphaZero и Dactyl