位置:广州集思未来教育 > 学校动态 > 广州人工智能强化学习与推荐系统科研专题上线啦
课时安排: 7周在线小组科研学习+5周不限 时论文指导学习
Osman——卡内基梅隆大学(CMU)终身正教授
“多臂强盗”问题是概率论中的一个经典问题,亦是深度强化学习中的重要模块。人们针对解决此类不确定性序列决策问题,提出了“多臂强盗”算法框架(Multi-Armed Bandits,简称MAB,中文又译作“多臂”)。近年来这一算法框架因优异的性能和较少的反馈学习等优点,在推荐系统、信息检索到医疗保健和金融投资等诸多应用领域中受到了广泛关注。本课题正是以此框架为核心内容,学生将在参与的过程中深入了解算法的基础模型及应用,将认识到被广泛使用的上置信界算法(Upper Confidence Bound,简称UCB)及汤普森采样算法(Thompson Sampling Algorithms)。导师还将讲授自身在该领域的较新研究成果。
This is an introductory course on multi-armed bandits,which provides a sequential decision-making framework under uncertainty and has broad applications in recommendation systems,dynamic pricing,clinical trials,financial investments,etc.We will cover the classical multi-armed bandit model and its applications,several widely used algorithms proposed for its solution including the Explore-Then-Commit(ETC),Upper Confidence Bound(UCB)and Thompson Sampling(TS)Algorithms,performance analysis of these algorithms,and conclude the lectures with the recent work of the instructor on correlated and structured bandits.
尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/6968/news/651495/违者必究! 以上就是广州集思未来教育 小编为您整理 广州人工智能强化学习与推荐系统科研专题上线啦的全部内容。