强化学习是近年来在人工智能技术中较高的一种研究方法,是一种接近人类及动物在大自然中所表现出的学习方式,通过人们不断实践和总结,形成了强化学习这一人工智能研究方法。
随着深度学习技术的流行,深度学习中的一些主流技术,如深度卷积神经网络、序列建模、记忆管理等与强化学习在许多应用场景上出现了结合点,例如使用DQN实现AI自动玩FlappyBird。强化学习技术目前仍面临训练环境与计算能力的瓶颈,相信随着科技的进一步发展,在未来十年它一定会成为人工智能领域的核心技术之一。本课程通过理论与案例实践相结合的方法,让学习者可以从最专业的角度来接触强化学习,学会使用这种先进的人工智能技术来应用于实际工作和学习中。
主办单位:北京市计算中心有限公司
协办单位:
北京市基因测序与功能分析工程技术研究中心
云计算关键技术与应用北京市重点实验室
工业和信息化人才培养工程培训基地
北京市大数据教学实践基地
举 办 地:北京市海淀区丰贤中路7号北科产业3号楼
课程安排:2024年8月22-23日(周四-周五) 上午9:30-11:30 下午13:30-17:00
日期 |
主题 |
内容 |
案例实践 |
第一天 上午 |
Python入门 |
1、Python基础 |
(1)Python下载 (2)Gym虚拟环境配置 (3)使用Gym搭建网格环境
|
强化学习入门 |
2、强化学习基本概念 3、强化学习与其他机器学习的关系 4、Gym实验环境基础知识 |
||
第一天 下午 |
强化学习算法入门 |
5、马尔可夫决策过程 6、动态规划 7、蒙特卡洛方法 8、时序差分 |
(4)使用策略迭代方法求解迷宫寻宝问题 (5)使用值迭代方法求解迷宫寻宝问题 (6)蒙特卡洛模拟Monty Hall(娱乐节目抽奖游戏) (7)SARSA时序差分算法训练 CartPole (8)Q-Learning算法求解复杂陷阱迷宫寻宝问题
|
第二天 上午 |
强化学习算法进阶 |
9、值函数逼近(DQN算法) 10、随机策略梯度(REINFORCE算法) 11、确定性策略梯度(DDPG算法) 12、AC算法及变种 |
(9)DQN实现“CartPole”平衡控制 (11)REINFORCE训练小车爬坡 (12)DDPG算法训练机械臂抓取方块 (13)AC算法实现“CartPole”平衡控制 (14)Mario-Ai:使用A3C算法实现Mario
|
第二天 下午 |
强化学习综合实践 |
13、博弈强化学习 14、蒙特卡洛树搜索 15、AlphaGo基本原理 16、AlphaGo Zero原理 |
(15)PyGame实现“五子棋”游戏环境 (16)蒙特卡洛树搜索(MCTS)代码实现 (17)AlphaGo Zero算法实现人机对弈
|
注:内容以实际发生为准;若调,会提前通知。
【报名费用】
注册费:2800元/人(含当期听课费、资料费、证书费、考试费(如有))。
提供当期视频回放以供复习使用(羽林学院平台)。
开具增值税发票,提供盖章通知、结业证书等相关材料。
【报名优惠政策】
1、3人以上团体报名每人可减少300元;
2、4+1团报,可免费赠送一个名额;
3、上面优惠政策不能同时享受,只能享受其中一种;
老学员参加及推荐学员参加均可额外优惠200元。
【报名回执】
【咨询请联系】
QQ号:2814500767
徐老师 010-59341786,15801436028(微信同号)
员老师 010-59341773,18701529461(微信同号)
【注】开课前一周会发送邮件通知;若未接到邮件通知,请电话咨询。