深度强化学习


深度解读深度强化学习领域开山之作DQN2013以及DeepMind发布的经典论文,挖掘两种算法的原理、核心思路以及优化改进。

        

课程难度

中级

已经参加学习的人数

49

课程主讲师

雷老师

学习次数

768

课程简介
《Playing Atari with Deep Reinforcement Learning》第一次提出了通过强化学习的手段使用深度神经网络直接从高维场景数据中学习得到控制策略的方法,是深度强化学习真正意义上的开山之作。本集首先介绍了背景和要解决的问题,紧接着介绍了强化学习、马尔科夫决策过程,策略函数、累积回报,状态价值函数,动作价值函数,时序差分素昂啊,Q学习算法等关键知识点,随后介绍了DQN的核心思路和结构设计,最后主要介绍了DQN的算法实现并与其它算法做了比较。


《Human-level control through deep reinforcement learning》提出了一种称为DQN的深度强化学习算法,用深度卷积神经网络表示强化学习中的Q函数,直接根据原始的图像数据预测出这个值,用于策略控制。在上一篇文章的基础上做了改进,除了使用经验回放机制之外,提出了固定Q函数的策略。在介绍完强化学习背景知识后,导师从文章要解决的问题作为切入点,详细介绍了DQN的算法结构以及实现中的一些细节,如超参数以及收敛性等,最后与其它方法做了比较和总结。

课程大纲

第 1 集深度强化学习试听

  • 1.1 DQN2013简介
  • 1.2 DQN2015简介

第 2 集Playing Atari with Deep Reinforcement Learning

  • 2.1 简介
  • 2.2 整体介绍
  • 2.3 解决的主要问题
  • 2.4 所需的背景知识
  • 2.5 强化学习简介
  • 2.6 马尔可夫决策过程
  • 2.7 策略函数
  • 2.8 累计回报
  • 2.9 状态价值函数
  • 2.10 动作价值函数
  • 2.11 时序差分算法
  • 2.12 Q学习算法
  • 2.13 本文要解决的核心问题
  • 2.14 之前的方法
  • 2.15 存在的问题
  • 2.16 DQN的核心思路
  • 2.17 Q网络结构
  • 2.18 DQN的训练算法
  • 2.19 DQN的预测算法
  • 2.20 实验细节
  • 2.21 训练算法收敛性分析
  • 2.22 Q函数可视化
  • 2.23 与其他方法的比较
  • 2.24 总结

第 3 集Human-level control through deep reinforcement learning

  • 3.1 简介
  • 3.2 整体介绍
  • 3.3 问题简介
  • 3.4 主要贡献
  • 3.5 强化学习背景知识
  • 3.6 主要问题
  • 3.7 DQN的整体结构
  • 3.8 训练算法
  • 3.9 Q网络结构
  • 3.10 实现细节
  • 3.11 实验简介
  • 3.12 超参数
  • 3.13 算法收敛性分析
  • 3.14 与其他方法的比较
  • 3.15 Q网络特征可视化
  • 3.16 总结

Q & A

授课方式是?

为了保障课程质量,提高学习效率, 课程采用录播形式。视频精心录制与剪辑制作,时间比直播更灵活,方便随时观看学习。

学习本课程,有什么前置要求么?

一定的数学基础,至少会一门编程语言。

课程周期是多久?

为了让大家在一定时间内集中精力学习,本课程有效期有6个月。

遇到问题可以咨询么?

本课程为专题课程,不提供在线答疑服务。

如何开取发票?

扫描下方二维码,联系小编即可。

如何延长有效期?

课课程到期后,电脑端登录官网可以续费,续费价格是官网原价的5%,有效期半年。


更多问题、课程咨询、资料获取,扫码找小编






 课程咨询