Human-level control through deep reinforcement learning论文解读 

本知识库内容包括56分钟讲解视频、讲解文档及示例运行代码

论文解读完整文档(PDF版)及ppt可在张量无限官网下载:www.tensorinfinity.com

 

概述

本文提出了一种称为DQN的深度强化学习算法,用深度卷积神经网络表示强化学习中的Q函数,直接根据原始的图像数据预测出这个值,用于策略控制。这是2013DQN文章的改进,除了使用经验回放机制之外,本文还提出了固定Q函数的策略,使用另外一个Q网络-称为目标Q网络来计算训练Q网络时的目标函数值,目标Q网络周期性的与Q网络进行同步。


强化学习为智能体(即强化学习算法)如何在环境中执行动作以达到最优控制提供了一个规范的解释,它根植于研究动物行为的心理学和神经科学,包括行为主义心理学。但要在现实世界这样复杂的场景中成功的使用强化学习,智能体需要面临一个复杂的任务:从高维的场景数据中(如图像,声音)抽象出环境的有效表示(即强化学习中的状态,如目标的位置,速度),然后利用这些数据将过去的经验推广到新的场景中。值得注意的是,人和动物是通过将强化学习与分层的场景数据处理系统相结合而解决此问题的。前者已经由对大量神经数据的研究所揭示的结论而证实:多巴胺神经元所发出的相位信号与时序差分强化学习算法有高度一致性。


虽然强化学习算法之前已经在很多领域里取得了成功,但这些都限定在那些可以人工抽取出有用的环境特征表示、能完整的观测到环境的状态、环境的状态是低维数据空间的问题。本文用最近几年训练深度神经网络的进展而开发了一个强化学习算法,称为深度Q网络,即DQN。通过端到端的强化学习,可以直接从场景输入数据如图像中学习得到一个成功的策略。


作者在富有挑战性的领域-Atari 2600游戏上对这个算法进行了测试。实验结果证明,仅仅以原始的游戏画面像素数据和游戏得分作为输入,在49个游戏上,深度Q网络就可以超过之前最好的算法,并且和专业的人类玩家水平相当。需要强调的是,在各个游戏中,使用了相同的算法,神经网络结构,超参数,因此本文提出的方法具有很强的通用性。这个算法在高维的场景数据与动作之间架起了桥梁,结果诞生出了第一个能在各种不同的任务上进行学习并达到很好的效果的人工智能算法。



Human-level control through deep reinforcement解读.pdf

购买观看完整解读及视频