强化学习算法DQN

1 DQN的引入

  因为q_learning算法是一直更新一张q_table,在场景复杂的状况下,q_table就会大到内存处理的极限,并且在当时深度学习的火热,有人就会想到能不能将从深度学习中借鉴方法,将深度学习的方法应用到强化学习中。13年,谷歌的deepmind团队就发表了关于DQN算法的论文,促进了强化学习的发展,扩展了强化学习的应用场景。算法

2 将深度学习应用到强化学习的挑战

  将深度学习应用到强化学习上主要有两大挑战,下面具体说明这两种挑战是什么网络

2.1 第一个挑战是关于样本的分布:

  深度学习可以收敛的一大主要缘由就是数据集要求独立同分布,只有数据集独立同分布,运用深度学习训练出来的模型才能更好的拟合数据集中潜在的模型,才能获得理想的结果。可是强化学习是从reward中学习,从一系列高度相关的状态中学习,并且强化学习中的智能体随着算法学习到新的行为,数据分布可能会发生改变,存在不能收敛的结果。想要将深度学习算法应用到强化学习中就必须解决强化学习的问题,切断状态的相关性,使数据集的分布稳定。学习

2.2 第二个挑战是关于学习的方式:

  深度学习是标准的监督式学习,在训练以前,想要训练获得的理想模型的目标就已经暗中存在,深度学习经过一次次的迭代,使算法收敛,寻到理想的模型。然而强化学习是从稀疏,有噪声,有延迟的标量的奖励信号中学习,想要将深度学习的算法应用用强化学习中就必须为强化学习设计每一步更新迭代的目标。设计

3 关于上述挑战的两个解决办法

3.1 解决样本分布问题

  谷歌deepmind的这篇论文中介绍了一种解决样本分布问题的方法:经验重放机制(repaly mechanism)。blog

  首先agent会被初始化一个状态s,将状态s输入到评价网络中(一个神经网络,后文介绍),输出每一个动做的q值,agent经过q值和探索利用(exploration and exploitation)算法来选择在本状态执行的行动action,最后将s,action做用与环境中,环境会反馈给agent此状态执行action的reward和下一个状态s'。此时就到了一个序列(s, a, r, s'),其中s 为本次状态,a 为状态s时的执行的动做,r 为在状态s执行动做a环境反馈给agent的奖赏,s' 是下一个状态。一个序列(s , a, r, s')就构成了一个训练样本。内存

  首先规定经验池的大小为N,即只有N个最新的序列存在经验池中,大于N的序列会重头覆盖经验池中的样本。在每次更新神经网络参数时就用经验池中数据。get

  经验池的存在,使高度相关的一系列的状态变成了一个个离散的数据样本,减少了训练的方差,同时使样本的分布趋于稳定,有利于算法的收敛,agent还能像人同样,能够从本身的历史经验中学习。深度学习

3.2 解决有监督问题

  为了解决强化学习和有监督学习的深度学习之间的矛盾,这篇论文中设计了两个神经网络,it

  一个神经网络为预测网络:输入本次的状态,即样本序列中的第一个元素s,输出每一个动做预测的q值,agent就是利用输出的每一个动做的q值来决定本状态要执行的动做,本网络的参数随时更新。  io

  另外一个网络为评价网络:输入为下一个状态,即样本序列中的第四个元素s',输出为状态s'是每一个动做的q值(q_next),而后利用贝尔曼方程(q_target=r+γ*max(q_next))计算出状态s时执行动做a的目标q值。

  评价网络的输出通过贝尔曼方程,计算结果的目标q值可做为预测网络的label,这样就解决了有监督的深度学习和没有监督的强化学习之间的矛盾。

  为了抑制状态之间相关性的问题,评价网络的参数并不会实时更新,在必定步数以后,预测网络会将本身的参数复制为评价网络。

4 算法流程

4.1 算法的总体逻辑

 4.2 算法的学习逻辑