菜鸟学院
深度强化学习DQN
时间 2020-12-27
DQN模型
输入的是处理后的连续帧图像(降维幅度图),经过卷积层层后接两个全连接层,输出是所有动作的Q值。
算法
1. NIPS 2013
2. Nature 2015
2.1 算法
2.2 流程图
3. 不足
由于Replay Memory原因:
无法应用于连续动作控制;
只能处理只需短时记忆问题,无法处理需长时记忆问题(后续研究提出了使用LSTM等改进方法);