强化学习——DQN算法

Off-Policy:会记忆之前的经验,依据经验做决策。 Experience replay:记忆库(用于重复学习) Fixed Q-targets:暂时冻结q_target函数(切断相关性) 这里边的q_target就是Q现实 两个神经网络是为了固定住一个神经网络 (target_net) 的参数, target_net 是 eval_net的一个历史版本, 拥有 eval_net 很久之前的一
相关文章
相关标签/搜索