李宏毅强化学习学习笔记-policy gradient and PPO

时间 2021-01-12 标签深度学习强化学习

1、强化学习policy gradient中，为什么需要将reward减去一个baseline？

策略梯度在进行优化的时候，使用的都是对数据进行采样，当所有的奖励都是正的时候，会对所有的梯度方向都鼓励，但是是进行归一化的，所以对那些奖励较少的方向，起到了抑制的效果。但是由于采样操作，当高奖励的动作没有sample到的时候，那些低奖励的动作就被鼓励执行了。