李宏毅强化学习学习笔记-policy gradient and PPO

1、强化学习policy gradient中,为什么需要将reward减去一个baseline?

策略梯度在进行优化的时候,使用的都是对数据进行采样,当所有的奖励都是正的时候,会对所有的梯度方向都鼓励,但是是进行归一化的,所以对那些奖励较少的方向,起到了抑制的效果。但是由于采样操作,当高奖励的动作没有sample到的时候,那些低奖励的动作就被鼓励执行了。