PPO-强化学习算法

文章目录 Quick Facts Key Equations Exploration vs. Exploitation Pseudocode Documentaton PPO受到与TRPO相同的问题的激励:我们如何才能使用当前拥有的数据在策略上采取最大可能的改进步骤,而又不会走得太远而导致意外导致性能下降? 在TRPO试图通过复杂的二阶方法解决此问题的地方,PPO是一阶方法的族,它使用其他一些技巧
相关文章
相关标签/搜索