强化学习Proximal Policy Optimization (PPO) 原理

时间 2021-01-16 标签强化学习和深度学习 # 理论知识

Proximal Policy Optimization (PPO)

所谓 on-policy 指我们学习的 agent（即actor）和与环境交互的 agent 是相同的，即 agent 一边和环境互动，一边学习；

而 off-policy 指我们学习的 agent 与环境交互的 agent 是不同的，即 agent 通过看别人玩游戏来学习。

On-policy的不足：

使用actor$\pi $ $\pi$