视频地址:https://www.bilibili.com/video/av63546968?p=2
课件地址:http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
Proximal Policy Optimization (PPO)
所谓 on-policy 指我们学习的 agent(即actor) 和与环境交互的 agent 是相同的,即 agent 一边和环境互动,一边学习;
而 off-policy 指我们学习的 agent 与环境交互的 agent 是不同的,即 agent 通过看别人玩游戏来学习。
On-policy的不足:
使用actor$\pi $