DRL(一)——Supervised Learning and Imitation

时间 2021-01-02

写在前面

今天开始学习DRL了，其实RL还没完全看完……

大概总结一下

感觉这节课讲的内容是比较初级的一些方法，从标题就看得出来，Supervised Learning，和 Imitation。

教授先是讲了imitation，就是通过人类的training，建立data，然后智能体用这个data来模仿。这样当然有很多问题，比如training中的情况可能不会包含所有的情况，总是会有新的情况出现；再比如说training过程会出现一些错误，而这些错误可能会被智能体学到；还有一个问题，其实我还不太明白是什么意思，不同的action可能有相同的image……老师说后面会详细讲。
如下图，又被叫做behavior clone

然后，为了解决上面说的问题，可以通过在训练中不断出错然后纠正的方法来改善。
但是，当然这并不是一个很好的方法，还有问题：训练的轨迹和实际期望的轨迹会有偏差，当出现一点偏差，就会导致越来越大的偏差"drift"，如下图：

然后介绍了解决上面问题 “distributional drift” 的方法——DAgger，算法如下：

The observation comes from policy, but the action actually comes from human.
但是，这种方法需要人来label D_Π ，这样非常不方便。