DRL(一)——Supervised Learning and Imitation

写在前面

今天开始学习DRL了,其实RL还没完全看完……

大概总结一下

感觉这节课讲的内容是比较初级的一些方法,从标题就看得出来,Supervised Learning,和 Imitation。

教授先是讲了imitation,就是通过人类的training,建立data,然后智能体用这个data来模仿。这样当然有很多问题,比如training中的情况可能不会包含所有的情况,总是会有新的情况出现;再比如说training过程会出现一些错误,而这些错误可能会被智能体学到;还有一个问题,其实我还不太明白是什么意思,不同的action可能有相同的image……老师说后面会详细讲。
如下图,又被叫做behavior clone
在这里插入图片描述
然后,为了解决上面说的问题,可以通过在训练中不断出错然后纠正的方法来改善。
但是,当然这并不是一个很好的方法,还有问题:训练的轨迹和实际期望的轨迹会有偏差,当出现一点偏差,就会导致越来越大的偏差"drift",如下图:

在这里插入图片描述

然后介绍了解决上面问题 “distributional drift” 的方法——DAgger,算法如下:
在这里插入图片描述
The observation comes from policy, but the action actually comes from human.
但是,这种方法需要人来label DΠ ,这样非常不方便。