2020李宏毅学习笔记——71 RL Advanced Version7.Sparse Reward

Reward Shaping
当reward的分布非常分散时,对于机器而言学习如何行动会十分困难。
比如说要让一个机器人倒水进水杯里,如果不对机器人做任何指导,可能它做很多次尝试,reward都一直是零。(不知道杯子在哪,不知道拿着手上的水壶干嘛,不知道水壶靠近杯子之后应该怎么做)
因此,在训练或指导一个actor去做你想要它做的事情时,需要进行reward shaping

好奇
在这里插入图片描述
在原来的模型当中,actor与环境做互动,根据环境给的state,采取一定的action,并得到reward。而新的模型引入了一个新的函数,ICM(图中的橙色部分)
ICM函数的全称为 Intrinsic curiosity module,是用来为actor生成好奇感的函数,它的网络结构如下:在这里插入图片描述
在这个模型中,两个网络 network1 和 network2 是单独进行训练的。

Network 1:将提取的at 和st 的特征作为输入,输出 st+1 的提取特征的估计。然后真实的st+1的提取特征用来与估计值比较,得到两者之间的差别。两者差别越大则reward ri 越大,也就是说,模型鼓励actor去冒险。

Network2::用来提取与action相关的游泳的特征,输入st和st+1的ϕ值,输出估计的action atˆ ,如果估计的action和真实的action at 接近,则 ϕ可以用来提取有用的特征。

注意:当没有network 2的时候,由network 1给出来的较大的reward意味着 st+1很难预测,模型会鼓励actor去冒这个险,但有的时候很难预测的这个state可能是一点都不重要的,因此需要引入network 2来进行重要性计算。比如说,在一个游戏中,对于游戏背景并不会进行太多的state的规定,如果有的时候机器学习到站在一棵树下会导致state难以预测,那么就可能会一直站在树下,但是这一行为对于游戏而言完全没有意义,因此不予考虑。
课程式学习
意味着学习的任务从简单到困难(为机器设计一套课程计划)

比如前文提到的机器人倒水的例子,最开始可以人引导机器人手臂到杯子的附近,教它做倒水的动作,之后再慢慢改变水杯,水壶等变量,让机器从简单学到复杂。

在这里插入图片描述 级联强化学习 如果低一层的agent没法达到目标,那么高一层的agent会受到惩罚(高层agent将自己的愿景传达给底层agent) 如果一个agent到了一个错误的目标,那就假设最初的目标本来就是一个错误的目标(保证已经实现的成果不被浪费)