2020李宏毅学习笔记——71 RL Advanced Version7.Sparse Reward

时间 2021-01-04

Reward Shaping
当reward的分布非常分散时，对于机器而言学习如何行动会十分困难。
比如说要让一个机器人倒水进水杯里，如果不对机器人做任何指导，可能它做很多次尝试，reward都一直是零。（不知道杯子在哪，不知道拿着手上的水壶干嘛，不知道水壶靠近杯子之后应该怎么做）
因此，在训练或指导一个actor去做你想要它做的事情时，需要进行reward shaping

好奇

在原来的模型当中，actor与环境做互动，根据环境给的state，采取一定的action，并得到reward。而新的模型引入了一个新的函数，ICM（图中的橙色部分）
ICM函数的全称为 Intrinsic curiosity module，是用来为actor生成好奇感的函数，它的网络结构如下：
在这个模型中，两个网络 network1 和 network2 是单独进行训练的。

Network 1：将提取的at 和st 的特征作为输入，输出 st+1 的提取特征的估计。然后真实的st+1的提取特征用来与估计值比较，得到两者之间的差别。两者差别越大则reward ri 越大，也就是说，模型鼓励actor去冒险。

Network2:：用来提取与action相关的游泳的特征，输入st和st+1的ϕ值，输出估计的action atˆ ，如果估计的action和真实的action at 接近，则 ϕ可以用来提取有用的特征。

注意：当没有network 2的时候，由network 1给出来的较大的reward意味着 st+1很难预测，模型会鼓励actor去冒这个险，但有的时候很难预测的这个state可能是一点都不重要的，因此需要引入network 2来进行重要性计算。比如说，在一个游戏中，对于游戏背景并不会进行太多的state的规定，如果有的时候机器学习到站在一棵树下会导致state难以预测，那么就可能会一直站在树下，但是这一行为对于游戏而言完全没有意义，因此不予考虑。
课程式学习
意味着学习的任务从简单到困难（为机器设计一套课程计划）

比如前文提到的机器人倒水的例子，最开始可以人引导机器人手臂到杯子的附近，教它做倒水的动作，之后再慢慢改变水杯，水壶等变量，让机器从简单学到复杂。

级联强化学习如果低一层的agent没法达到目标，那么高一层的agent会受到惩罚（高层agent将自己的愿景传达给底层agent）如果一个agent到了一个错误的目标，那就假设最初的目标本来就是一个错误的目标（保证已经实现的成果不被浪费）