【RL】7.Reward Issue

RL-Ch7-Reward Issue

因为采样的不充分性和种种原因(环境v很少给reward),我们得到环境的回馈信息是很少的,这就是奖励稀疏(sparse reward)的问题。

Reward Shaping

所以第一种方法是我们可以人为构造/修正奖励。

某些情形如果让环境直接给出奖励,难以让好的行为得到学习。例如小学生在出去玩和学习这一当前时间步的选择,很难考虑到未来的月考成绩好坏这一远景的奖励。所以需要人为的重新构造一下奖励,例如加个棒棒糖鼓励学习等。

某些情形环境极少给出奖励。例如在枪战游戏中,对agent的跑动、开枪、血量等进行一个奖励的人工构造,能让agent变得越来越好。

Curiosity

好奇心是一个agent很重要的特质,在马尔可夫奖励过程中加入Intinsic curiosity model(ICM),能够激发agent的好奇心,即探索欲望。

在这里插入图片描述

ICM的构造图如下:

在这里插入图片描述

ICM鼓励对新的状态进行探索,且 r t i r_t^i rti s t + 1 s_{t+1} st+1极难出现时会有极大的奖励。但有些状态难出现但可能不是特别重要,例如在生存游戏中场景出现树叶飘动,针对这类问题,要告知agent场景中的哪些东西是重要的,于是产生了下图的ICM改进方案。

在这里插入图片描述

现在的ICM引入了一个场景过滤的函数 ϕ \phi ϕ,而由两个过滤后的状态 ϕ ( s t ) \phi(s_t) ϕ(st) ϕ ( s t + 1 ) \phi(s_{t+1}) ϕ(st+1),能够对动作 a t a_t at的选择进行指导。

Curriculum Learning

学习要循序渐进,从易到难,agent的学习过程也是一样。我们要对它学的课程进行一个难易顺序的设计。

Reverse Curriculum Generation

在这里插入图片描述

也叫反推演学习。算法流程如下:

  1. 给定一个目标状态 s g s_g sg
  2. s g s_g sg附近取样一组 s 1 s_1 s1
  3. 尝试走出各个从 s 1 s_1 s1 s g s_g sg的轨迹(episode)
  4. 删除episode中reward太大(已经学会了)或太小(难以现在学会)的
  5. 再在余下的 s 1 s_1 s1的附近中取样 s 2 s_2 s2

Hierarchical Reinforcement Learning

分层强化学习,将最顶端的愿景分解为给下方的agent去完成的子目标。

注意:

  • 下方的agent如果不可以完成目标,则上方的agent会得到惩罚。
  • 下方的agent如果完成错误的目标,则说明顶端的愿景是错误的。