因为采样的不充分性和种种原因(环境v很少给reward),我们得到环境的回馈信息是很少的,这就是奖励稀疏(sparse reward)的问题。
所以第一种方法是我们可以人为构造/修正奖励。
某些情形如果让环境直接给出奖励,难以让好的行为得到学习。例如小学生在出去玩和学习这一当前时间步的选择,很难考虑到未来的月考成绩好坏这一远景的奖励。所以需要人为的重新构造一下奖励,例如加个棒棒糖鼓励学习等。
某些情形环境极少给出奖励。例如在枪战游戏中,对agent的跑动、开枪、血量等进行一个奖励的人工构造,能让agent变得越来越好。
好奇心是一个agent很重要的特质,在马尔可夫奖励过程中加入Intinsic curiosity model(ICM),能够激发agent的好奇心,即探索欲望。
ICM的构造图如下:
ICM鼓励对新的状态进行探索,且 r t i r_t^i rti在 s t + 1 s_{t+1} st+1极难出现时会有极大的奖励。但有些状态难出现但可能不是特别重要,例如在生存游戏中场景出现树叶飘动,针对这类问题,要告知agent场景中的哪些东西是重要的,于是产生了下图的ICM改进方案。
现在的ICM引入了一个场景过滤的函数 ϕ \phi ϕ,而由两个过滤后的状态 ϕ ( s t ) \phi(s_t) ϕ(st)和 ϕ ( s t + 1 ) \phi(s_{t+1}) ϕ(st+1),能够对动作 a t a_t at的选择进行指导。
学习要循序渐进,从易到难,agent的学习过程也是一样。我们要对它学的课程进行一个难易顺序的设计。
也叫反推演学习。算法流程如下:
分层强化学习,将最顶端的愿景分解为给下方的agent去完成的子目标。
注意: