RL论文阅读10-me-RL2.2016

Tittle

image-20200523193629409

source

标签

  • Meta-Learning

总结

针对的问题

  • Data efficiency
  • Fast Learn

解决方法

把agent的学习过程视为一个可以使用标准的RL算法优化的objective,agent使用一个RNN网络来表示,接收past rewards, actions, terminations flags, observations. 它保留着某个MDP过程的所有episodes的信息。当训练好这个网络之后,利用RNN的记忆性,当在面对未见过的MDP时,RNN可以快速的适应新任务。

学习一个RL算法作为强化学习问题,所以称为 R L 2 RL^2

原理

image-20200523201047106

Notation:

n:某个特定的MDP允许的总的episode数量,上图是n = 2的情况。

trial: 某个MDP交互的一些列Episode

MDP服从分布 ρ M \rho_M

RNN的输入: a t , s t + 1 , r t , d t , h t + 1 a_t,s_{t+1},r_t,d_t,h_{t+1}

输出: h t + 2 , a t + 1 h_{t+2},a_{t+1}

不同的Trial间处理:

  • 注意不同episode间的处理。terminal的a不作为输出。

  • hidden state在episodes间保留,但是在不同的Trial间重置hidden state。

优化目标是最大化整个Trial的累计奖励。(注意不是单个episode)

策略优化使用的是TRPO方法。