RL论文阅读10-me-RL2.2016

时间 2021-01-12 标签强化学习RL 人工智能

Tittle

总结

针对的问题

Data efficiency
Fast Learn

解决方法

把agent的学习过程视为一个可以使用标准的RL算法优化的objective，agent使用一个RNN网络来表示，接收past rewards, actions, terminations flags, observations. 它保留着某个MDP过程的所有episodes的信息。当训练好这个网络之后，利用RNN的记忆性，当在面对未见过的MDP时，RNN可以快速的适应新任务。

学习一个RL算法作为强化学习问题，所以称为 $RL^2$

原理

Notation：

n：某个特定的MDP允许的总的episode数量，上图是n = 2的情况。

trial: 某个MDP交互的一些列Episode

MDP服从分布 $\rho_M$

RNN的输入： $a_t,s_{t+1},r_t,d_t,h_{t+1}$

输出： $h_{t+2},a_{t+1}$

不同的Trial间处理：

注意不同episode间的处理。terminal的a不作为输出。
hidden state在episodes间保留，但是在不同的Trial间重置hidden state。

优化目标是最大化整个Trial的累计奖励。（注意不是单个episode）

策略优化使用的是TRPO方法。