RL论文阅读21-MB-PILCO2011

1. Tittle 2011

image-20201103095130196

2. 标签

  • model based

  • planning

  • data efficient

  • continuous / discrete

3. 总结

MB类算法,一个关键问题在于减少模型的偏差。一个模型偏差过大,那么使用这个模型进行planning必然不准确。PILCO减少误差的方式是学习一个基于概率的动力学模型,并且在进行long-term planning 时,引入了模型的不确定性(model uncertainty)

PILCO可以使用很少的数据并且在少数尝试之后完成任务。

PICO的两个创新点:

  1. 动力学模型是基于概率的,使用的是非参数化的概率模型,GPs模型

image-20201103100957323

可见,deterministic类方法只能输出一种可能结果(一条线),而基于概率的估计能很好的确定区间。

  1. model uncertainty引入到planning和policy envaluation中。

    planning 是用来考虑接下来怎么走的。policy envaluation是用来评估这么走所能达到的收益的。

    不需要一个value function model来进行policy envaluation了,因为Deterministic approximate inference techniques允许我们基于分析梯度来进行策略搜索。

    PILCO 对于model uncertainty的处理时认为成一个无关的噪声干扰

细节

  1. 动力学模型表示:

image-20201103104544391

x t x_t xt代表t时刻状态

u t u_{t} ut代表t时刻动作

f f f环境动力学模型

动力学模型使用的是GP model。预测输入为x,u,输出为 △ t = x t − x t − 1 + ϵ ∈ R D \triangle _t = x_t-x_{t-1} + \epsilon \in R^D t=xtxt1+ϵRD (前后状态差值加上噪声)

细节推导见原论文

image-20201103110433925·

  1. 策略评估:

    目标是为了找到一个策略/Controller π \pi π, 完成从状态x到动作u的映射: u = π ( x ) u = \pi(x) u=π(x),同时能够最小化return的期望 J

    image-20201103105043412

    c ( x t ) c(x_t) c(xt)是状态t时刻状态x的损失,负的。(也就是到达某个状态的reward)

去计算(2)式的J,需要对于状态的长期预测,因为计算期望需要知道每个状态的概率,我们不得不利用上一步预测的结果进行下一步的预测,如(3)-(5)。

整体过程就是

​ 1.来计算action u的均值和协方差,也就是动作的分布p(u)的两个关键系数 (这一步使用策略pi)

​ 2. 计算互协方差函数

​ 3. 通过估计state-control的节点分布。使用x和u以及互协方差 (使用动力学模型)

  1. 通过分析梯度来提升策略

image-20201103204541901