RL论文阅读21-MB-PILCO2011

时间 2021-06-05 标签强化学习RL 人工智能

1. Tittle 2011

MB类算法，一个关键问题在于减少模型的偏差。一个模型偏差过大，那么使用这个模型进行planning必然不准确。PILCO减少误差的方式是学习一个基于概率的动力学模型，并且在进行long-term planning 时，引入了模型的不确定性（model uncertainty）

PILCO可以使用很少的数据并且在少数尝试之后完成任务。

PICO的两个创新点：

可见，deterministic类方法只能输出一种可能结果（一条线），而基于概率的估计能很好的确定区间。

x t x_t xt代表t时刻状态

u t u_{t} ut代表t时刻动作

f f f环境动力学模型

动力学模型使用的是GP model。预测输入为x,u,输出为 △ t = x t − x t − 1 + ϵ ∈ R D \triangle _t = x_t-x_{t-1} + \epsilon \in R^D △t=xt−xt−1+ϵ∈RD （前后状态差值加上噪声）

细节推导见原论文

策略评估：

目标是为了找到一个策略/Controller π \pi π，完成从状态x到动作u的映射： u = π ( x ) u = \pi(x) u=π(x)，同时能够最小化return的期望 J

c ( x t ) c(x_t) c(xt)是状态t时刻状态x的损失，负的。（也就是到达某个状态的reward）

去计算（2）式的J，需要对于状态的长期预测，因为计算期望需要知道每个状态的概率，我们不得不利用上一步预测的结果进行下一步的预测，如(3)-(5)。

整体过程就是

1.来计算action u的均值和协方差，也就是动作的分布p(u)的两个关键系数（这一步使用策略pi）

2. 计算互协方差函数

3. 通过估计state-control的节点分布。使用x和u以及互协方差（使用动力学模型）