RL论文阅读8-mb-ME-TRPO2018

时间 2021-01-12 标签强化学习RL 人工智能

文章目录

4. 原理

Vanilla Approch(原始方法)

改进的方法ME TRPO

1. Tittle

source

2. 标签

Model-Based
Continue Actions

3. 总结

如题目所示，就是把model-ensemble的思想应用到了TROP算法上。

针对的问题

数据利用率
使用深度神经网络的vanilla model-based RL模型方法，学习到的策略倾向于利用由于数据不充足而模型无法学习的区域，这导致了模型的不稳定。具体在本文原理4-1中描述。

解决的思路

使用一组模型来维护模型的不确定性并规范学习的过程。

4. 原理

Vanilla Approch(原始方法)

1. 模型学习

模型是使用神经网络。

输出是状态的改变量，不是状态。
输入 state和action

使用状态的改变量作为输出的好处是减轻了神经网络对于输入状态的记忆。特别是当改变量很小时，效果更明显。（另外，对于连续时间的MDP，时间间隔很短，状态改变量可能很小，使用改变量作为输出效果更好。）

下一个状态的函数估计 $\hat f_\phi = input\_states+network\_output$

学习目标：优化模型参数 $\phi$ ，最小化L2 one-step prediction loss。（文章中说多步的效果没有明显提升，所以单步预测损失）

KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲D存储的是agent经历的状态转换

使用Adam优化器。利用标准的防止过拟合的一些方法

2. 策略学习

最大化总奖励的数学期望。Model-based算法是从自己学习到的模型中来估计未来的奖励。policy是根据学习的模型来更新的。因此最大化这个：

使用条件多元正态分布来表示随机策略，参数均值 $\mu_\theta： S \rightarrow A$ ，标准差 $\sigma_\theta: S \rightarrow \Bbb R^m$

那么我们的动作就是从这个正态分布中采样而来。即 $\mu_\theta(s)+\sigma_\theta(s)^T \zeta$ 。其中KaTeX parse error: Undefined control sequence: \cal at position 12: \zeta \sim \̲c̲a̲l̲ ̲N \it(0,I_m)代表噪声。

不使用随机框架，使用deterministic也可以。

policy的优化梯度：

这个梯度的计算方法叫做backpropagation through time (BPTT)。

改进的方法ME TRPO

问题描述：上述的方法学习到的策略，经常会利用动力学模型缺乏训练数据的区域。因此在使用估计的MDP模型来代替真实的环境时，产生的预测会导致策略的错误。过拟合的问题可以通过使用验证集提前结束的方法来避免，但这是不够的，因为使用一个模型，这个会有一些一致性的（偏向性）错误。在长步骤预测时更为明显，是强化学习中常见问题。

同时训练多个模型，在每一步，通过随机选择一个模型来预测下一个状态。这样就能够避免单个模型在某个episode过拟合的问题。

策略提升验证：

公式（4）大于阈值，当前迭代(算法2: 6-10)就一直继续。公式（4）每5次梯度更新进行一次评估，70%作为阈值，允许少量的(4)指标下降的更新为了获得更好的性能表现。