RL论文阅读21-MB-PILCO2011

1. Tittle 2011 2. 标签 model based planning data efficient continuous / discrete 3. 总结 MB类算法,一个关键问题在于减少模型的偏差。一个模型偏差过大,那么使用这个模型进行planning必然不准确。PILCO减少误差的方式是学习一个基于概率的动力学模型,并且在进行long-term planning 时,引入了模型的
相关文章
相关标签/搜索