OpenAI-2018年强化学习领域7大最新研究方向全盘点

时间 2020-05-12 标签 openai 2018年强化学习领域 7 大最新研究方向全盘点

OpenAI一直是业界进行强化学习研究与应用的前沿阵地，2018年伊始，今天就给你们盘点一下新的AI纪元之年，OpenAI火力全开，重点研究的七个问题。算法

⭐⭐⭐ 分布式深度强化学习中参数平均问题（Parameter Averaging）app

在RL算法中探索参数平均方案对样本复杂度和通讯开销带来的影响。虽然最简单的解决方案是在每次更新时，直接平均来自每一个Worker的梯度，但也可让每一个Worker独立更新参数，达到必定更新次数后再提交更新，减小参数平均带来的来通讯开销。在RL中，这可能还有另外一个好处：在任什么时候候，都会有Agent具备不一样参数，这可能会带来更好的探索行为。另外一种可能性是像EASGD这样的使用算法，每一个更新都将参数部分地结合在一块儿。机器学习

⭐⭐⭐ 经过生成模型，在不一样的GAMES之间进行迁移问题分布式

· 为11个Atari游戏，训练11个好的Policy。从每一个游戏的Policy中产生10,000个1000步的轨迹数据。学习

· 使用一个生成模型（如Transformer）去逼近其中10个游戏产生的轨迹数据。优化

· 而后在第11个游戏的轨迹数据中微调这个模型。编码

· 目标是量化前10场GAME数据的训练前的帮助有多大。该模型须要多大的预训练才能起到Positive（帮助训练）的做用？当第11场游戏的数据量减小10倍时，效果的大小如何变化？减小100倍又如何？spa

⭐⭐ 贪吃蛇项目Slitherin问题orm

基于Gym环境，实现和解决经典的贪食蛇游戏的多游戏者问题（详见http://slither.io）。游戏

· 环境：有一个至关大的环境与多个蛇；水果随机出现，且蛇吃水果以后会成长；一条蛇在与另外一条蛇，或蛇自己或墙壁相撞时死亡；当全部的蛇死亡，游戏结束。从两条蛇开始，并基于此不断扩展。

· Agent：基于用户选择，RL算法经过self_learning,自动基于环境来解决问题。须要尝试各类方法来克服self_learning的不稳定性（相似于GAN学习中出现的不稳定）。例如，尝试基于过去的策略（policy）分配来学习当前的策略。哪一种方法效果最好？

· 检查学到的行为：Agent是否学会追逐食物，避免其余蛇碰撞？Agent是否学会进攻，设陷阱，或与竞争的蛇相抗衡？等等问题。

⭐⭐⭐ 基于Linear Attention 的Transfomer模型问题

“Transfomer”模型中使用了基于softmax的Soft Attention机制。若是可使用Linear Attention（能够转换成使用Fast Weight的RNN），咱们就能够获得模型用于RL中。具体而言，在复杂的Context的RL学习环境下，直接把Transfomer应用于RL是不切实际的，可是基于Fast Weight的RNN是可行的。

咱们的目标是：对于任何语言建模（Language Modeling）任务;只须要训练一个Transfomer模型，而后而后找到一种方法，使用具备不一样超参数Liner-Attention Transfomer模型来得到每一个字符/字的相同位（Bits），而不用增长过多的参数。但有一点须要注意：这个方法也能够行不通。一个重要的提示：与使用softmax的注意力相比，Liner-Attention Transfomer可能须要高维度的key/value向量，这能够在不显着增长参数数量的状况下完成。

⭐⭐⭐ 学习数据加强（Learned Data Augmentation）问题

可使用基于数据学习获得的VAE数据来进行“学习数据加强”。首先要对输入数据进行VAE训练，而后将每一个训练样本经过编码映射到latent space，而后在latent space中添加一个简单的（如高斯）扰动，而后解码回观测空间。问题是，咱们能够用这种方法来提高泛化效果吗？这种数据加强的潜在好处是它能够包括引入许多非线性变换，如视点变化和场景闪电的变化。咱们可否近似标签不变的转换集呢？

⭐⭐⭐⭐ 强化学习（RL）中的正规化（Regularization）问题

实验研究（和定性解释）不一样正则化方法对选择的RL算法的有很大的影响。如，在有监督的深度学习中，正则化对于改进优化和防止过拟合很是重要，其中很是成功的方法如Dropout，Batch Normalization和L2正则化。可是，人们尚未从强化学习算法（如策略梯度和Q学习）的正则化中受益。顺便提一句，人们一般在RL中使用的模型要比监督式学习中使用的模型结构要的小得多，由于大型模型的效果表现更差 - 也许是由于小模型更适用于最近的研究场景。这是一个相关的，但更久远的理论研究。

⭐⭐⭐⭐⭐ 自动求Olympiad Inequality Problems问题

Olympiad Inequality Problems很容易表达，但解决这些问题一般须要巧妙的操做。构建Olympiad Inequality Problems的数据集，编写能解决其中很大一部分问题的程序。目前尚不清楚机器学习在这里是否有用，但可使用一个学习的策略来减小一些分支因素。