OpenAI-2018年强化学习领域7大最新研究方向全盘点

OpenAI一直是业界进行强化学习研究与应用的前沿阵地,2018年伊始,今天就给你们盘点一下新的AI纪元之年,OpenAI火力全开,重点研究的七个问题。算法


⭐⭐⭐ 分布式深度强化学习中参数平均问题(Parameter Averaging)app

在RL算法中探索参数平均方案对样本复杂度和通讯开销带来的影响。虽然最简单的解决方案是在每次更新时,直接平均来自每一个Worker的梯度,但也可让每一个Worker独立更新参数,达到必定更新次数后再提交更新,减小参数平均带来的来通讯开销。在RL中,这可能还有另外一个好处:在任什么时候候,都会有Agent具备不一样参数,这可能会带来更好的探索行为。另外一种可能性是像EASGD这样的使用算法,每一个更新都将参数部分地结合在一块儿。机器学习


⭐⭐⭐ 经过生成模型,在不一样的GAMES之间进行迁移问题分布式

· 为11个Atari游戏,训练11个好的Policy。从每一个游戏的Policy中产生10,000个1000步的轨迹数据。学习

· 使用一个生成模型(如Transformer)去逼近其中10个游戏产生的轨迹数据。优化

· 而后在第11个游戏的轨迹数据中微调这个模型。编码

· 目标是量化前10场GAME数据的训练前的帮助有多大。该模型须要多大的预训练才能起到Positive(帮助训练)的做用?当第11场游戏的数据量减小10倍时,效果的大小如何变化?减小100倍又如何?spa


⭐⭐ 贪吃蛇项目Slitherin问题orm

基于Gym环境,实现和解决经典的贪食蛇游戏的多游戏者问题(详见slither.io)。游戏

· 环境:有一个至关大的环境与多个蛇;水果随机出现,且蛇吃水果以后会成长;一条蛇在与另外一条蛇,或蛇自己或墙壁相撞时死亡;当全部的蛇死亡,游戏结束。从两条蛇开始,并基于此不断扩展。

· Agent:基于用户选择,RL算法经过self_learning,自动基于环境来解决问题。须要尝试各类方法来克服self_learning的不稳定性(相似于GAN学习中出现的不稳定)。例如,尝试基于过去的策略(policy)分配来学习当前的策略。哪一种方法效果最好?

· 检查学到的行为:Agent是否学会追逐食物,避免其余蛇碰撞?Agent是否学会进攻,设陷阱,或与竞争的蛇相抗衡?等等问题。


⭐⭐⭐ 基于Linear Attention 的Transfomer模型问题

“Transfomer”模型中使用了基于softmax的Soft Attention机制。若是可使用Linear Attention(能够转换成使用Fast Weight的RNN),咱们就能够获得模型用于RL中。具体而言,在复杂的Context的RL学习环境下,直接把Transfomer应用于RL是不切实际的,可是基于Fast Weight的RNN是可行的。

咱们的目标是:对于任何语言建模(Language Modeling)任务;只须要训练一个Transfomer模型,而后而后找到一种方法,使用具备不一样超参数Liner-Attention Transfomer模型来得到每一个字符/字的相同位(Bits),而不用增长过多的参数。但有一点须要注意:这个方法也能够行不通。一个重要的提示:与使用softmax的注意力相比,Liner-Attention Transfomer可能须要高维度的key/value向量,这能够在不显着增长参数数量的状况下完成。


⭐⭐⭐ 学习数据加强(Learned Data Augmentation)问题

可使用基于数据学习获得的VAE数据来进行“学习数据加强”。首先要对输入数据进行VAE训练,而后将每一个训练样本经过编码映射到latent space,而后在latent space中添加一个简单的(如高斯)扰动,而后解码回观测空间。问题是,咱们能够用这种方法来提高泛化效果吗?这种数据加强的潜在好处是它能够包括引入许多非线性变换,如视点变化和场景闪电的变化。咱们可否近似标签不变的转换集呢?


⭐⭐⭐⭐ 强化学习(RL)中的正规化(Regularization)问题

实验研究(和定性解释)不一样正则化方法对选择的RL算法的有很大的影响。如,在有监督的深度学习中,正则化对于改进优化和防止过拟合很是重要,其中很是成功的方法如Dropout,Batch Normalization和L2正则化。可是,人们尚未从强化学习算法(如策略梯度和Q学习)的正则化中受益。顺便提一句,人们一般在RL中使用的模型要比监督式学习中使用的模型结构要的小得多,由于大型模型的效果表现更差 - 也许是由于小模型更适用于最近的研究场景。这是一个相关的,但更久远的理论研究。


⭐⭐⭐⭐⭐ 自动求Olympiad Inequality Problems问题

Olympiad Inequality Problems很容易表达,但解决这些问题一般须要巧妙的操做。构建Olympiad Inequality Problems的数据集,编写能解决其中很大一部分问题的程序。目前尚不清楚机器学习在这里是否有用,但可使用一个学习的策略来减小一些分支因素。