元学习的崛起

时间 2021-01-14

作者 | Connor Shorten

译者 | Raku

出品 | AI科技大本营（ID:rgznai100）

元学习描述了设计与训练深度神经网络相关的更高级别组件的抽象。术语“元学习”在深度学习文献中经常提及“ AutoML”，“少量学习（Few-Shot Learning）”，而涉及到神经网络体系结构的自动化设计时，则会提及“神经体系架构搜索（Neural Architecture Search）”。OpenAI的魔方机器人手的成功源于诸如“通过梯度下降学习如何通过梯度下降学习”之类的可笑标题的论文，魔方机器人手的成功反过来也证明了这些想法的成熟。元学习是推动深度学习和人工智能技术发展的最有希望的范例。

OpenAI通过展示经过强化学习训练的机器人手的突破性功能，在AI界掀起了一股热潮。该成功基于2018年7月提出的一项非常类似的研究，该研究要求机械手将块定位在与视觉提示匹配的配置中。元数据学习算法控制模拟中的训练数据分布，即自动域随机化（ADR），从而推动了从块定向到解决魔方的演变。

域随机化—数据增强

域随机化是一种用于解决Sim2Real传输的数据扩充问题的算法。函数逼近（和深度学习）的核心功能是将其从训练中学到的知识推广到从未见过的测试数据。随着对抗性噪声的注入也不会错分，这样的事情已经不足以让人感到惊奇，但深度卷积网络在进行模拟图像训练（左下图）到实际视觉数据（右下图）时，无需改动参数就不会过拟合。

当然，有两种方法可以使模拟数据分布与实际数据分布保持一致。苹果研究人员开发的一种这样的方法称为SimGAN。SimGAN使用对抗损失来训练生成对抗网络的生成器，以使模拟图像看起来尽可能逼真，而判别器则将图像归类为真实或模拟数据集。该研究报告在眼睛注视估计和手势姿势估计方面取得了积极成果。另一种方法是使模拟数据尽可能多样化，并与真实情况相反。

后一种方法称为域随机化。下图来自Tobin等人在2017年的论文中很好地说明了这一想法：

将深度神经网络从仿真转移到现实世界的域随机化

域随机化似乎是减小Sim2Real误差的关键，在训练时，允许深度网络将其推广到真实数据。与大多数算法不同，域随机化有许多需要调整的参数。下图显示了块的颜色、环境的光照和阴影的大小的随机性。这些随机环境特征中的每一个都具有一个从下到上的区间以及某种采样分布。例如，在对随机环境进行采样时，该环境具有非常明亮的照明的概率是多少？

在OpenAI最初的Dactyl研究中，使用机械手实现了块定位，在实验之前，对域随机数据课程进行了手动编码。这种域随机化超越了视觉世界，使物理模拟器中的组件随机化，从而产生了使机械手能够灵活灵巧地移动的策略。与视觉随机化的想法类似，这些物理随机化包括诸如立方体的大小/质量和手指在机器人手中的摩擦（有关更多详细信息，请参见附录B用机器人手解决Rubik立方体的问题）。

从Dactyl到Rubik's Cube解算器的关键在于，域随机化是核心课程，定义了随机化的强度是自动的，而不是手动设计的，这在ADR算法的以下几行中明确定义：

图片来自“用机械手解决魔方”。如果代理的性能超过了参数性能阈值，则随机强度会增加（由带有phi的del来定义环境参数的分布）

设计自己数据的AI

由Uber AI Labs的研究人员开发的配对开放式开拓者（POET）算法是设计自己的数据的AI最好的例子之一。

“成对的开放式开拓者（POET）：不断产生越来越复杂和多样的学习环境及其解决方案”

POET通过同时优化代理和步行学习环境来训练双足步行代理。POET与OpenAI的魔方求解器不同，它使用进化算法，维护了步行者和周围环境。具有主体和环境的种群的结构是构建本研究复杂性演变的关键。尽管与使用基于群体的学习来适应一组智能体相比，POET使用强化学习来训练单个智能体，但是POET和自动域随机化非常相似。他们都以自动化的方式开发了挑战性不断增长的训练数据集。Bipedal的步行环境不会作为手动编码的功能发生变化，而是作为步行者在不同环境中的表演数量众多而产生的结果，表明何时该是时候应对地形挑战了。

数据还是模型？

元学习的研究通常集中在数据和模型架构上，元学习优化器也属于模型优化的范畴。诸如自动域随机化之类的数据空间中的元学习已经以数据增强的形式进行了大量研究。

尽管我们已经看到了物理数据也可以进行扩充和随机化，但还是在图像数据的上下文中最容易理解数据增强。这些图像增强通常包括水平翻转和小幅度的旋转或平移。这种增强在任何计算机视觉管道（例如图像分类，对象检测或超分辨率）中都是典型的。

课程学习（Curriculum Learning）是另一种数据级优化，涉及数据呈现给学习模型的顺序。例如，让学生先从简单的例子开始，如2 + 2 = 4，然后再介绍更困难的概念，如2³= 8。课程学习的元学习控制器根据感知难度和数据呈现的顺序来查看数据的排序。Hacohen和Weinshall最近的一项研究在ICML 2019会议上展示了有趣的成功(如下图所示)。

论课程学习在深度网络训练中的作用。最左边的灰色条所示的香草SGD数据选择被课程学习方法超越

神经结构搜索或元学习模型通常比数据级优化更受关注，这是由深度学习研究的趋势所驱动的。将基础的AlexNet架构扩展到ResNet架构有一个明显的性能优势，该架构是在大型GPU计算的大数据集上使用深度卷积网络的先驱。ResNet被DenseNet等手工设计进一步扩展，随后被AmoebaNet、efficient entnet等元学习技术超越。图像分类基准进展的时间线可以在paperswithcode.com上找到。

元学习神经体系结构试图描述一个可能的体系结构空间，然后根据一个或多个目标度量寻找最佳的体系结构。

高级元学习者

神经结构搜索应用了广泛的算法来搜索结构、随机搜索、网格搜索、贝叶斯优化、神经进化、强化学习和可微搜索。与OpenAI的自动领域随机化技术相比，这些搜索算法都相对复杂。似乎自动领域随机化的思想可能会随着高级搜索算法而得到改进，例如，基于人群的搜索被加州大学伯克利分校(UC Berkeley)的研究人员证明在数据扩充方面是有用的，或者从谷歌自动扩展。

元学习的表达能力如何

元学习在神经结构搜索中经常遇到的一个限制是搜索空间的约束，神经架构搜索从一个手工设计的可能架构编码开始，这种手工编码自然限制了搜索可能的发现。然而，要使搜索完全可计算，必须进行权衡。

当前的架构搜索将神经架构视为有向无环图(DAGs)，并试图优化节点之间的连接。Gaier和Ha等人的论文《重量不可知神经网络》和Xie等人的《探索随机连线神经网络用于图像识别》表明，构建DAG神经结构是复杂的，而且还没有得到很好的理解。

有趣的问题是，什么时候神经结构搜索才能够优化节点上的操作、节点之间的连接，然后能够自由地发现新的激活函数、优化器或批处理标准化等标准化技术。

思考元学习控制器的抽象程度是很有趣的。例如，OpenAI的魔方解算器本质上有3个智能组件，一个符号化的魔方解算器，一个视觉模型和一个控制网络来操作机械手。元学习控制器能够足够聪明地理解这种模块化并设计最近由Gary Marcus倡导的符号和深度学习系统之间的混合系统吗？

元学习数据的扩充也非常有限。大多数数据扩充搜索(甚至自动领域随机化)都被限制在元学习控制器可用的一组转换中。这些转换可能包括图像的亮度或模拟中阴影的强度。增加数据扩充自由度的一个有趣尝试是将这些控制器与能够探索非常独特的数据点的生成模型结合起来。这些生成模型可以设计狗和猫的新图像，而不是旋转现有的图像或使图像变暗/变亮。尽管非常有趣，但是似乎像BigGAN或VQ-VAE-2这样的最新生成模型无法用于ImageNet分类中的数据增强。

迁移与元学习

不同于AutoML被用来描述模型或数据集的优化，元学习经常被用来描述转移和少镜头学习的能力。这种定义与用自动域随机化方法解决的Sim2Real的域适应问题是一致的。然而，这个定义也描述了从ImageNet分类到识别缺陷的学习。

魔方解算器的一个有趣的结果是，它具有适应扰动的能力。例如，尽管在手上戴了橡胶手套，将手指绑在一起，并覆盖了立方体的遮挡(视觉模型必须完全受损，因此传感必须由Giiker cube的传感器完成)，求解器仍能继续工作。这种转移元学习是策略网络中用于训练机械手控制的LSTM层的结果。我认为与自动优化相比，元学习的这种使用更像是记忆增强网络的一个特征。我认为这说明了统一元学习和确定术语的单一定义的困难。

结束语

魔方的成功显然是引人注目的，因为它展示了机器人手的协调能力。然而，这项研究更有趣的部分是元学习数据的随机化。这是一个在设计训练数据的同时进行学习的算法。Jeff Clune在《AI-GAs》中描述的这种包含元学习体系结构、元学习算法本身以及生成有效学习环境的算法范式，为深度学习和人工智能的发展提供了巨大的机遇。感谢您的阅读，如果您想了解更多关于OpenAI的论文，请查看下面的视频。

原文链接：

https://towardsdatascience.com/the-rise-of-meta-learning-9c61ffac8564

（*本文为 AI科技大本营编译文章，转载请微信联系 1092722531）

◆

精彩推荐

◆

2019 中国大数据技术大会（BDTC）再度来袭！豪华主席阵容及百位技术专家齐聚，15 场精选专题技术和行业论坛，超强干货+技术剖析+行业实践立体解读，深入解析热门技术在行业中的实践落地。 5 折票倒计时 4 天！

元学习的崛起

推荐阅读