2018年人工智能大事记，人们对ML工程师有了新要求

时间 2021-01-07 标签 ML Insight

自从数据科学在2012年开始获得关注以来，机器学习领域（ML）一直在不断发展。但是，我认为2018年是ML行业的一个关键转折点。

作为一个始终在学术研究和满足客户需求之间保持一致的领域，通常很难将工程标准与ML模型相协调。由于研究和应用团队的工程和基础设施需求都在增加，ML工程这一新兴领域将在2018年的基础上进一步发展，并在2019年真正开花结果。

为了验证我的观点，我想用两点来证明：

回顾我在2018年观察到的三个主要趋势
我认为它们将在三个关键方面影响2019年

2018年的三大收获

无论是在研究方面还是工业领域，ML都在以令人兴奋的速度增长，但却很难让人们对该领域的发展方向有所了解。以下是我从2018年发现的三种趋势，我认为这些趋势将在2019年及以后对ML行业产生影响。

1.重新定义表示学习

Insight AI项目展示了一种新颖的真实感图像生成方法

2018年最令人印象深刻的趋势之一是，各种模型越来越有能力在密集的表示学习中捕获越来越有用的信息。以下是一些示例：

生成对抗网络（GAN）自2014年以来就已经存在，并且从一个令人兴奋的研究命题发展成一种尖端技术。这些模型能够学习压缩表征的能力使它们可以应用于照片般逼真的编辑器中。最近的研究正在进一步改善这些表征的质量。
强化学习在2018年也有一些成功案例。OpenAI的Dota 2机器人表现出了巨大的潜力，打败了半职业战队。这项工作的核心部分包括将一个复杂的游戏简化为较小的学习表示（实际上是一个包含1024个数字的列表，请参阅此处了解更多信息：https://arxiv.org/abs/1808.07371）。
自然语言处理（NLP）终于在2018年迎来了它的ImageNet时刻。过去的一年被称为NLP的迁移学习年，因为大规模语言模型预训练方面取得了成功，如ULMFiT和BERT。同样，解决这些问题的关键是使用大型文本语料库，例如整个维基百科，以学习更有用的文本表示。

除了表示的质量外，这些令人兴奋的结果还有其他共同点：它们利用越来越多的数据和计算，这导致了我们的第二个趋势！

2.扩大规模

计算规模（归功于OpenAI）

近年来，我们了解到，在执行明确定义的任务（如标准数据集或游戏环境）时，更大的数据集和额外的计算将帮助我们进一步提高性能。

实际上，如果我们回顾表示学习部分中的示例，它们都会利用更大的数据集或更多的计算：

许多GAN改进（例如BigGAN）依赖于更大的数据集，并且训练模型的时间更长。
OpenAI的Dota 2机器人程序在训练期间每天都会和自己玩180年的游戏。
在开始训练它们的实际任务之前，NLP模型通过利用整个维基百科来学习更好的表示！

这篇文章侧重于行业中的实际ML，其中通常没有任务或数据集的标准定义，我们试图理解的数据分布本质上是不断变化的。这需要一套完全不同的工具。

事实上，我们今天看到的研究结果之间存在差异（参见上面的舞蹈论文视频）以及除了少数领先公司之外的在大多数产品中已经部署的内容，这表明研究人员与资金充足的团队以及其他从业者之间存在巨大差距。

3. 构建内部平台

优步米开朗基罗的架构图

在过去的一年里，越来越多的公司开始宣传它们在内部构建的工具规模，以帮助支持它们的ML工作。以下是一些我个人的收藏：

优步在它们的系列文章中发布了三篇文章来解释米开朗基罗的架构（一：https://eng.uber.com/michelangelo/，二：https://eng.uber.com/michelangelo-pyml/，三：https://eng.uber.com/scaling-michelangelo/），我强烈推荐大家阅读。
Airbnb分享了一个非常坦诚和迷人的故事，讲述了将应用深度学习应用于搜索排名的考验和磨难（https://arxiv.org/abs/1810.09591）。
Netflix在这两个帖子中解释了他们在生产中使用笔记本电脑的基础设施（https://medium.com/netflix-techblog/notebook-innovation-591ee3221233和https://medium.com/netflix-techblog/scheduling-notebooks-348e6c14cfd6）。

了解一些业内最优秀的工程团队如何应对向用户提供ML的挑战，这是令人鼓舞的。同时，由于构建这样的平台代表着需要付出巨大的努力，许多从业者建议小型团队避免构建自己的ML平台。

这使得大多数中小型团队处于无人地带，他们只能在不完全符合他们的需求的服务提供商中将产品拼凑在一起，并承担了大量的工程成本。越来越多的人认为需要一套像Tensorflow和Spark这样的框架，以及广泛分享ML的所有部分的最佳实践。

同时人们也意识到没有人需要另一个库或教程在MNIST上构建一个3层神经网络。因此，许多初创公司已进入数据和模型基础设施/管理和部署领域。这就是为什么我从根本上认为2019年将是ML工程的一年。我将在下面解释解释我是如何看待这一点的！

ML工程将在2019年以三种方式发展

在这里，我与有抱负的数据科学家共同认为的一个常见警告是，90％的工作是关于收集和清理数据，或验证，部署和监控模型。如果是这种情况，为什么90％的框架和Github存储库（例如参见此列表：https://github.com/josephmisiti/awesome-machine-learning）都专注于模型构建？

现在许多大公司已经为构建ML产品奠定了最佳实践的基础，我们终于在正确的时刻开源了ML工程框架。

1.为所有数据科学家创建工具

什么是数据探索的核心？

Keras，Tensorflow，PyTorch和fast.ai等令人惊叹的库使定制和训练自定义模型变得前所未有的简单。与此同时，许多公司推出了托管服务，通过帮助数据可视化，清理，模型服务和实验跟踪来补充这些库。

许多这些服务的问题在于，ML工程需求需要特定于用例，并且通常需要可扩展开源框架的灵活性。这非常类似于Google Cloud提供API来调用标准计算机视觉模型：它对于一部分用户很有价值，但永远不会被视为Keras的替代品。现在的问题是，什么是数据探索和清洁的核心？

ML工程的工作有很多部分，我们可以看到框架被扩展到涵盖多个方面，或者分别在这些类别中获胜的解决方案。以下是一些值得关注的领域：

数据探索，标记和版本控制。
模拟自动化测试，验证，服务和生命周期管理。
实验跟踪，超参数优化和一般的实验工具

初创公司已开始为这些问题提出解决方案，但没有一个真正帮助定义像Tensorflow和Pytorch这样广泛适用于模型构建的标准。这是大趋势的一部分，而ML工程缺乏最佳实践。

2.定义一个明确的生产途径

越来越多的开发人员可以将模型训练到给定的性能水平。但是，在构建产品时，你通常只有一个目标，没有附加的数据集。这要求能够：

从产品目标出发，制定既可行又有用的的学习问题，并生成一个有用的模型。
有效地收集数据集，构建一个简单的模型，并不断改进模型和数据集（许多人可以在给定标准数据集的情况下改进模型，但很少知道如何迭代数据集，请参阅此处了解更多信息：https://blog.insightdatascience.com/how-to-deliver-on-machine-learning-projects-c8d82ce642b0）
确认模型准备好放在用户面前意味着什么。
监控已部署的模型，以了解何时以及如何更新它们。

这些是关键技能，它们通常决定了数据产品的成败，并且缺乏资源和最佳实践来帮助指导从业者。

3.推广能最好地培养有抱负的专业人士的资源

在招聘方面，硅谷的团队招聘经理最常抱怨说，虽然不乏能够在数据集上训练模型的人，但他们需要能够构建数据驱动产品的工程师。

与此同时，大多数有抱负的数据科学家和ML工程师对提供的数据集训练模型感到很有兴趣。这种兴趣通常受到专注于该部分工作的博客和课程的启发，而不是数据收集/标签/清理和模型部署。

这导致了希望聘用的公司和新员工之间的脱节。虽然自数据科学诞生以来，像Insight Data Science这样的专业奖学金一直致力于弥合这一差距，但我期待有更多的资源可以帮助ML专注于90％的非模型建设领域！

展望未来：2019年的决议

2018年，ML工程的步伐已经加快，在Insight，我们一直在努力帮助更多人成功过渡到这个领域。此外，在今年的整个过程中，我将更多地关注被我所忽略的那部分ML工作，这对于工业的成功至关重要。

作者：Insight Data

https://www.toutiao.com/a6665918206969905677/