百度尤晓赫：EasyDL，加速企业AI转型

时间 2020-05-18 标签百度尤晓赫 easydl 加速企业 ai 转型

不到现场，照样看最干货的学术报告！html

嗨，你们好。这里是学术报告专栏，读芯术小编不按期挑选并亲自跑会，为你们奉献科技领域最优秀的学术报告，为同窗们记录报告干货，并千方百计搞到一手的PPT和现场视频——足够干货，足够新鲜！话很少说，快快看过来，但愿这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。算法

人工智能论坛现在浩如烟海，有硬货、有干货的讲座却凤毛麟角。“AI将来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly做为合做自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年4月26日，第14期“AI将来说·青年学术论坛”深度学习线上专场论坛以“线上平台直播+微信社群图文直播”形式举行。百度尤晓赫带来报告《EasyDL，加速企业AI转型》。编程

百度尤晓赫的报告视频小程序

尤晓赫，浙江大学硕士，现任百度AI开发平台部高级研发工程师。负责EasyDL定制化模型训练和服务平台的技术研发，包括图像分类、物体检测、图像分割、多目标跟踪等。
后端

报告内容：尤晓赫老师的分享内容主要分为三部分，第一部分是EasyDL平台的介绍，包括功能跟特性；第二部分是EasyDL的技术原理；第三部分是EasyDL的实际应用案例。微信

EasyDL，加速企业AI转型网络

第一部分是百度大脑EasyDL平台的介绍。各行业场景在AI落地应用当中每每须要定制开发的AI模型，从而使不一样企业、不一样业务在AI应用过程当中都能有更好的效果。百度大脑早期在和波士顿咨询公司的联合调研中，发现约86%的企业需求都须要定制开发业务场景下的AI模型，例如，AI科研机构进行野生生物识别；物流领域进行包裹基于包装自动分拣等等。在定制开发AI模型的时候每每面临着一些困难与挑战，包括大量数据采集及标注成本较高、算法选型及反复调参须要专业算法工程师反复试验、以及在模型训练完毕后须要大量的工程开发来完成AI服务平稳集成在已有业务系统中。为了解决这些困难和挑战，百度团队开发了EasyDL定制化训练和服务平台，EasyDL平台为企业和开发者提供AI模型开发的全流程功能的支撑，而且面向不一样企业用户提供多样化的产品形态，主要包括EasyDL经典版、EasyDL专业版和EasyDL零售版。EasyDL经典版是针对AI零算法基础或者追求高效率开发的企业用户和开发者的AI模型与训练平台。EasyDL专业版是针对AI初学者和AI专业工程师的企业用户和开发者推出的可编程AI开发平台。EasyDL零售版是专用于零售快消行业用户的训练商品检测模型的训练平台。架构

第二部分是EasyDL部分技术原理，尤晓赫老师主要讲解了数据服务、数据预处理和模型训练三块技术。尤晓赫老师首先介绍了EasyDL训练调度的AI Workflow。AI Workflow的基本功能是将架构彻底不一样的组织组织成工做流，从而使它们自动完成流水线任务。AI Workflow还须要对模型进行并发管理、优先级管理、任务重试等，此外还须要对底层资源进行调度和开发，从而保证流水线能够高效有序地完成。并发

接着尤晓赫老师介绍了数据服务里面一些功能，重点介绍智能标注功能。百度的智能标注可让用户只需标注数据集30%左右的数据，便可训练出标注所有数据同等效果的模型。假设用一些训练集已经训练出了一个能够识别猫的模型，接着想加入新的图片到训练集中，如上图中左边显示的三张猫的图片，第一张图片和原有训练集图比较类似，它对于提高模型的泛化能力是没有太大的效果，第二和第三张图片对模型训练有更好的帮助和提高。智能标注原理是为用户挑选出像第二张图片、第三张图片这样的数据进行手动标注，而后算法自动标注第一张图片，从而节省标注成本。上图中右边显示的是百度智能标注的流程，首先须要用户先标注少许的数据，大约每一个分类十张图片（建议总训练集在50张以上），接着系统会预先训练出一个模型，用这个模型对数据集中未标注的图片进行识别，而后挑选出其中的“难例”，这里的“难例”是指目前模型还不能正确分类的样本，它们对模型训练有很大的提高做用，系统接着会把“难例”反馈给用户进行人工标注，反复迭代屡次以后能够获得效果比较好的标注模型。用户点击结束智能标注流程，而后选择一键标注，就可让剩下的未标注图片进行自动标注。用智能标注挑选出来的数据训练的模型与全量数据训练出来的模型进行效果对比，智能标注的效果在ACC diff上与全量数据是至关的，但用户总共只标注了30%左右的数据。框架

尤晓赫老师在EasyDL数据预处理模块部分主要介绍了数据加强技术。举个例子，假设有一个数据集中含两种品牌的车，分别是品牌A和品牌B，数据集中品牌A的车头是朝向左边的，品牌B的车头都朝向右边，将这些数据输入到网络中进行训练，训练出了一个效果比较好的模型，模型的效果大概是识别准确率95%以上。用这个模型去测试车头朝向右边的品牌A的车，此时这个模型并不能很好识别它，这是不少机器学习算法工做过程当中会遇到的问题，由于模型会寻找区分感观类别的最明显的特征，很显然A品牌与B品牌最明显特征就是车头的朝向，因此神经网络好坏有时候受给它的训练数据质量好坏的影响。减小这件事情的发生的方法是减小数据集中不相关的一些特征，对于上面描述的轿车分类模型，简单来说能够经过增长两种品牌车不一样的朝向来减小这种朝向所带给它的影响。但并不是全部加强技术都对数据集是有意义的，用户在选择使用哪些加强策略时须要本身了解数据集的特色以及服务应用场景。以车的类型识别为例，如上图所示，它们是同一辆车的照片，可是类型识别可能永远不会用到以这些方向呈现的汽车。若是训练一个模型只是对正常的汽车进行分类，那么只有第二张图片才具备加强效果，而在咱们该模型中必定不会出现180度旋转的车辆，这样的数据加强对模型是没有好的效果。可是若是训练的模型是用于处理车祸的模型，此时可能就须要判别车辆是否有翻车的状况，此时第三张图片中的180度旋转的数据加强对模型训练就是有帮衬意义的。基于上面两种状况，第三张图片的180度旋转加强有可能有意义，也有可能没有意义，因此在使用数据加强技术的时候，必须确保不增长不相关的数据。要想在有限的数据样本下尽量提高模型泛化能力，除了对模型自己进行优化外还有一种方法就是数据加强。要想快速有效构建与数据集的特征特性相关的数据加强策略，就须要使用自动数据加强的功能，EasyDL后端就提供自动数据加强的功能，它结合用户数据集和预约义的一系列加强策略进行自动的搜索，而后产生最佳的加强参数运用到模型训练中，自动生成一些新的图片供给模型进行训练来提升模型的泛化效果。

在第二部分的最后，尤晓赫老师介绍了模型训练，模型训练过程当中使用的技术和优化包括迁移学习、AutoDL、自动超参调优和分布式训练加速，训练过程是基于Paddle Paddle的框架之上的。迁移学习是事先用一个大的数据集训练一个预训练模型，而后接收用户自定义的小数据集对以前的预训练模型进行fine tuning，对其中的网络结构参数进行微调，从而使模型对用户的小数据集更加敏感达到更好的识别效果。AutoDL所作的事情就是用深度学习来设计深度学习。具体来讲，随着硬件应用场景和模块多样化，使用到的模型结构也须要不断进化。模型训练另外一个优化机制是自动超参调优，人工调参须要设定一组超参数去进行一组实验，而后根据结果再来调整参数，这个过程是很是耗时的，所以须要转向自动调参。自动调参调优涉及超参推荐策略，即根据上一组实验的反馈，推荐出下一组实验的超参值，从而让任务自动化。此外自动超参调优还涉及搜索方式的优化，普通的搜索方式是并行独立搜索，即并行进行多组实验，所有进行完后的数据结果显示哪组结果好就认为哪组参数是最优的；另外一种搜索方式叫PBT（基于群体的训练，Population Based Training），它也是并行搜索但不独立。举个例子说明PBT，假设有两个并发的实验分别在worker0和worker1上进行，初始的时候二者的超参数和模型权重都不一样，但通过必定模式训练以后对两个worker进行效果对比，发现worker0的效果会比worker1效果要好，这时候PBT就会把worker0的权重和超参数复制到worker1，worker0自己训练是不受影响的，而对于worker1来讲，它须要再作一步操做就是对复制过来的worker0的超参数加入一些扰动，使它与worker0的参数有所不一样而后再进行训练。这样至关于在训练过程中，把worker1的原始超参数给过滤掉了，并在好的超参基础上进行进一步的实验，从而加快搜索效率。

尤晓赫老师接着介绍了在训练效率上优化的加速方法，即DGC深度梯度压缩机制。DGC是由清华大学和斯坦福大学共同发表的论文提出的，由于观测到在分布式训练过程当中，各个worker和PS，或者各个worker之间都须要进行大量的梯度数据同步，而数据同步会花费大量带宽，对现代环境要求比较高，同时耗时也高，尤为随着训练节点增多，通讯开销也将成倍增加。基于此，DGC挑选出实际有效的梯度数据并进行压缩，从而大大减小分布式训练的途径开销。在论文中，DGC保证在梯度未损失状况下压缩比例达到270—600倍。Paddle Paddle在1.6.2的版本中开始集成了DGC的一些优化机制，百度将它用到了ACDL专业版中。经过对比实验获得在V100 GPU上加速是比较明显的，其中2机2卡单batch加速达到了9倍，2机4卡单batch加速达到了7.4倍。

最后一部分是EasyDL的实际应用案例，尤晓赫老师简单举了四个案例。第一个是医疗方面的，广州凯惠公司使用EasyDL图像分类创建了基于胸部X线影像的肺癌、肺炎和正常肺部等多种状况的诊断辨别模型，准确率达到90%以上，辅助医生诊断的过程当中有效提升医生诊断效率。第二个是制造业方面的，柳州源创公司使用了EasyDL物体检测模型，训练喷油嘴瑕疵检测模型，可节约人工检测成本约60万/年，检验效率提高约30%。第三个是零售行业方面的，自2018年1月起，惠合科技公司使用EasyDL训练商品检测模型，抽取3000家零售门店接入陈列审核，品牌客户在成本和效率上有了显著的改变，人员效率提高超过30%。还有在媒体上一些应用，百度做文小程序经过EasyDL文件分类训练识别出做文中运用了比喻、拟人等修辞的句子，并将修辞句子的数量做为一个参数来对文章质量进行打分，将文章质量高的结果排在前面。