联邦学习:人工智能的最后一公里

题图摄于北京奥林匹克森林公园

联邦学习是人工智能的一个崭新领域,被 CB Insights 称为 AI 领域 9 个最重要的研究和应用趋势之一。说起人工智能,大家一定不会陌生。自从上个世纪50、60年代提出概念以来,经过了几次起落,波峰波谷,现在我们正处于 2012 年以来的一波人工智能的热潮之中。人工智能技术已经从学术论文转变真实的应用,大家在很多方面都可以切身感受得到。

 

人工智能的有三个重要的成功因素:算法、算力和数据。三者之中,最重要的应该是数据。如果有高质量的数据,可以弥补算法和算力的不足的问题。联邦学习就是解决数据使用中的痛点。正如国际人工智能协会首位华人院士杨强老师所说:联邦学习将 “领跑人工智能最后一公里”。目前,联邦学习已经得到越来越广泛的关注。

我们 VMware 云原生实验室的团队也参与了联邦学习开源项目 FATE 和 KubeFATE 的开发,并且在近期也做了一系列的线上讲座的,后续将会分享内容给大家,敬请留意。

最近,在腾讯云 “云+社区” 的一次闭门会议中,笔者主持了联邦学习的专题讨论。我们荣幸地邀请到了 2 位老师:微众银行人工智能部副总经理陈天健老师、以及腾讯云大数据团队研发副总经雷小平老师,他们为我们带来了联邦学习的精彩分享。

下文转发腾讯云TVP(最具价值专家)团队的联邦学习专题会议回顾文章,略有修改。


没有哪一项技术像人工智能一样,绵延数十年,引领数次风口。从60 年前的达特茅斯会议到深蓝国际象棋再到  AlphaGo,人工智能一直在持续着迭代、创新。联邦学习,就是人工智能与大数据行业一个新兴的技术,它的出现,有望解决数据孤岛的难题。

但一项技术,如果没有商业落地场景,其价值也将大打折扣。联邦学习如何赋能数据产业,帮助企业挖掘数据价值?3月22日,腾讯云TVP技术闭门会讨论了这个走在时代前沿的话题。

点击视频,查看本期TVP技术闭门会精彩集锦

联邦学习激活了跨云大数据合作

           

“从整体趋势来看,国家对数据方面的监管是趋严的,对于数据保护的法律法规不断完善,开始向 GDPR 的思路靠拢,严格定义数据的控制权和监管数据的流动,在这种情况下跨云大数据合作基本不可行了。”

微众银行人工智能部副总经理陈天健老师在分享联邦学习带来的变化前,先为与会者介绍了跨云大数据合作的真实现状。跨机构间的大数据合作在严格的合规要求下难以推进,机构内的大数据合作却也遭遇了真实的瓶颈。

“很多企业解决内部数据流通的方式是搭建一个数据中台,设想中的这个数据中台建立以后,各部门非常和谐,通力合作,用大数据解决一系列问题。但实际上,决策者对数据中台的幻想,最后都变成了妄想。各个部门知道数据的价值,都希望使用别的部门数据,但是又不愿意泄露自己业务核心数据。权责不对等、安全性等问题,让企业内部的数据合作同样陷入困境。”

陈天健老师指出,数据合作难题背后有一个第一性原理需要解决:保证数据安全是大数据合作的基本命题。保证数据安全是大数据行业从第一天开始就一直在研究解决的问题,也是联邦学习出现的历史沿革:

  • 上世纪90年代到2000年左右,联邦数据库的概念被提出,力图解决存储安全。

  • 2010年到2015年间,安全多方计算的概念被提出,力图解决计算安全。

  • 2017年到现在,联邦学习的概念横空出世,力图保证信息安全。

大咖金语:

“联邦学习希望做到各个企业的自有数据不出本地,而后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。”

——陈天健

陈天健老师解释道,联邦学习目前有三种:横向联邦学习、纵向联邦学习和联邦迁移学习。相比较而言,纵向联邦学习的业务场景更多,目前行业上能做到纵向联邦学习的就只有微众银行、腾讯和 VMware 三家

微众银行在 Linux 基金会开源了一个工业级的联邦学习系统—— FATE。据陈天健老师介绍,FATE不仅提供了联邦学习原理性可以验证的全套代码,同时在系统的可用性、可靠性、数据安全可审计的特性,以及架构的可扩展性和其他软件的互操作性方面都进行了大量的工作和研究。

“FATE 在开源给社区以后,增加了管理功能,升级为FATE-Cloud,希望打破数据孤岛,为跨机构间,机构内部不同组织间提供安全,合规数据合作网络构建解决方案。也欢迎大家来试用,进一步理解联邦学习。”

在分享最后,陈天健老师也回答了一些关于联邦学习的观众提问,他还提到:与国外比较,中国在联邦学习方面不好说是否领先,但在商业化进展和技术社区推进的角度看,起码是与国外处于齐头并进的状态。

利用联邦学习强化数据价值

           

大咖金语:

“联邦学习的能力不管是在公有还是私有场景下都会有很多诉求,腾讯云神盾联邦学习团队希望将联邦学习能力产品化,提升用户在使用过程中的易用性,为数据供需双方提供商业价值。”

——雷小平

腾讯云大数据团队研发副总经理雷小平向与会者解释了腾讯云的联邦学习思路。他指出,不管是公有云还是私有云,对联邦学习的诉求都很多,而公有云能为联邦学习带来更多数据,让数据变得更活,这是腾讯云的解题思路。

雷小平在分享之初解释了联邦学习产生的背景,他重点提到了联邦学习的典型应用场景有风控应用场景和广告营销场景。这两个场景在数据应用当中都会有各自的特殊需求,传统的解决方案无外乎三种,且都有短板:

  1. 数据脱敏后直接传给另一方融合建模。短板:安全合规问题严重、审批流程复杂、可用数据范围有限;

  2. 各自建模后融合模型。短板:模型效果未能挖掘全部潜力,还有巨大的业务提升空间;

  3. 数据脱敏后统一放在可信环境做融合模型。短板:可信环境并不公平,安全问题仍然存在。

随后,雷小平老师总结了联邦学习的三种思路:

  1. ID匹配。不泄露查询方ID、不泄露非重叠ID;

  2. 四则运算。不泄露计算各方的数值;

  3. 机器学习。改造模型,减少数据交互;将数据交互抽象为四则运算。

基于此,联邦学习应运而生。雷小平老师指出,目前联邦学习并不能解决所有数据融合上的安全问题,它主要针对比较典型的机器学习场景,包括机器学习前的特征维度,以及学习完之后的数据服务都是联邦学习的范畴。对多方数据做sql安全计算目前还不属于联邦学习范畴下。

为服务于广大的 To B 场景客户,满足他们挖掘数据价值的需求,腾讯云神盾联邦学习团队做了一套完整的解决方案。雷小平介绍到,目前神盾产品具有两个典型场景,一个是拉新场景模型,另一个是首页预测模型。这个产品在用户侧的使用十分简单,从创建任务到安全求交、特征工程、特征选择、结果展示只需五步。

“我们的底层模型、训练框架是目前是基于微众银行的FATE框架做的,FATE框架现在是比较成熟的联邦学习框架,能够满足我们模型所有的要求,我们要做的就是在上层做环境的安全以及产品化易用性以及场景化的改造工作。”

雷小平老师最后指出,腾讯云神盾联邦学习产品是首批通过信通院认证的产品,在实际的客户案例中,给客户带来了实际的效能提升,真正做到了赋能大数据产业,让数据变“活”。

在最后的线上交流环节,雷小平老师也针对观众提问做出了精彩回答。

联邦学习是AI的新兴领域

           

VMware 首席架构师张海宁老师作为本场闭门会主持人,同时也是联邦学习的资深人士,他对本场活动做出了极具概括性的总结:

大咖金语:

“在我看来,联邦学习是AI领域一个非常新兴的方向。它能够满足用户进行联合建模,构造精确的人工智能模型,同时可以保证双方数据的隐私安全性。如果企业希望数据能够增值,把数据变成资产,同时收取一定的服务费,这是联邦学习非常有价值的点。20世纪石油是巨大的财富和资产,但是到了21世纪,一个公司最大的资产是数据,数据是最有价值的东西,数据如何变现产生新的价值,联邦学习可能是其中的一个思路或途径。”

——张海宁

可以想象,联邦学习将成为AI领域的下一个重点方向。从 2016 年由谷歌提出后,其发展势头堪称迅猛。更为关键的是,在联邦学习的众多玩家中,在技术实现和商业落地方面结合较好,走在前列的微众银行、VMware、腾讯云等企业将为联邦学习的生态建设和标准制定带来更强大的推动力。


相关文章:

《联邦学习FATE入门与应用实战》Docker部署直播回顾及ppt

《联邦学习FATE入门与应用实战》K8s部署直播回顾及ppt

欢迎点“在看”或分享给感兴趣的朋友。

要想了解更多云原生和人工智能等技术原理,请立即长按以下二维码,关注本公众号亨利笔记,以免错过更新。