Federated Machine Learning: Concept and Applications

郑重声明:原文参见标题,若有侵权,请联系做者,将会撤销发布!html

 

  今天的人工智能仍然面临两大挑战。一种是,在大多数行业中,数据以孤岛的形式存在。二是增强数据隐私和安全。咱们提出了一个解决这些挑战的可能方案:安全联邦学习。除了谷歌在2016年首次提出的联邦学习框架外,咱们还引入了一个全面的安全联邦学习框架,其中包括横向联邦学习、纵向联邦学习和联邦迁移学习。咱们为联邦学习框架提供定义、架构和应用程序,并提供关于这个主题的现有工做的全面调查。此外,咱们提出在组织之间创建基于联邦机制的数据网络,做为一种有效的解决方案,以容许在不损害用户隐私的状况下共享知识。算法

 

1  INTRODUCTION

  2016年是人工智能(AI)成熟的一年。随着AlphaGo[59]击败了顶尖的人类围棋玩家,咱们真正见证了人工智能(AI)的巨大潜力,并开始指望在许多包括无人驾驶汽车、医疗保健、金融等的应用中,使用更复杂、尖端的人工智能技术。现在,人工智能技术在几乎全部行业都能发挥其优点。然而,回顾人工智能的发展历程,人工智能的发展必然经历了几回起伏。人工智能会有下一个转弯吗?何时会出现?由于什么因素?当前公众对人工智能感兴趣的部分是由大数据可用性驱动的:2016年,AlphaGo使用了总计300000盘比赛做为训练数据,以取得优异的成绩。数据库

  随着AlphaGo的成功,人们天然但愿像AlphaGo这样的大数据驱动的人工智能可以在咱们生活的各个方面很快实现。然而,现实状况有些使人失望:除了少数行业外,大多数领域的数据都颇有限或质量较差,使得人工智能技术的实现比咱们想象的要困难。是否能够经过跨组织传输数据,将数据融合到一个公共站点中?事实上,在许多状况下,打破数据源之间的障碍即便不是不可能的,也是很是困难的。通常来讲,任何人工智能项目所需的数据涉及多种类型。例如,在人工智能驱动的产品推荐服务中,产品销售商拥有产品信息、用户购买数据,但没有描述用户购买能力和支付习惯的数据。在大多数行业中,数据以孤岛的形式存在。因为行业竞争、隐私安全和复杂的管理程序,甚至同一公司不一样部门之间的数据集成也面临着巨大的阻力。几乎不可能将分散在全国各地的数据和机构进行整合,不然成本是难以承受的。api

 

  与此同时,随着大公司在数据安全和用户隐私方面的妥协意识日益加强,对数据隐私和安全的重视已成为世界性的重大问题。有关公开数据泄露的消息引发了公众媒体和政府的极大关注。例如,最近Facebook的数据泄露引起了普遍的抗议[70]。做为回应,世界各国正在增强保护数据安全和隐私的法律。例如,欧盟于2018年5月25日实施的《通用数据保护条例》(GDPR)[19]。GDPR(图1)旨在保护用户的我的隐私和数据安全。它要求企业在用户协议中使用清晰明了的语言,并授予用户“被遗忘的权利”,即用户能够删除或撤回其我的数据。违反该法案的公司将面临严厉的罚款。美国和中国也在制定相似的隐私和安全行为。例如,2017年颁布的《中国网络安全法》和《民法通则》要求互联网企业不得泄露或篡改其收集的我的信息,在与第三方进行数据交易时,必须确保提议的合同遵循法律数据保护义务。这些法规的创建将明显有助于创建一个更加文明的社会,但也将对人工智能中经常使用的数据处理程序提出新的挑战。跨域

  更具体的说,人工智能中的传统数据处理模型一般涉及简单的数据交易模型,一方收集数据并将其传输给另外一方,另外一方负责数据的清理和融合。最后,第三方将获取集成数据并构建模型供其余方使用。这些模型一般做为最终的服务产品进行销售。这一传统程序面临着上述新数据法规和法律的挑战。此外,因为用户可能不清楚模型的将来用途,所以这些交易违反了GDPR等法律。所以,咱们面临着这样一个困境:咱们的数据是以孤岛的形式存在的,可是在许多状况下,咱们被禁止收集、融合和使用数据到不一样的地方进行人工智能处理。如何合法地解决数据碎片化和隔离问题是当今人工智能研究者和实践者面临的主要挑战。安全

 

2  AN OVERVIEW OF FEDERATED LEARNING

  联邦学习的概念最近由谷歌提出[36,37,41]。他们的主要想法是创建基于分布在多个设备上的数据集的机器学习模型,同时防止数据泄漏。最近的改进集中在克服统计挑战[60,77]和提升联邦学习的安全性[9,23]。还有一些研究努力使联邦学习更具个性化[13,60]。以上工做都集中在设备联邦学习上,涉及分布式移动用户交互,而且大规模分发中的通讯成本、不平衡的数据分布和设备可靠性是优化的主要因素之一。此外,数据是经过用户ID或设备ID进行划分的,所以,在数据空间中是横向的。这一类工做与隐私保护机器学习(privacy-preserving machine  learning,如[58])很是相关,由于它还考虑了分散协做学习设置中的数据隐私。为了将联邦学习的概念扩展到涵盖组织间的协做学习场景,咱们将原始的“联邦学习”扩展成全部隐私保护分散协做机器学习技术的通常概念。在[71]中,咱们对联邦学习和联邦迁移学习技术进行了初步概述。在本文中,咱们进一步调查了相关的安全基础,并探讨了与其余几个相关领域的关系,如多代理理论和隐私保护数据挖掘。在本节中,咱们提供了一个更全面的联邦学习定义,它考虑了数据划分、安全性和应用程序。咱们还描述了联邦学习系统的工做流和系统架构。服务器

 

2.1  Definition of Federated Learning网络

 

2.2  Privacy of Federated Learning数据结构

  隐私是联邦学习的基本属性之一。这须要安全模型和分析来提供有意义的隐私保证。在本节中,咱们简要回顾和比较联邦学习的不一样隐私技术,并肯定防止间接泄漏的方法和潜在挑战。架构

  安全多方计算(SMC):SMC安全模型天然包含多方,并在一个定义明确的仿真框架中提供安全证实,以保证彻底零知识,即除了输入和输出以外,各方什么都不知道。零知识是很是可取的,但这种要求的属性一般须要复杂的计算协议,而且可能没法有效地实现。在某些状况下,若是提供了安全保证,则能够认为部分知识披露是可接受的。在安全性要求较低的状况下,能够用SMC创建安全模型,以换取效率[16]。最近,研究[46]使用SMC框架对具备两个服务器和半诚实假设的机器学习模型进行训练。参考文献[33]使用MPC协议进行模型训练和验证,无需用户透露敏感数据。最早进的SMC框架之一是ShareMind[8]。参考文献[44]提出了一个3PC模型[5,21,45],以诚实的多数,并考虑了在半诚实和恶意假设中的安全性。这些工做要求参与者的数据在非协做服务器之间秘密共享。

  差别隐私:另外一项工做使用差分隐私技术[18]或k-匿名[63]来保护数据隐私[1,12,42,61]。差别隐私、k-匿名和多样化[3]的方法涉及在数据中添加噪声,或使用泛化方法来模糊某些敏感属性,直到第三方没法区分个体,从而使数据没法还原来保护用户隐私。然而,这些方法的根源仍然要求数据传输到别处,而这些工做一般涉及准确性和隐私之间的权衡。在[23]中,做者介绍了联邦学习的差别隐私方法,以便经过在训练期间隐藏客户的贡献来增长对客户机端数据的保护。

  同态加密:在机器学习过程当中,也能够采用同态加密[53]的方法,经过加密机制下的参数交换来保护用户数据隐私[2四、2六、48]。与差别隐私保护不一样,数据和模型自己不会被传输,也不能经过另外一方的数据对其进行推测。所以,原始数据级别的泄漏可能性很小。最近的工做采用同态加密来集中和训练云上的数据[75,76]。在实践中,加法同态加密[2]被普遍使用,须要进行多项式近似来评估机器学习算法中的非线性函数,从而在准确性和隐私性之间进行权衡[4,35]。

 

2.2.1  Indirect information leakage

  联邦学习的先驱工做揭示了诸如随机梯度降低(SGD)等优化算法的参数更新等中间结果,可是没有提供安全保证。当与数据结构(如图像像素)一块儿曝光时,这些梯度的泄漏实际上可能泄漏重要的数据信息[51]。研究人员已经考虑到这样一种状况:联邦学习系统的一个成员经过植入后门来学习其余人的数据,恶意攻击其余人。在[6]中,做者证实了在一个联邦全局模型中植入隐藏后门的可能性,并提出了一种新的“约束和缩放”模型中毒法来减小数据中毒。在[43]中,研究人员发现了协做机器学习系统中存在的潜在漏洞,在该系统中,不一样参与方在协做学习中使用的训练数据容易受到推理攻击。他们代表,一个敌对的参与者能够推断成员资格以及与训练数据子集相关的属性。他们还讨论了针对这些攻击的可能防护措施。在[62]中,做者揭示了与不一样方之间的梯度交换有关的潜在安全问题,并提出了梯度降低法的一种安全变体,并代表它能够容忍必定常数比例的拜占庭用户(参见拜占庭将军问题)。

  研究人员也开始考虑将区块链做为促进联邦学习的平台。在[34]中,研究人员考虑了一种区块链联邦学习(BlockFL)结构,其中移动设备的本地学习模型更新经过区块链进行交换和验证。他们考虑了最佳块生成、网络可扩展性和鲁棒性问题。

 

2.3  A Categorization of Federated Learning

  在本节中,咱们将讨论如何根据数据的分布特征对联邦学习进行分类。

 

 

2.3.1  Horizontal Federated Learning

  横向联邦学习,或者基于样本的联邦学习,被引入到数据集共享相同的特征空间,但样本不一样的场景中(图2a)。例如,两个区域性银行的用户组可能因为各自的区域很是不一样,其用户的交叉集很是小。可是,它们的业务很是类似,所以特征空间是相同的。参考文献[58]提出了一个协做式深度学习方案,参与者独立训练,只共享参数更新的子集。2017年,谷歌提出了一个横向联邦学习解决方案,用于Android手机模型更新[41]。在该框架中,使用Android手机的单个用户在本地更新模型参数,并将参数上传到Android云,从而与其余数据全部者共同训练集中式模型。[9]还介绍了一种安全的聚合方案,以保护在联邦学习框架下聚合用户更新的隐私。参考文献[51]对模型参数聚合使用加法同态加密来提供对中央服务器的安全性。

  在[60]中,提出了一种多任务风格的联邦学习系统,容许多个站点在共享知识和维护安全的同时完成不一样的任务。他们提出的多任务学习模型还能够解决高通讯成本、分散和容错问题。在[41]中,做者提出构建一个安全的客户机-服务器结构,在该结构中,联邦学习系统按用户划分数据,并容许在客户机设备上构建的模型,用来在服务器站点上协做,以构建一个全局联邦模型。模型的创建过程确保了数据不泄漏。一样,在[36]中,做者提出了提升通讯成本的方法,以便于基于分布在移动客户端上的数据对训练获得集中式模型。近年来,为了在大规模分布式训练中大幅度下降通讯带宽,[39]提出了一种称为深度梯度压缩的压缩方法。

  咱们将横向联邦学习总结为:

  安全定义:横向联邦学习系统一般假设诚实的参与者和对于诚实但好奇的服务器的安全性[9,51]。也就是说,只有服务器才能危害数据参与者的隐私。这些工做提供了安全证实。最近,另外一个考虑恶意用户[29]的安全模型也被提出,这给隐私带来了额外的挑战。在训练结束时,通用模型和整个模型参数将向全部参与者公开。

 

2.3.2  Vertically Federated Learning. 针对纵向分割数据,提出了隐私保护机器学习算法,包括协同统计分析[15]、关联规则挖掘[65]、安全线性回归[22,32,55]、分类[16]和梯度降低[68]。最近,参考文献[27,49]提出了一个纵向联邦学习方案来训练一个隐私保护逻辑回归模型。做者研究了实体分辨率对学习性能的影响,并将泰勒近似应用于损失函数和梯度函数,使同态加密能够用于隐私保护计算。

  纵向联邦学习,或基于特征的联邦学习(图2b)适用于两个数据集共享相同的样本ID空间,但特征空间不一样的状况。例如,考虑同一城市中的两个不一样公司,一个是银行,另外一个是电子商务公司。他们的用户集可能包含该区域的大多数居民,所以他们的用户空间的交叉很大。然而,因为银行记录了用户的收支行为和信用评级,电子商务保留了用户的浏览和购买历史,因此其特征空间有很大的不一样。假设咱们但愿双方都有一个基于用户和产品信息的产品购买预测模型。

  纵向联邦学习是将这些不一样的特征聚合在一块儿,以一种隐私保护的方式计算训练损失和梯度的过程,以便用双方的数据协做构建一个模型。在这种联邦机制下,每一个参与方的身份和地位是相同的,联邦系统帮助每一个人创建“共同财富”策略,这就是为何这个系统被称为“联邦学习”。所以,在这样一个系统中,咱们有:

  安全定义:纵向联邦学习系统一般假设参与者诚实但好奇。例如,在两党制的状况下,两党是不串通的,并且其中至多有一方会向对手妥协。安全性定义是,对手只能从其损坏的客户机中获取数据,而不能从输入和输出显示的其余客户机中获取数据。为了便于双方安全计算,有时会引入半诚实第三方(STP),在这种状况下,假定STP不会与任何一方串通。SMC为这些协议[25]提供了正式的隐私证实。在学习结束时,每一方只拥有与其自身特性相关的模型参数,所以在推断时,双方还须要协做生成输出。

 

2.3.3  Federated Transfer Learning(FTL)

  联邦迁移学习适用于两个数据集不只在样本上不一样,并且在特征空间也不一样的场景。考虑两个机构,一个是位于中国的银行,另外一个是位于美国的电子商务公司。因为地域的限制,两个机构的用户群有一个小的交叉点。另外一方面,因为业务的不一样,双方的功能空间只有一小部分重叠。在这种状况下,能够应用迁移学习[50]技术为联邦下的整个样本和特征空间提供解决方案(图2c)。特别地,使用有限的公共样本集学习两个特征空间之间的公共表示,而后应用于获取仅具备单侧特征的样本预测。FTL是对现有联邦学习系统的一个重要扩展,由于它处理的问题超出了现有联邦学习算法的范围:

  安全定义:联邦迁移学习系统一般涉及两个方面。以下一节所示,它的协议相似于纵向联邦学习中的协议,在这种状况下,纵向联合学习的安全定义能够扩展到这里。

 

2.4  Architecture for a federated learning system

  在本节中,咱们将举例说明联邦学习系统的通常架构。请注意,横向和纵向联邦学习系统的架构在设计上是很是不一样的,咱们将分别介绍它们。

2.4.1  Horizontal Federated Learning

  横向联邦学习系统的典型架构如图3所示。在该系统中,具备相同数据结构的k个参与者经过参数或云服务器协同窗习机器学习模型。一个典型的假设是参与者是诚实的,而服务器是诚实但好奇的,所以不容许任何参与者向服务器泄漏信息[51]。这种系统的训练过程一般包括如下四个步骤:

  • 第一步:参与者在本地计算训练梯度,使用加密[51]、差别隐私[58]或秘密共享[9]技术掩饰所选梯度,并将掩码后的结果发送到服务器;             
  • 第二步:服务器执行安全聚合,不了解任何参与者的信息;             
  • 第三步:服务器将汇总后的结果发送给参与者;             
  • 第四步:参与者用解密的梯度更新他们各自的模型。

  经过上述步骤进行迭代,直到损失函数收敛,从而完成整个训练过程。该结构独立于特定的机器学习算法(逻辑回归、DNN等),全部参与者将共享最终的模型参数。

  安全性分析:若是梯度聚合是使用SMC[9]或同态加密[51]完成的,则证实上述结构能够保护数据泄漏不受半诚实服务器的影响。但它可能会受到另外一种安全模式的攻击,即恶意参与者在协做学习过程当中训练生成对抗网络(GAN)[29]。

 

2.4.2  Vertical Federated Learning

  假设A公司和B公司想要联合训练一个机器学习模型,而且他们的业务系统都有本身的数据。此外,B公司还拥有模型须要预测的标签数据。因为数据隐私和安全缘由,A和B不能直接交换数据。为了确保训练过程当中数据的保密性,引入了第三方合做者C。在此,咱们假设合做者C是诚实的,不与A或B勾结,但A和B是诚实但彼此好奇的。一个可信的第三方C是一个合理的假设,由于C能够由政府等权威机构发挥做用,或由安全计算节点,如Intel Software Guard Extensions(SGX)[7]取代。联邦学习系统由两部分组成,如图4所示。

  第一部分:加密实体对齐。因为两家公司的用户组不一样,系统使用基于加密的用户ID对齐技术,如[38,56],来确认双方的共同用户,而A和B不会暴露各自的数据。在实体对齐过程当中,系统不会公开彼此不重叠的用户。

  第二部分:加密模型训练。在肯定了公共实体以后,咱们可使用这些公共实体的数据来训练机器学习模型。训练过程可分为如下四个步骤(如图4所示):

  • 第一步:第三方合做者C建立加密对,将公钥发送给A和B;
  • 第二步:A、B对梯度和损失计算须要的中间结果进行加密与交换;
  • 第三步:A、B分别计算加密梯度并添加额外的掩码,B也计算加密损失;A和B向C发送加密值;
  • 第四步:C解密并将解密后的梯度和损失发送回A、B;A和B除去梯度上的掩码,相应地更新模型参数。

  具体步骤见表1和表2。在实体对齐和模型训练过程当中,A和B的数据在本地保存,训练中的数据交互不会致使数据隐私泄露。注:向C泄漏的潜在信息可能被视为侵犯隐私。为了进一步阻止C从A或B中学到信息,在这种状况下,A和B能够经过添加加密的随机掩码进一步向C隐藏其梯度。所以,双方在联邦学习的帮助下实现了共同模型的训练。由于在训练过程当中,每一方收到的损失和梯度与他们在一个没有隐私限制的地方汇聚数据,而后联合创建一个模型收到的损失和梯度是彻底相同的,也就是说,这个模型是无损的。模型的效率取决于加密数据的通讯成本和计算成本。在每次迭代中,A和B之间发送的信息按重叠样本的数量进行缩放。所以,采用分布式并行计算技术能够进一步提升算法的效率。

  安全性分析:表1所示的训练协议没有向C透露任何信息,由于全部C学习的都是掩码后的梯度,而且保证了掩码矩阵的随机性和保密性[16]。在上述协议中,A方在每一步都会学习其梯度,但这不足以让A根据等式8从B中学习任何信息,由于标量积协议的安全性是创建在没法用n个方程解n个以上未知数[16,65]的基础上的。这里咱们假设样本数NA比nA大得多,其中nA是特征数。一样,B方也不能从A处得到任何信息,所以协议的安全性获得了证实。注意,咱们假设双方都是半诚实的。若是一方是恶意的,而且经过伪造其输入来欺骗系统,例如,A方只提交一个只有一个非零特征的非零输入,它能够辨别该样本的该特征值uiB。可是,它仍然不能辨别xiB或ΘB,而且误差会扭曲下一次迭代的结果,从而警告另外一方终止学习过程。在训练过程结束时,每一方(A或B)都会不会察觉到另外一方的数据结构,只获取与其自身特征相关的模型参数。推断时,双方须要协同计算预测结果,步骤如表2所示,这仍不会致使信息泄露。

 

2.4.3  Federated Transfer Learning

  假设在上面的纵向联邦学习示例中,A方和B方只有一组很是小的重叠样本,而且咱们但愿学习A方中全部数据集的标签。到目前为止,上述部分描述的架构仅适用于重叠的数据集。为了将它的覆盖范围扩展到整个样本空间,咱们引入了迁移学习。这并无改变图4所示的整体架构,而是改变了A、B双方之间交换的中间结果的细节,具体来讲,迁移学习一般涉及学习A、B双方特征之间的共同表示,并最小化利用源域方(在本例中为B)中的标签预测目标域方的标签时的出错率。所以,A方和B方的梯度计算不一样于纵向联邦学习场景中的梯度计算。在推断时,仍然须要双方计算预测结果。

 

2.4.4  Incentives Mechanism

  为了将不一样组织之间的联邦学习充分商业化,须要开发一个公平的平台和激励机制[20]。模型创建后,模型的性能将在实际应用中体现出来,这种性能能够记录在永久数据记录机制(如区块链)中。提供更多数据的组织会更好,模型的有效性取决于数据提供者对系统的贡献。这些模型的有效性基于联邦机制分发给各方,并继续激励更多组织加入数据联邦。

  上述架构的实现不只考虑了多个组织之间协做建模的隐私保护和有效性,还考虑了如何奖励贡献更多数据的组织,以及如何经过共识机制实施激励。所以,联邦学习是一种“闭环”学习机制。

 

3  RELATED WORKS

  联邦学习使多方可以协做构建机器学习模型,同时保持其训练数据的私有性。联邦学习做为一种新的技术,具备多个创新的思路,其中一些思路植根于现有的领域。下面咱们从多个角度解释联邦学习和其余相关概念之间的关系。

 

3.1  Privacy-preserving machine learning

  联邦学习能够看做是一种隐私保护的分散式协做机器学习,所以它与多方隐私保护机器学习密切相关。过去许多研究工做都致力于这一领域。例如,参考文献[17,67]提出了用于纵向划分数据的安全多方决策树算法。Vaidya和Clifton提出了安全关联挖掘规则[65]、安全k-means[66]、用于纵向划分数据的朴素贝叶斯分类器[64]。参考文献[31]提出了一种横向划分数据关联规则的算法。针对纵向划分数据[73]和横向划分数据[74]开发了安全支持向量机算法。参考文献[16]提出了多方线性回归和分类的安全协议。参考文献[68]提出了安全的多方梯度降低方法。以上工做均使用安全多方计算(SMC)[25,72]来保证隐私。

  Nikolaenko等人[48]使用同态加密和姚式混乱电路实现了横向划分数据线性回归的隐私保护协议,参考文献[22,24]提出了纵向划分数据的线性回归方法。这些系统直接解决了线性回归问题。参考文献[47]探讨了随机梯度降低(SGD)问题,并提出了逻辑回归和神经网络的隐私保护协议。最近,[44]提出了一个三服务器模型的后续工做。Aono等人[4]提出了一种使用同态加密的安全逻辑回归协议。Shokri和Shmatikov[58]提出了基于更新参数交换的横向划分数据的神经网络训练。参考文献[51]使用了加法同态加密来保护梯度的隐私,并加强了系统的安全性。随着深度学习的不断进步,隐私保护的神经网络推断也受到了普遍的研究[10,11,14,28,40,52,54]。

 

3.2  Federated Learning vs Distributed Machine Learning

  横向联邦学习乍一看有点相似于分布式机器学习。分布式机器学习包括训练数据的分布式存储、计算任务的分布式操做、模型结果的分布式分布等多个方面,参数服务器[30]是分布式机器学习中的一个典型元素。做为加速训练过程的工具,参数服务器将数据存储在分布式工做节点上,经过中央调度节点分配数据和计算资源,从而更有效地训练模型。对于横向联邦学习,工做节点表示数据全部者。它对本地数据具备彻底的自主性,能够决定什么时候以及如何加入联邦学习。在参数服务器中,中心节点始终处于控制状态,所以联邦学习面临着一个更加复杂的学习环境。其次,联邦学习强调在模型训练过程当中数据全部者的数据进行隐私保护。数据隐私保护的有效措施能够更好地应对将来日益严格的数据隐私和数据安全监管环境。

  与分布式机器学习设置同样,联邦学习也须要处理非IID数据。在[77]中显示,使用非IID本地数据,联邦学习的性能会大大下降。做为回应,做者提供了一种新的方法来解决相似于迁移学习的问题。

 

3.3  Federated Learning vs Edge Computing

  联邦学习能够看做是边缘计算的操做系统,由于它为协调和安全提供了学习协议。在[69]中,做者考虑了使用基于梯度降低的方法训练的机器学习模型的通常类。他们从理论上分析了分布式梯度降低的收敛边界,在此基础上提出了一种控制算法,在给定的资源预算下,肯定局部更新和全局参数聚合之间的最佳权衡,以最小化损失函数。

 

3.4  Federated Learning vs Federated Database Systems

  联邦数据库系统[57]是集成多个数据库单元并对其进行总体管理的系统。为了实现与多个独立数据库的交互操做性,提出了联邦数据库的概念。联邦数据库系统一般使用分布式存储做为数据库单元,实际上,每一个数据库单元中的数据都是异构的。所以,在数据类型和存储方面,它与联邦学习有许多类似之处。可是,联邦数据库系统在交互过程当中不涉及任何隐私保护机制,全部数据库单元对管理系统都是彻底可见的。此外,联邦数据库系统的重点是数据的基本操做,包括插入、删除、搜索和合并等,而联邦学习的目的是在保护数据隐私的前提下为每一个数据全部者创建一个联合模型,以便数据中包含的各类值和规则对咱们的服务更好。

 

4  APPLICATIONS 

  联邦学习做为一种创新的建模机制,能够在不影响数据隐私和安全的状况下,对来自多个方面的数据进行统一的建模,在销售、金融和许多其余行业中有着很好的应用前景,在这些行业中,因为知识产权、隐私保护和数据安全等因素,数据不能直接汇聚用来训练机器学习模型。

  以智能零售为例。其目的是利用机器学习技术为客户提供个性化服务,主要包括产品推荐和销售服务。智能零售业务涉及的数据特征主要包括用户购买力、用户我的偏好和产品特征。在实际应用中,这三个数据特性可能分散在三个不一样的部门或企业中。例如,一个用户的购买力能够从她的银行存款中推断出来,她的我的偏好能够从她的社交网络中分析出来,而产品的特征则由一个电子商店记录下来。在这种状况下,咱们面临两个问题。首先,为了保护数据隐私和数据安全,银行、社交网站和电子购物网站之间的数据壁垒很难打破。所以,不能直接聚合数据来训练模型。第二,三方存储的数据一般是异构的,传统的机器学习模型不能直接处理异构数据。目前,传统的机器学习方法尚未有效地解决这些问题,阻碍了人工智能在更多领域的推广应用。

  联邦学习和迁移学习是解决这些问题的关键。首先,利用联邦学习的特色,能够在不导出企业数据的状况下,为三方创建机器学习模型,既充分保护了数据隐私和数据安全,又为客户提供个性化、有针对性的服务,还顺便实现了互惠互利。同时,咱们能够利用迁移学习来解决数据异质性问题,突破传统人工智能技术的局限性。所以,联邦学习为咱们构建跨企业、跨数据、跨域的大数据和人工智能生态圈提供了良好的技术支持。

  可使用联邦学习框架进行多方数据库查询,而无需公开数据。例如,假设在金融应用程序中,咱们有兴趣检查多方借款,这是银行业的一个主要风险因素。当某些用户恶意向一家银行借款以支付另外一家银行的贷款时,就会发生这种状况。多方借款是对金融稳定的威胁,由于大量的此类非法行为可能致使整个金融体系崩溃。为了找到这样的用户而不在银行A和银行B之间公开用户列表,咱们能够利用联邦学习框架。特别是,咱们可使用联邦学习的加密机制,对每一方的用户列表进行加密,而后在联邦中找到加密列表之间的交集。最终结果的解密提供了多方借款人的列表,而不会将其余“好”用户暴露给另外一方。正如咱们将在下面看到的,这个操做对应于纵向联邦学习框架。

  智慧医疗是另外一个领域,咱们预计这将大大受益于联邦学习技术的兴起。疾病症状、基因序列、医学报告等医学数据是很是敏感和私密的,然而医学数据很难收集,它们存在于孤立的医疗中心和医院中。数据源的不足和标签的缺少致使机器学习模型的性能不理想,成为当前智慧医疗的瓶颈。咱们设想,若是全部的医疗机构都联合起来,共享他们的数据,造成一个大型的医疗数据集,那么在该大型医疗数据集上训练的机器学习模型的性能将显著提升。联邦学习与迁移学习相结合是实现这一愿景的主要途径。迁移学习能够应用于填补缺失的标签,从而扩大可用数据的规模,进一步提升训练模型的性能。所以,联邦迁移学习将在智慧医疗发展中发挥关键做用,它可能将人类健康保健提高到一个全新的水平。

5  FEDERATED LEARNING AND DATA ALLIANCE OF ENTERPRISES

  联邦学习不只是一种技术标准,也是一种商业模式。当人们意识到大数据的影响时,他们首先想到的是将数据聚合在一块儿,经过远程处理器计算模型,而后下载结果供进一步使用。云计算就是在这种需求下产生的。然而,随着数据隐私和数据安全的重要性愈来愈高,以及公司利润与其数据之间的关系愈来愈密切,云计算模型受到了挑战。然而,联邦学习的商业模式为大数据的应用提供了一个新的范例。当各个机构所占用的孤立数据不能产生理想的模型时,联邦学习机制使得机构和企业能够在不进行数据交换的状况下共享一个统一的模型。此外,在区块链技术的共识机制的帮助下,联邦学习能够制定公平的利润分配规则。不管数据拥有的规模如何,数据拥有者都会被激励加入数据联盟,并得到本身的利润。咱们认为,创建数据联盟的业务模型和联邦学习的技术机制应该一块儿进行。咱们还将为各个领域的联邦学习制定标准,以便尽快投入使用。

 

6   CONCLUSIONS AND PROSPECTS

  近年来,数据的隔离和对数据隐私的强调正成为人工智能的下一个挑战,可是联邦学习给咱们带来了新的但愿。它能够在保护本地数据的同时,为多个企业创建一个统一的模型,使企业在以数据安全为前提的状况下共同取胜。本文概述了联邦学习的基本概念、体系结构和技术,并讨论了它在各类应用中的潜力。预计在不久的未来,联邦学习将打破行业之间的障碍,创建一个能够与安全共享数据和知识的社区,并根据每一个参与者的贡献公平分配利益。人工智能的好处最终会带到咱们生活的每一个角落。

 

REFERENCES

[1] Martin Abadi, Andy Chu, Ian Goodfellow, H. Brendan McMahan, Ilya Mironov, Kunal Talwar, and Li Zhang. 2016. Deep Learning with Differential Privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (CCS ’16). ACM, New York, NY, USA, 308–318. https://doi.org/10.1145/2976749.2978318
[2] Abbas Acar, Hidayet Aksu, A. Selcuk Uluagac, and Mauro Conti. 2018. A Survey on Homomorphic Encryption Schemes: Theory and Implementation. ACM Comput. Surv. 51, 4, Article 79 (July 2018), 35 pages. https://doi.org/10.1145/3214303
[3] Rakesh Agrawal and Ramakrishnan Srikant. 2000. Privacy-preserving Data Mining. In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data (SIGMOD ’00). ACM, New York, NY, USA, 439–450. https://doi.org/10.1145/342009.335438
[4] Yoshinori Aono, Takuya Hayashi, Le Trieu Phong, and Lihua Wang. 2016. Scalable and Secure Logistic Regression via Homomorphic Encryption. In Proceedings of the Sixth ACM Conference on Data and Application Security and Privacy (CODASPY ’16). ACM, New York, NY, USA, 142–144. https://doi.org/10.1145/2857705.2857731
[5] Toshinori Araki, Jun Furukawa, Yehuda Lindell, Ariel Nof, and Kazuma Ohara. 2016. High-Throughput Semi-Honest Secure Three-Party Computation with an Honest Majority. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (CCS ’16). ACM, New York, NY, USA, 805–817. https://doi.org/10.1145/2976749. 2978331
[6] Eugene Bagdasaryan, Andreas Veit, Yiqing Hua, Deborah Estrin, and Vitaly Shmatikov. 2018. How To Backdoor Federated Learning. arXiv:cs.CR/1807.00459
[7] Raad Bahmani, Manuel Barbosa, Ferdinand Brasser, Bernardo Portela, Ahmad-Reza Sadeghi, Guillaume Scerri, and Bogdan Warinschi. 2017. Secure Multiparty Computation from SGX. In Financial Cryptography and Data Security - 21st International Conference, FC 2017, Sliema, Malta, April 3-7, 2017, Revised Selected Papers. 477–497. https://doi.org/10.1007/978-3-319-70972-7_27
[8] Dan Bogdanov, Sven Laur, and Jan Willemson. 2008. Sharemind: A Framework for Fast Privacy-Preserving Computations. In Proceedings of the 13th European Symposium on Research in Computer Security: Computer Security (ESORICS ’08). Springer-Verlag, Berlin, Heidelberg, 192–206. https://doi.org/10.1007/978-3-540-88313-5_13
[9] Keith Bonawitz, Vladimir Ivanov, Ben Kreuter, Antonio Marcedone, H. Brendan McMahan, Sarvar Patel, Daniel Ramage, Aaron Segal, and Karn Seth. 2017. Practical Secure Aggregation for Privacy-Preserving Machine Learning. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (CCS ’17). ACM, New York, NY, USA, 1175–1191. https://doi.org/10.1145/3133956.3133982
[10] Florian Bourse, Michele Minelli, Matthias Minihold, and Pascal Paillier. 2017. Fast Homomorphic Evaluation of Deep Discretized Neural Networks. IACR Cryptology ePrint Archive 2017 (2017), 1114.

[11] Hervé Chabanne, Amaury de Wargny, Jonathan Milgram, Constance Morel, and Emmanuel Prouff. 2017. Privacy-Preserving Classification on Deep Neural Network. IACR Cryptology ePrint Archive 2017 (2017), 35.
[12] Kamalika Chaudhuri and Claire Monteleoni. 2009. Privacy-preserving logistic regression. In Advances in Neural Information Processing Systems 21, D. Koller, D. Schuurmans, Y. Bengio, and L. Bottou (Eds.). Curran Associates, Inc., 289–296. http://papers.nips.cc/paper/3486-privacy-preserving-logistic-regression.pdf
[13] Fei Chen, Zhenhua Dong, Zhenguo Li, and Xiuqiang He. 2018. Federated Meta-Learning for Recommendation. CoRR abs/1802.07876 (2018). arXiv:1802.07876 http://arxiv.org/abs/1802.07876
[14] Nathan Dowlin, Ran Gilad-Bachrach, Kim Laine, Kristin Lauter, Michael Naehrig, and John Wernsing. 2016. CryptoNets: Applying Neural Networks to Encrypted Data with High Throughput and Accuracy. Technical Report. https://www.microsoft.com/en-us/research/publication/cryptonets-applying-neural-networks-to-encrypted-data-with-high-throughput-and-accuracy/
[15] W. Du and M. Atallah. 2001. Privacy-Preserving Cooperative Statistical Analysis. In Proceedings of the 17th Annual Computer Security Applications Conference (ACSAC ’01). IEEE Computer Society, Washington, DC, USA, 102–. http://dl.acm.org/citation.cfm?id=872016.872181
[16] Wenliang Du, Yunghsiang Sam Han, and Shigang Chen. 2004. Privacy-Preserving Multivariate Statistical Analysis: Linear Regression and Classification. In SDM.
[17] Wenliang Du and Zhijun Zhan. 2002. Building Decision Tree Classifier on Private Data. In Proceedings of the IEEE International Conference on Privacy, Security and Data Mining - Volume 14 (CRPIT ’14). Australian Computer Society, Inc., Darlinghurst, Australia, Australia, 1–8. http://dl.acm.org/citation.cfm?id=850782.850784
[18] Cynthia Dwork. 2008. Differential Privacy: A Survey of Results. In Proceedings of the 5th International Conference on Theory and Applications of Models of Computation (TAMC’08). Springer-Verlag, Berlin, Heidelberg, 1–19. http://dl.acm.org/citation.cfm?id=1791834.1791836
[19] EU. 2016. REGULATION (EU) 2016/679 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation). Available at: https://eur-lex. europa. eu/legal-content/EN/TXT (2016).
[20] Boi Faltings, Goran Radanovic, and Ronald Brachman. 2017. Game Theory for Data Science: Eliciting Truthful Information. Morgan & Claypool Publishers.

[21] Jun Furukawa, Yehuda Lindell, Ariel Nof, and Or Weinstein. 2016. High-Throughput Secure Three-Party Computation for Malicious Adversaries and an Honest Majority. Cryptology ePrint Archive, Report 2016/944. https://eprint.iacr.org/2016/944.
[22] Adrià Gascón, Phillipp Schoppmann, Borja Balle, Mariana Raykova, Jack Doerner, Samee Zahur, and David Evans. 2016. Secure Linear Regression on Vertically Partitioned Datasets. IACR Cryptology ePrint Archive 2016 (2016), 892.
[23] Robin C. Geyer, Tassilo Klein, and Moin Nabi. 2017. Differentially Private Federated Learning: A Client Level Perspective. CoRR abs/1712.07557 (2017). arXiv:1712.07557 http://arxiv.org/abs/1712.07557
[24] Irene Giacomelli, Somesh Jha, Marc Joye, C. David Page, and Kyonghwan Yoon. 2017. Privacy-Preserving Ridge Regression with only Linearly-Homomorphic Encryption. Cryptology ePrint Archive, Report 2017/979. https://eprint.iacr.org/2017/979.
[25] O. Goldreich, S. Micali, and A. Wigderson. 1987. How to Play ANY Mental Game. In Proceedings of the Nineteenth Annual ACM Symposium on Theory of Computing (STOC ’87). ACM, New York, NY, USA, 218–229. https://doi.org/10.1145/28395.28420
[26] Rob Hall, Stephen E. Fienberg, and Yuval Nardi. 2011. Secure multiple linear regression based on homomorphic encryption. Journal of Official Statistics 27, 4 (2011), 669–691.
[27] Stephen Hardy, Wilko Henecka, Hamish Ivey-Law, Richard Nock, Giorgio Patrini, Guillaume Smith, and Brian Thorne. 2017. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption. CoRR abs/1711.10677 (2017).
[28] Ehsan Hesamifard, Hassan Takabi, and Mehdi Ghasemi. 2017. CryptoDL: Deep Neural Networks over Encrypted Data. CoRR abs/1711.05189 (2017). arXiv:1711.05189 http://arxiv.org/abs/1711.05189
[29] Briland Hitaj, Giuseppe Ateniese, and Fernando Pérez-Cruz. 2017. Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning. CoRR abs/1702.07464 (2017).
[30] Qirong Ho, James Cipar, Henggang Cui, Jin Kyu Kim, Seunghak Lee, Phillip B. Gibbons, Garth A. Gibson, Gregory R. Ganger, and Eric P. Xing. 2013. More Effective Distributed ML via a Stale Synchronous Parallel Parameter Server. In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 1 (NIPS’13). Curran Associates Inc., USA, 1223–1231. http://dl.acm.org/citation.cfm?id=2999611.2999748
[31] Murat Kantarcioglu and Chris Clifton. 2004. Privacy-Preserving Distributed Mining ofAssociation Rules on Horizontally Partitioned Data. IEEE Trans. on Knowl. and Data Eng. 16, 9 (Sept. 2004), 1026–1037. https://doi.org/10.1109/TKDE.2004.45

[32] Alan F. Karr, X. Sheldon Lin, Ashish P. Sanil, and Jerome P. Reiter. 2004. Privacy-Preserving Analysis of Vertically Partitioned Data Using Secure Matrix Products.
[33] Niki Kilbertus, Adria Gascon, Matt Kusner, Michael Veale, Krishna Gummadi, and Adrian Weller. 2018. Blind Justice: Fairness with Encrypted Sensitive Attributes. In Proceedings of the 35th International Conference on Machine Learning (Proceedings of Machine Learning Research), Jennifer Dy and Andreas Krause (Eds.), Vol. 80. PMLR, Stockholmsmässan, Stockholm Sweden, 2630–2639. http://proceedings.mlr.press/v80/kilbertus18a.html
[34] Hyesung Kim, Jihong Park, Mehdi Bennis, and Seong-Lyun Kim. 2018. On-Device Federated Learning via Blockchain and its Latency Analysis. arXiv:cs.IT/1808.03949
[35] Miran Kim, Yongsoo Song, Shuang Wang, Yuhou Xia, and Xiaoqian Jiang. 2018. Secure Logistic Regression Based on Homomorphic Encryption: Design and Evaluation. JMIR Med Inform 6, 2 (17 Apr 2018), e19. https://doi.org/10.2196/medinform.8805
[36] Jakub Konecný, H. Brendan McMahan, Daniel Ramage, and Peter Richtárik. 2016. Federated Optimization: Distributed Machine Learning for On-Device Intelligence. CoRR abs/1610.02527 (2016). arXiv:1610.02527 http://arxiv.org/abs/1610.02527
[37] Jakub Konecný, H. Brendan McMahan, Felix X. Yu, Peter Richtárik, Ananda Theertha Suresh, and Dave Bacon. 2016. Federated Learning: Strategies for Improving Communication Efficiency. CoRR abs/1610.05492 (2016). arXiv:1610.05492 http://arxiv.org/abs/1610.05492
[38] Gang Liang and Sudarshan S Chawathe. 2004. Privacy-preserving inter-database operations. In International Conference on Intelligence and Security Informatics. Springer, 66–82.
[39] Yujun Lin, Song Han, Huizi Mao, Yu Wang, and William J. Dally. 2017. Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training. CoRR abs/1712.01887 (2017). arXiv:1712.01887 http://arxiv.org/abs/1712.01887
[40] Jian Liu, Mika Juuti, Yao Lu, and N. Asokan. 2017. Oblivious Neural Network Predictions via MiniONN Transformations. In Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security (CCS ’17). ACM, New York, NY, USA, 619–631. https://doi.org/10.1145/3133956.3134056
[41] H. Brendan McMahan, Eider Moore, Daniel Ramage, and Blaise Agüera y Arcas. 2016. Federated Learning of Deep Networks using Model Averaging. CoRR abs/1602.05629 (2016). arXiv:1602.05629 http://arxiv.org/abs/1602.05629
[42] H. Brendan McMahan, Daniel Ramage, Kunal Talwar, and Li Zhang. 2017. Learning Differentially Private Language Models Without Losing Accuracy. CoRR abs/1710.06963 (2017).

[43] Luca Melis, Congzheng Song, Emiliano De Cristofaro, and Vitaly Shmatikov. 2018. Inference Attacks Against Collaborative Learning. CoRR abs/1805.04049 (2018). arXiv:1805.04049 http://arxiv.org/abs/1805.04049
[44] Payman Mohassel and Peter Rindal. 2018. ABY3: A Mixed Protocol Framework for Machine Learning. In Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security (CCS ’18). ACM, New York, NY, USA, 35–52. https://doi.org/10.1145/3243734.3243760
[45] Payman Mohassel, Mike Rosulek, and Ye Zhang. 2015. Fast and Secure Three-party Computation: The Garbled Circuit Approach. In Proceedings of the 22Nd ACM SIGSAC Conference on Computer and Communications Security (CCS ’15). ACM, New York, NY, USA, 591–602. https://doi.org/10.1145/2810103.2813705
[46] Payman Mohassel and Yupeng Zhang. 2017. SecureML: A System for Scalable Privacy-Preserving Machine Learning. In IEEE Symposium on Security and Privacy. IEEE Computer Society, 19–38.
[47] Payman Mohassel and Yupeng Zhang. 2017. SecureML: A System for Scalable Privacy-Preserving Machine Learning. IACR Cryptology ePrint Archive 2017 (2017), 396.
[48] Valeria Nikolaenko, Udi Weinsberg, Stratis Ioannidis, Marc Joye, Dan Boneh, and Nina Taft. 2013. Privacy-Preserving Ridge Regression on Hundreds of Millions of Records. In Proceedings of the 2013 IEEE Symposium on Security and Privacy (SP ’13). IEEE Computer Society, Washington, DC, USA, 334–348. https://doi.org/10.1109/SP.2013.30
[49] Richard Nock, Stephen Hardy, Wilko Henecka, Hamish Ivey-Law, Giorgio Patrini, Guillaume Smith, and Brian Thorne. 2018. Entity Resolution and Federated Learning get a Federated Resolution. CoRR abs/1803.04035 (2018). arXiv:1803.04035 http://arxiv.org/abs/1803.04035
[50] Sinno Jialin Pan and Qiang Yang. 2010. A Survey on Transfer Learning. IEEE Trans. on Knowl. and Data Eng. 22, 10 (Oct. 2010), 1345–1359. https://doi.org/10.1109/TKDE.2009.191
[51] Le Trieu Phong, Yoshinori Aono, Takuya Hayashi, Lihua Wang, and Shiho Moriai. 2018. Privacy-Preserving Deep Learning via Additively Homomorphic Encryption. IEEE Trans. Information Forensics and Security 13, 5 (2018), 1333–1345.
[52] M. Sadegh Riazi, Christian Weinert, Oleksandr Tkachenko, Ebrahim M. Songhori, Thomas Schneider, and Farinaz Koushanfar. 2018. Chameleon: A Hybrid Secure Computation Framework for Machine Learning Applications. CoRR abs/1801.03239 (2018).
[53] R L Rivest, L Adleman, and M L Dertouzos. 1978. On Data Banks and Privacy Homomorphisms. Foundations of Secure Computation, Academia Press (1978), 169–179.
[54] Bita Darvish Rouhani, M. Sadegh Riazi, and Farinaz Koushanfar. 2017. DeepSecure: Scalable Provably-Secure Deep Learning. CoRR abs/1705.08963 (2017). arXiv:1705.08963 http://arxiv.org/abs/1705.08963
[55] Ashish P. Sanil, Alan F. Karr, Xiaodong Lin, and Jerome P. Reiter. 2004. Privacy Preserving Regression Modelling via Distributed Computation. In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’04). ACM, New York, NY, USA, 677–682. https://doi.org/10.1145/1014052.1014139
[56] Monica Scannapieco, Ilya Figotin, Elisa Bertino, and Ahmed K. Elmagarmid. 2007. Privacy Preserving Schema and Data Matching. In Proceedings of the 2007 ACM SIGMOD International Conference on Management of Data (SIGMOD ’07). ACM, New York, NY, USA, 653–664. https://doi.org/10.1145/1247480.1247553
[57] Amit P. Sheth and James A. Larson. 1990. Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases. ACM Comput. Surv. 22, 3 (Sept. 1990), 183–236. https://doi.org/10.1145/96602.96604
[58] Reza Shokri and Vitaly Shmatikov. 2015. Privacy-Preserving Deep Learning. In Proceedings of the 22Nd ACM SIGSAC Conference on Computer and Communications Security (CCS ’15). ACM, New York, NY, USA, 1310–1321. https://doi.org/10.1145/2810103.2813687
[59] David Silver, Aja Huang, Christopher J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, Sander Dieleman, Dominik Grewe, John Nham, Nal Kalchbrenner, Ilya Sutskever, Timothy Lillicrap, Madeleine Leach, Koray Kavukcuoglu, Thore Graepel, and Demis Hassabis. 2016. Mastering the game of Go with deep neural networks and tree search. Nature 529 (2016), 484–503. http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html
[60] Virginia Smith, Chao-Kai Chiang, Maziar Sanjabi, and Ameet S Talwalkar. 2017. Federated Multi-Task Learning. In Advances in Neural Information Processing Systems 30, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus,
S. Vishwanathan, and R. Garnett (Eds.). Curran Associates, Inc., 4424–4434. http://papers.nips.cc/paper/7029-federated-multi-task-learning.pdf
[61] Shuang Song, Kamalika Chaudhuri, and Anand D. Sarwate. 2013. Stochastic gradient descent with differentially private updates. 2013 IEEE Global Conference on Signal and Information Processing (2013), 245–248.
[62] Lili Su and Jiaming Xu. 2018. Securing Distributed Machine Learning in High Dimensions. CoRR abs/1804.10140 (2018). arXiv:1804.10140 http://arxiv.org/abs/1804.10140
[63] Latanya Sweeney. 2002. K-anonymity: A Model for Protecting Privacy. Int. J. Uncertain. Fuzziness Knowl.-Based Syst. 10, 5 (Oct. 2002), 557–570. https://doi.org/10.1142/S0218488502001648
[64] Jaideep Vaidya and Chris Clifton. [n. d.]. Privacy Preserving Naive Bayes Classifier for Vertically Partitioned Data. In Proceedings of the fourth SIAM Conference on Data Mining, 2004. 330–334.
[65] Jaideep Vaidya and Chris Clifton. 2002. Privacy Preserving Association Rule Mining in Vertically Partitioned Data. In Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’02). ACM, New York, NY, USA, 639–644. https://doi.org/10.1145/775047.775142
[66] Jaideep Vaidya and Chris Clifton. 2003. Privacy-preserving K-means Clustering over Vertically Partitioned Data. In Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’03). ACM, New York, NY, USA, 206–215. https://doi.org/10.1145/956750.956776
[67] Jaideep Vaidya and Chris Clifton. 2005. Privacy-Preserving Decision Trees over Vertically Partitioned Data. In Data and Applications Security XIX, Sushil Jajodia and Duminda Wijesekera (Eds.). Springer Berlin Heidelberg, Berlin, Heidelberg, 139–152.
[68] Li Wan, Wee Keong Ng, Shuguo Han, and Vincent C. S. Lee. 2007. Privacy-preservation for Gradient Descent Methods. In Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ’07). ACM, New York, NY, USA, 775–783. https://doi.org/10.1145/1281192.1281275
[69] Shiqiang Wang, Tiffany Tuor, Theodoros Salonidis, Kin K. Leung, Christian Makaya, Ting He, and Kevin Chan. 2018. When Edge Meets Learning: Adaptive Control for Resource-Constrained Distributed Machine Learning. CoRR abs/1804.05271 (2018). arXiv:1804.05271 http://arxiv.org/abs/1804.05271
[70] Wikipedia. 2018. https://en.wikipedia.org/wiki/Facebook-Cambridge_Analytica_data_scandal.
[71] Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2018. Federated Learning. Communications of The CCF 14, 11 (2018), 49–55.
[72] Andrew C. Yao. 1982. Protocols for Secure Computations. In Proceedings of the 23rd Annual Symposium on Foundations of Computer Science (SFCS ’82). IEEE Computer Society, Washington, DC, USA, 160–164. http://dl.acm.org/citation.cfm?id=1382436.1382751
[73] Hwanjo Yu, Xiaoqian Jiang, and Jaideep Vaidya. 2006. Privacy-preserving SVM Using Nonlinear Kernels on Horizontally Partitioned Data. In Proceedings of the 2006 ACM Symposium on Applied Computing (SAC ’06). ACM, New York, NY, USA, 603–610. https://doi.org/10.1145/1141277.1141415
[74] Hwanjo Yu, Jaideep Vaidya, and Xiaoqian Jiang. 2006. Privacy-Preserving SVM Classification on Vertically Partitioned Data. In Proceedings of the 10th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining (PAKDD’06). Springer-Verlag, Berlin, Heidelberg, 647–656. https://doi.org/10.1007/11731139_74
[75] Jiawei Yuan and Shucheng Yu. 2014. Privacy Preserving Back-Propagation Neural Network Learning Made Practical with Cloud Computing. IEEE Trans. Parallel Distrib. Syst. 25, 1 (Jan. 2014), 212–221. https://doi.org/10.1109/TPDS.2013.18
[76] Qingchen Zhang, Laurence T. Yang, and Zhikui Chen. 2016. Privacy Preserving Deep Computation Model on Cloud for Big Data Feature Learning. IEEE Trans. Comput. 65, 5 (May 2016), 1351–1362. https://doi.org/10.1109/TC.2015.2470255
[77] Yue Zhao, Meng Li, Liangzhen Lai, Naveen Suda, Damon Civin, and Vikas Chandra. 2018. Federated Learning with Non-IID Data. arXiv:cs.LG/1806.00582

转载于:https://www.cnblogs.com/lucifer1997/p/11223964.html