打破数据孤岛的联邦学习技术

时间 2020-12-30 标签联邦学习 FATE 机器学习大数据 AI

打破数据孤岛的联邦学习技术

联邦学习

1.各方数据都保留在本地，不泄露隐私也不违反法规；
2.多个参与者联合数据建立虚拟的共有模型，并且共同获益的体系； 
3.在联邦学习的体系下，各个参与者的身份和地位相同； 
4. 联邦学习的建模效果和将整个数据集放在一处建模的效果相同，或相差不大（在各个数据的用户对齐（user alignment）或特征（feature alignment）对齐的条件下）； 
5. 迁移学习是在用户或特征不对齐的情况下，也可以在数据间通过交换加密参数达到知识迁移的效果。

背景

联邦学习技术及数据隐私保护大会上明确提出了“联邦机器学习”这个概念。
数据是机器学习的基础。而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。
针对数据孤岛和数据隐私的两难问题,多家机构和学者提出解决办法。针对手机终端和多方机构数据的隐私问题,谷歌公司和微众银行分别提出了不同的“联邦学习”(Federated Learning)算法框架。谷歌公司提出了基于个人终端设备的“联邦学习”(Federated Learning)算法框架,而AAAI Fellow 杨强教授与微众银行随后提出了基于“联邦学习”(Federated Learning)的系统性的通用解决方案,可以解决个人(2C)和公司间(2B)联合建模的问题。

联邦学习的分类体系

纵向联邦学习

设定：只有微众拥有Y=“逾期表现”，合作企业无法暴露含有隐私的X
传统建模方法的问题：合作企业缺乏Y，无法独立建模，X数据全量传输到微众可不行
需求期望：保护隐私条件下，实现联合建模，且联合模型效果超过单边数据建模

横向联邦学习

设定：Y=“是否存在洗钱行为”，合作行和微众都有（X,Y）,双方都不暴露自己的（X,Y）
传统建模方法的问题：微众和合作企业各自样本不够多
需求期望：保护隐私条件下，实现联合建模，且联合模型效果超过单边数据建模

架构总览

联邦学习源码链接：https://github.com/FederatedAI