打破数据孤岛的联邦学习技术

打破数据孤岛的联邦学习技术

联邦学习

在这里插入图片描述
1.各方数据都保留在本地,不泄露隐私也不违反法规;
2.多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系; 
3.在联邦学习的体系下,各个参与者的身份和地位相同; 
4. 联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大 (在 各个数据的用户对齐(user alignment)或特征(feature alignment)对齐的条 件下) ; 
5. 迁移学习是在用户或特征不对齐的情况下,也可以在数据间通过交换加密参数达 到知识迁移的效果。

背景

联邦学习技术及数据隐私保护大会上明确提出了“联邦机器学习”这个概念。
数据是机器学习的基础 。而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。
针对数据孤岛和数据隐私的两难问题,多家机构和学者提出解决办法。针对手机终端和多方机构数据的隐私问题,谷歌公司和微众银行分别提出了不同的“联邦学习”(Federated Learning)算法框架。谷歌公司提出了基于个人终端设备的“联邦学习”(Federated Learning)算法框架,而AAAI Fellow 杨强教授与微众银行随后提出了基于“联邦学习”(Federated Learning)的系统性的通用解决方案,可以解决个人(2C)和公司间(2B)联合建模的问题。

联邦学习的分类体系

在这里插入图片描述

纵向联邦学习

设定:只有微众拥有Y=“逾期表现”,合作企业无法暴露含有隐私的X
传统建模方法的问题:合作企业缺乏Y,无法独立建模,X数据全量传输到微众可不行
需求期望:保护隐私条件下,实现联合建模,且联合模型效果超过单边数据建模
在这里插入图片描述

横向联邦学习

设定:Y=“是否存在洗钱行为”,合作行和微众都有(X,Y),双方都不暴露自己的(X,Y)
传统建模方法的问题:微众和合作企业各自样本不够多
需求期望:保护隐私条件下,实现联合建模,且联合模型效果超过单边数据建模

在这里插入图片描述

架构总览

! 联邦学习源码链接:https://github.com/FederatedAI