[学习记录-1]联邦学习知识

综述文献:A Survey on Federated Learning Systems- Vision, Hype and Reality for Data Privacy and Protection 部分知识整理

文献总结了联邦学习系统的特点和分类。

机器学习算法需要大量数据,单组织数据无法训练高质量模型。由于政策法规(数据保护条例)限制,不同组织的数据隔离,形成数据孤岛(data islands),无法简单共享数据。保护数据隐私同时,开发具有良好预测性能的联邦学习系统是一个挑战。

联邦学习系统(federated learning systems,FLSs)目标是在限制用户隐私的情况下,在不同组织之间进行协作式机器学习技术。

1.联邦学习两个重要特征:
1)Heterogeneity (Differences in data,privacy restrictions, tasks)
2)Autonomy(Communication autonomy)

2.联邦学习分类:

1)data partition, 数据划分
horizontal水平:
相同特征空间,样本空间交集小。不同声音同一句子。
vertical垂直:
相同样本空间,不同特征空间。齐技术(entity alignment)收集重叠样本。税务和住房。
hybrid混合:
不同样本空间,不同特征空间。联合迁移学习。

2)machine learning model, 机器学习模型
linear models,decision trees,neural networks

3)privacy mechanism, 隐私机制
model aggregation模型聚合:
聚合来自本地各方的模型参数来训练全局模型
cryptographic methods加密方法:
各方必须在发送消息之前对消息进行加密,对加密的消息进行操作,然后对加密的输出进行解密以获得结果。
同态加密 homomorphic encryption
安全多方计算secure multi-party computation
differential privacy差分隐私:
在数据或模型参数中加入随机噪声,为个体提供统计隐私,防止模型受到推理攻击。

4)communication architecture, 通信架构
集中式centralized design:
数据流通常是不对称的,这意味着需要一个服务器或特定的一方来聚合来自其他方的信息(例如,梯度),并返回训练结果。全局模型的参数更新总是在这个服务器中完成。服务器与本地方之间的通信可以是同步的,也可以是异步的。
分布式distributed design:
通信在各方之间执行,各方可以直接更新全局参数。

5)scale of federation, 联邦范围:区别在于参与方的数量和每个参与方中存储的数据量
private私有,public公共

6)motivation of federation, 联邦动机:regulations or incentives

3. 开源框架
NN、DT和LM来表示神经网络、决策树和线性模型。
CM、DP和MA分别表示密码方法、差分隐私和模型聚合。
一些算法(如联邦随机梯度下降)可以用于学习许多机器学习模型(如逻辑回归、神经网络)。
在这里插入图片描述

4. 研究方向 (Re)-Invent Federated Learning Models重建方法 Dynamic scheduling动态调度 Diverse privacy restrictions隐私限制 Intelligent benefit智能效益 Benchmark:LEAF基准:叶 System architecture系统架构 Data life cycles数据生命周期 Data labels数据标签 Federated learning in domains Internet-of-thing联邦学习在物联网领域