[学习记录-1]联邦学习知识

时间 2021-01-21 标签联邦学习机器学习深度学习

综述文献：A Survey on Federated Learning Systems- Vision, Hype and Reality for Data Privacy and Protection 部分知识整理

文献总结了联邦学习系统的特点和分类。

机器学习算法需要大量数据，单组织数据无法训练高质量模型。由于政策法规（数据保护条例）限制，不同组织的数据隔离，形成数据孤岛（data islands），无法简单共享数据。保护数据隐私同时，开发具有良好预测性能的联邦学习系统是一个挑战。

联邦学习系统（federated learning systems，FLSs）目标是在限制用户隐私的情况下，在不同组织之间进行协作式机器学习技术。

1.联邦学习两个重要特征：
1）Heterogeneity （Differences in data，privacy restrictions, tasks）
2）Autonomy（Communication autonomy）

2.联邦学习分类：

1）data partition, 数据划分
horizontal水平：
相同特征空间，样本空间交集小。不同声音同一句子。
vertical垂直：
相同样本空间，不同特征空间。齐技术（entity alignment）收集重叠样本。税务和住房。
hybrid混合：
不同样本空间，不同特征空间。联合迁移学习。

2）machine learning model, 机器学习模型
linear models，decision trees，neural networks

3）privacy mechanism, 隐私机制
model aggregation模型聚合：
聚合来自本地各方的模型参数来训练全局模型
cryptographic methods加密方法：
各方必须在发送消息之前对消息进行加密，对加密的消息进行操作，然后对加密的输出进行解密以获得结果。
同态加密 homomorphic encryption
安全多方计算secure multi-party computation
differential privacy差分隐私：
在数据或模型参数中加入随机噪声，为个体提供统计隐私，防止模型受到推理攻击。

4）communication architecture, 通信架构
集中式centralized design：
数据流通常是不对称的，这意味着需要一个服务器或特定的一方来聚合来自其他方的信息(例如，梯度)，并返回训练结果。全局模型的参数更新总是在这个服务器中完成。服务器与本地方之间的通信可以是同步的，也可以是异步的。
分布式distributed design：
通信在各方之间执行，各方可以直接更新全局参数。

5）scale of federation, 联邦范围：区别在于参与方的数量和每个参与方中存储的数据量
private私有，public公共

6）motivation of federation, 联邦动机：regulations or incentives

3. 开源框架
NN、DT和LM来表示神经网络、决策树和线性模型。
CM、DP和MA分别表示密码方法、差分隐私和模型聚合。
一些算法(如联邦随机梯度下降)可以用于学习许多机器学习模型(如逻辑回归、神经网络)。

4. 研究方向 (Re)-Invent Federated Learning Models重建方法 Dynamic scheduling动态调度 Diverse privacy restrictions隐私限制 Intelligent benefit智能效益 Benchmark：LEAF基准:叶 System architecture系统架构 Data life cycles数据生命周期 Data labels数据标签 Federated learning in domains Internet-of-thing联邦学习在物联网领域