本文首发于Feng Yu的空间 https://yu-feng.top/
参考文献《Federated Learning: Challenges, methods, and future, 2020》,较为详细的介绍当前FL的挑战和解决方法以及未来可能的研究方向或切入点。
联邦学习在保持数据本地化的同时涉及在远程设备或孤立的数据中心(例如手机或医院)上训练统计模型。在异构网络和潜在大规模网络中进行训练带来了新的挑战,这些挑战要求从根本上区别于大规模机器学习,分布式优化和隐私保护数据分析的标准方法。在本文中,我们讨论了联邦学习的独特特征和挑战,提供了当前方法的广泛概述,并概述了未来的几个方向
因为设备(智能手机、可穿戴设备和自动驾驶车辆)计算力的上升以及对隐私信息转移的担忧,所以将数据保存于本地和网络计算边缘化变得更加有吸引力。 ==>> 边缘计算
正因为在分布式网络下这些设备的存储和计算能力使得利用每台设备上的增强(enhanced)本地资源成为可能,此外,用户隐私信息保存于本地避免了隐私担忧。 ==>> 联邦学习
智能手机
单词联想 《A. Hard, K. Rao, R. Mathews, F. Beaufays, S. Augenstein, H. Eichner, C. Kiddon, and D. Ramage, Federated learning for mobile keyboard prediction. 2018. [Online]. Available: arXiv:1811.03604》
挑战:用户为了保护个人隐私可能不愿意分享数据或者节省手机有限的带宽/电量
FL有潜力在不损害用户体验或泄露隐私信息前提下在智能手机上启用预测功能
组织机构 --医疗机构
物联网-- 可穿戴设备、自动驾驶车辆、智能家居
FL方法在公司的应用
隐私敏感应用
目标:
m表示总设备数量,p_k>=0 且 SUM(p_k)=1,F_k为第k个设别的本地目标函数
昂贵的通信费用
系统异质性
由于硬件(CPU和内存)、网络连接(3G、4G、5G、WiFi)、能量(电池等级)的差异,因此联邦网络中每个设备的存储、计算和通信能力都各不相同
统计异质性
设备经常以高度不相同的方式在网络上生成和收集数据
隐私问题
已经提出许多方法来解决优化和信号处理社区中的昂贵通信问题[28, 40, 43],但是这些方法无法完全处理联邦网络规模和系统与统计异质性的挑战
通信效率
尽管提供对通信效率高的学习方法的独立概述不在本文的讨论范围内,但我们指出了几个总体方向,我们将其归类为1)本地更新方法,2)压缩方案和3)分散培训本地更新
本地更新
压缩方案
去中心化(分布式)训练
在数据中心环境中,在低带宽或高延迟的网络上运行时,分布式训练已证明比集中式训练要快。一些工作提出了基于截止日期(deadlines-based)的方法,所有工人在固定的全球周期内使用可变数量的样本来计算局部梯度,这有助于减轻流浪者的影响[16],[39]。 (全面回顾[18])
[18] L. He, A. Bian, and M. Jaggi, “Cola: Decentralized linear learning,” in Proc. Advances in Neural Information Processing Systems, 2018, pp. 4541–4551.
在联邦学习中,理论上分布式算法可以减少中央服务器上的高通信成本。最近的一些工作研究了使用本地更新方案对异构数据进行分散训练[18]。但是,它们要么局限于线性模型[18],要么假定完全参与设备
系统异质性
统计异质性
隐私
机器学习中的隐私
在这些各种隐私方法中,由于**差分隐私[13]**强大的信息理论保证,算法简单性以及相对较小的系统开销,因此被最广泛地使用
HE和SMC全面回顾[7]《R. Bost, R. A. Popa, S. Tu, and S. Goldwasser, “Machine learning classification over encrypted data,” in Proc. Network and Distributed System Security Symp., 2015. doi: 10.14722/ndss.2015.23241》
联邦学习中的隐私
联邦学习隐私分类:1)全局隐私,2)本地隐私
极致的通信方案
通信减少与the Pareto frontier
新颖的异步模型
异质性诊断
开放性问题:
细颗粒隐私限制
在实践中,隐私约束可能在设备之间甚至单个设备的数据点之间都不同,因此有必要将隐私问题细分
超越监督学习之外的
生产化联邦学习
除了本文讨论的主要挑战之外,在生产环境中运行联合学习时还存在许多实际问题。尤其是诸如概念漂移(当基础数据生成模型随时间变化时),昼夜变化(当设备在一天或一周的不同时间表现出不同的行为)之类的问题[14],以及冷启动问题(当新设备进入网络时)必须小心处理。
[5]《K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., “Towards federated learning at scale: System design,” in Proc. Conf. Machine Learning and Systems, 2019.》讨论了生产联邦学习系统中存在的一些与系统相关的实用问题
与传统的分布式数据中心计算和经典的隐私保护学习相比,讨论了联邦学习的独特性质和相关挑战。提供了关于经典结果的广泛调查以及针对联邦环境的最新工作。最后,概述了一些有待进一步研究的未解决问题。提供这些问题的解决方案将需要众多研究社区的跨学科研究。
–fzhiy.更新于2020年9月2日16点51分