Federated Learning in Mobile Edge Networks: AComprehensive Survey(翻译)

时间 2020-08-08 标签 federated learning mobile edge networks acomprehensive survey 翻译

名词：联邦学习(FL)、ML、MEC

BAA(宽带模拟聚合)、CNN(卷积神经网络)、CV(计算机视觉)、
DDQN(双深度Q网络)、DL(深度学习)DNN(深度神经网络)、
DP(差分隐私)、DQL(深度Q学习)、DRL(深度强化学习)、
FedAvg(联邦平均)、FL(联合学习)、GAN(对抗网络)、
IID(独立和同一分布)loT(物联网，车联网)、LSTM(长短时间记忆)
MEC(移动边缘计算)、ML(机器学习)、MLP(多层感知器)、
NLP(天然语言处理)、OFDMA(正交频分多址)、SGD(随机梯度降低)
SNR(信噪比)、SVM(支持向量机)、UE(用户设备)、URLLC(超可靠的低延迟通讯)
SMPC(安全的多方计算)、深度神经网络(DNN)
QoE(经验回归神经网络的质量Quality of ExperienceRNN Recurrent Neural Network)
TFF(TensorFlow联合学习框架)：现有的TensorFlow（简称TF）或Keras模型代码经过一些转换后就能够变为联邦学习模型。甚至能够加载单机版的预训练的模型，以迁移学习的模式应用到分散式数据的机器学习中。web

内容

为了促进复杂模型在分布式设备之间的协做学习，引入了一种分散的ML方法，称为联邦学习(FL)。移动设备使用它们的本地数据来协做地训练FL服务器所需的ML模型。后，他们将模型更新（即模型的权重）发送到FL服务器以进行汇总。这些步骤在多轮重复，直到达到理想的精度。这意味着FL能够成为移动边缘网络中ML模型训练的一种启用技术。与传统的云中心模型训练方法相比，在移动边缘网络中实现FL模型训练具备如下优势。算法

高效利用网络带宽：传输到云端的信息更少。例如，参与设备只发送用于聚合的更新的模型参数，而不是发送原始数据进行处理。所以，这显著下降了数据通讯的成本，减轻了骨干网的负担。
隐私：遵循上述原则，用户的原始数据不须要发送到云。这保证了用户隐私。事实上，在保证隐私的状况下，更多的用户将愿意参与协做模型训练，所以，创建了更好的推理模型。
低延迟：使用fl，ml模型能够获得一致的训练和更新。同时，在mec范式中，能够在边缘节点或终端设备本地作出实时决策，例如事件检测。所以，延迟比在将决策发送到终端设备以前在云中进行决策时要低得多。这对于时间紧迫的应用相当重要，例如自动驾驶汽车系统，其中最轻微的延迟可能危及生命。

首先，因为模型更新的高维性和参与的移动设备的有限通讯带宽，通讯成本仍然是一个问题。其次，在一个庞大而复杂的移动边缘网络中，从资源分配的角度来看，参与设备在数据质量，计算能力和参与意愿方面的异质性必须获得很好的管理。第三，最近的研究工做清楚地代表，FL中可能存在恶意参与者，而且能够从共享参数中推断其余参与者的信息。所以，须要考虑FL中的隐私和安全问题。缓存

综上所述，现有的关于FL的调查大多没有考虑到FL在移动边缘网络环境中的应用，而现有的关于MEC的调查没有考虑到FL的实现所面临的挑战，也没有考虑到移动边缘网络优化中潜在的ofFL方法。这促使咱们有一个全面的调查，包括:(i)一个关于FL实现的教程(ii) FLand的独特特性及其带来的实现挑战(iii) FL asan实现移动边缘网络优化的技术。为了方便读者，咱们将本次调查所涉及的相关研究进行了分类，如图2所示。该分类基于移动边缘网络的(i) FL，即(2)移动边缘网络中mlmodel在终端设备和FL上的协同训练的挑战。的研究，探索使用FL移动边缘网络优化。安全

大多数现有的FL调查并未考虑FL在移动边缘网络中的应用，而现有的MEC调查却没有考虑FL实施的挑战，也没有考虑FL方法在移动边缘网络优化中的潜力。这促使咱们进行全面的调查，涵盖如下内容：
（i）有关FL实现的教程
（ii）FL的独特功能以及随之而来的实施挑战
（iii）FL是一种用于移动边缘网络优化的支持技术。服务器

为了方便读者，咱们将本次调查所涉及的相关研究进行了分类，如图2所示。该分类基于（i）移动边缘网络上的FL，即专一于在终端设备上实施ML模型的协做训练的挑战的研究，以及（ii）移动边缘网络上的FL，即探索将FL用于移动端的研究边缘网络优化。网络

2:FL的背景和基本原理(DNN模型训练 i)

在传统的深度神经网络（DNN）训练中，采用了一种基于云的方法，从而能够对数据进行集中而且在强大的云服务器中进行模型训练。
FLtraining过程有两个步骤，即（i）局部模型训练和（ii）更新参数的全局汇总。架构

虽然FL一般能够应用于ML模型的训练，但出于两个缘由，咱们在本节中专门关注DNN模型训练。
首先，FL在移动边缘网络的实现能够很天然地利用分布式终端设备所收集的不断增加的计算能力和数据量，这二者都是DL兴起的驱动力。
其次，咱们回顾的大多数论文都集中在DNN模型的联合训练上。所以，简要介绍通常的DNN模型训练将用于后面的章节。在此以后，咱们开始提供一份包含全球培训和本地培训的FL培训计划。此外，咱们还强调了FL模型训练的统计挑战，并介绍了FL的协议和开源框架。框架

A.深度学习

传统的机器学习算法依靠手工设计的特征提取器来处理原始数据。所以，领域专业知识一般是构建有效ML模型的先决条件。此外，必须针对每一个新问题自定义并从新启动功能选择。另外一方面，DNN是基于表示学习的，即DNN能够自动从原始数据中发现并学习这些特征[4]，所以一般优于传统的ML算法，尤为是在数据量很大的状况下。DL属于大脑启发式计算范式的领域，其中神经网络是其中的重要部分[45]。一般，神经网络设计模仿神经元的设计[46]。它包括三层：（i）输入层，（ii）隐藏层和（iii）输出层。在前馈神经网络中，通过加权和误差校订的输入值经过非线性激活函数传递，以得出输出[47]（图3）。一些激活功能包括ReLu和softmax功能[42]。典型的DNN包含将输入映射到输出的多个隐藏层。例如，为图像分类训练的DNN的目标是[48]生成分数向量做为输出，其中最高分数的位置索引对应于输入图像被归为所属的类别。所以，训练DNN的目的是优化网络权重，以使损失函数（即地面真实状况与模型输出之间的差别）最小化。训练以前，首先将数据集分为训练和推理数据集。而后，将训练数据集用做DNN中权重优化的输入数据。权重经过随机梯度降低（SGD）进行校准，其中权重由如下各项的乘积更新：（i）学习率lr，即权重更新渗透的速度，以及（ii）损失函数L相对于重量w。 SGD公式以下

注意，(1)中给出的SGD公式是一个小批量GD的公式。
其中，(2)为B个批次梯度矩阵的平均梯度矩阵，其中每一个批次是由m个训练样本组成的随机子集。这比完整的批量GD更可取，即，其中整个训练集都包含在计算偏导数中，由于完整的批量GD可能会致使慢速训练和批量记忆。
梯度矩阵由输入梯度e(图3)反向传播获得。

而后在许多时间点上重复训练迭代，即，在训练集上彻底训练，使损失最小化。一个训练有素的DNN能够很好地泛化，将DNN应用于以前从未见过的数据（例如测试集）时，能够得到很高的推理精度。监督学习还有其余选择，例如半监督学习，无监督学习和强化学习以及为适应各类功能而量身定制的几种DNN架构，例如，多层感知器（MLP），卷积神经网络（CNN）和递归神经网络（RNN）。
可是，深刻的讨论超出了本文的范围。咱们建议感兴趣的读者参考[56]-[61]，以深刻讨论DNN体系结构和培训。接下来咱们重点放在联邦学习，这是朝着实现隐私保护和协做式深度学习模型训练的重要转变。机器学习

B. 联邦学习

出于数据隐私保护，FL概念在[21]介绍。{ H. B. McMahan, E. Moore, D. Ramage, and B. A. y Arcas, “Federated learning of deep networks using model averaging,” 2016.}异步

联邦学习容许用户在设备上保存我的数据的同时协同训练共享模型，从而减轻了他们的隐私问题。所以，联邦学习能够做为在移动边缘网络上进行机器学习模型训练的一种使能技术。

一般，FL系统中有两个主要实体，
即数据全部者（即参与者）和模型全部者（即FL服务器）。
1.令N = {1，。。。，N}表示N个数据全部者的集合，每一个数据全部者都有一个私有数据集Di∈N。
2.每一个数据全部者i都使用其数据集Di来训练局部模型wi，而且仅将局部模型参数发送到联邦学习服务器。
3.而后，将全部收集的局部模型合计为w =∪i∈Nwi以生成全局模型Wg。
这与传统的集中式训练不一样，传统的集中式训练使用D =∪i∈NDi来训练模型wT，即来自每一个单独来源的数据被汇总和集中处理。

FL系统的典型架构和培训过程如图4所示。

在这个系统中，数据全部者充当联邦学习参与者，共同训练聚合服务器所需的机器学习模型。一个基本的假设是数据全部者是诚实的，这意味着他们使用真实的私有数据来进行培训，并将真实的本地模型提交给fl服务器。固然，这种假设可能并不老是现实的[62]，咱们随后在第四节和第五节中讨论了建议的解决方案。

一般，FL培训过程包括如下三个步骤。
本地模型是指在每一个参与设备上训练的模型，而全局模型是指联邦学习服务器聚合的模型

（任务初始化）：服务器决定训练任务，即目标应用程序，以及相应的数据需求。服务器还指定全局模型和训练过程的超参数，例如学习率。而后，服务器将初始化的全局模型和任务广播—>选定的参与者。
（局部模型训练与更新）：基于全局模型，其中t表示当前迭代索引，每一个参与者分别使用其本地数据和设备更新本地模型参数。
迭代t中参与者i的目标是找到使损失函数最小的最佳参数。

更新后的本地模型参数随后发送到服务器。
（全局模型聚合和更新）：服务器聚合参与者的本地模型，而后将更新的全局模型参数发送回数据全部者。

重复步骤2-3，直到全局损失函数收敛或达到理想的训练精度。

请注意，联邦学习训练过程能够用于不一样的机器学习模型，这些模型本质上使用SGD方法，如支持向量机(SVMs)、神经网络和线性回归。
一个训练数据集一般包含一组n个数据特征向量x = {x1，…， xn}和一组对应的数据标签y = {y1，…,yn}。此外,让yˆj = f (Xj; w)数据向量Xj更新/训练后模型w的预测结果。
表二总结了经常使用ML模型的几种损失函数。

全局模型聚合是fl的一个重要组成部分，文献[23]提出的fedavg算法是一种简单而经典的局部模型聚合算法，它基于算法1给出的sgd。

如上步骤1所述，服务器首先初始化任务（第11-16行）。
此后，在步骤2中，参与者i实现本地培训，并在（3）中优化来自原始本地数据集（第2-8行）的小批量目标。小批量指的是每一个参与者数据集的随机子集
在tth迭代（第17行）中，服务器经过平均聚合
（形式上定义为）
迭代联邦学习训练过程直到全局损失函数收敛，或达到理想的精度。

C.联邦学习的统计挑战

在上一节详细介绍了FL培训过程以后，咱们如今开始讨论FL面临的统计挑战。

在传统的分布式ml中，中心服务器能够访问整个训练数据集。所以，服务器能够将数据集拆分为遵循相似分布的子集。这些子集随后被发送到参与节点进行分布式训练。可是，这种方法对于fl是不实际的，由于本地数据集只能由数据全部者访问。
在FL设置中，参与者可能具备遵循不一样分布的本地数据集，即，参与者的数据集是非IID的。

尽管[23]中的做者代表，即便参与者之间的数据不是IID，上述FedAvg算法也可以达到理想的准确性，但[66]中的做者却发现并不是如此。例如，FedAvg训练的CNN模型的准确性比CIFAR-10的中央训练的CNN模型低51％[67]。
这种准确性的降低进一步被证实是由地球移动者的距离（emd）来量化的[68]，即fl参与者的数据分布与人口分布的差别。

所以，当数据是非iid且高度倾斜时，提出了一种数据共享方法，即fl服务器向每一个fl参与者发送一个在全部类中均匀分布的共享数据集。而后，参与者将其私有数据与接收到的数据一块儿训练其本地模型。仿真结果代表，因为减小了EMD，使用5％的共享数据能够将精度提升30％。可是，公共数据集可能并不老是可用于FL服务器共享。随后在第四节中讨论了替代解决方案。

[69]中的做者还发现，全局不平衡，即全部FL参与者之间保存的数据收集在类别上不平衡的状况，也致使模型准确性降低。所以，提出了Astraea框架。

初始化时，fl参与者首先将其数据分发发送到fl服务器。在训练开始以前，引入了平衡步骤，在该步骤中，每一个参与者经过随机轮换和移位等方式，少数类上进行数据扩充[70]。在对扩充数据进行训练以后，即建立中介器以协调中间聚合，即，在将更新的参数发送到FL服务器进行全局聚合以前。中介选择具备数据分布的参与者，这些数据分布在聚合时最有助于均匀分布。这是经过一种贪婪算法来实现的，该算法最小化局部数据和均匀分布之间的Kullback-Leibler散度[71]。仿真结果代表，在不平衡数据集上进行测试时，其精度有所提升。

每一个参与者设备上的数据还能够经过其余方式异构，例如，参与者之间拥有的训练数据的数量能够不一样。[72]中的做者提出了针对每一个参与者的独立但结构相关的学习模型。所以，多任务学习[73]中的概念天然能够被用来创建这种关系的模型。与以前表二所示的传统损失函数最小化不一样，对损失函数进行了修改，以创建任务之间的关系模型。而后，提出了mocha算法，其中使用交替优化方法[74]来近似求解最小化问题。有趣的是，mocha能够根据参与设备的资源限制进行校准。例如，能够根据参与设备的网络条件和cpu状态自适应地调整近似质量。然而，mocha不能应用于非凸dl模型。

除了数据异构性外，分布式学习算法的收敛性一直是人们关注的问题。更高的收敛率有助于为FL参与者节省大量的时间和资源，同时显著提升了联邦训练的成功率，由于更少的交流回合将减小参与者的中途退出。为了保证收敛性，[75]中的研究提出了FedProx，它修改了损失函数，也包括一个可调参数，限制局部更新对初始模型参数的影响。FedProx算法能够自适应调整，例如，当训练损耗增长时，能够调整模型更新以减小对当前参数的影响。相似地，[76]的做者还提出了LoAdaBoost FedAvg算法来补充前面提到的ML中关于医疗数据的数据共享方法[66]。在LoAdaBoost FedAvg中，参与者根据本地数据对模型进行训练，并将交叉损耗与前一轮训练的中值损耗进行比较。若是当前的交叉熵损失较大，则在全局汇集以前对模型进行再训练，以提升学习效率。仿真结果代表，该算法具备较快的收敛速度。

事实上，fl的统计挑战与咱们在后续章节中探讨的其余问题并存。例如，在fl中产生的通讯成本能够经过更快的收敛来下降。一样，资源分配策略也能够设计为解决统计异构性。所以，咱们随后会更详细地回顾这些概念。

D.FL的协议和框架

为了提升可扩展性，文[77]从系统层面提出了一种fl协议。本协议涉及不稳定设备链接和通讯安全等问题。FL协议（图5）包括三个阶段

训练回合：

选择：在参与者选择阶段，FL服务器选择链接的设备子集参加一轮培训。随后，可根据服务器的须要校准选择标准，例如，培训效率[78]。在第四部分，咱们进一步阐述了提出的参与者选择方法。
配置：服务器根据首选的聚合机制进行相应配置，例如简单或安全聚合[79]。而后，服务器将培训计划和全局模型发送给每一个参与者。
报告：服务器接收参与者的更新。而后，可使用FedAvg算法对更新进行聚合。

此外，为了根据不一样的FL人口规模管理设备链接，还建议进行速度控制。速度控制自适应地管理参与者从新链接到FL服务器的最佳时间窗口[77] (当fl数量较少时，使用速度控制来确保有足够数量的参与设备同时链接到服务器。相反，当有大量用户时，速度控制随机选择要参与的设备，以防止在一个时间点链接过多参与设备的状况)

除了通讯效率外，本地更新传输过程当中的通讯安全也是一个有待解决的问题。具体来讲，通讯安全主要有两个方面：

安全聚合：为了防止本地更新被跟踪并用于推断FL参与者的身份，部署了一个虚拟可信的第三方服务器用于本地模型聚合[79]。秘密共享机制[80]也用于经过身份验证加密传输本地更新。
差别隐私：与安全聚合相似，差别隐私（dp）防止fl服务器识别本地更新的全部者。区别在于，为了达到隐私保护的目的，fl[81]中的dp在对模型质量提供理论保证的同时，在原有的局部更新中加入了必定程度的噪声。

有关隐私和安全的这些概念将在第五部分中详细介绍。最近，针对FL的一些开源框架已经开发以下：

TensorFlow联合（TFF）：TFF [82]是基于Google开发的Tensorflow框架，用于分散式ML和其余分布式计算。 TFF由两层组成：（i）FL和（ii）联邦核心（FC）。 FL层是一个高级界面，它容许将FL实施到现有TF模型上，而用户没必要亲自应用FL算法。 FC层将TF与通讯运营商结合在一块儿，使用户能够尝试定制和新设计的FL算法。
PySyft: [83] 是一个基于pytorch的框架，用于在不受信任的环境中执行加密的，可保护隐私的DL以及相关技术的实现，例如安全多方计算（SMPC）和DP，同时保护数据。pysyft的开发使得它保留了本地torch接口，即执行全部张量操做的方式与Pytorch相同。建立syfttensor时，会自动建立一个本地张量，以便将输入命令应用于本机pytorch张量。为了模拟fl，参与者被建立为虚拟工做者。数据（即张量结构）能够被拆分并分发给虚拟工做者，做为实际fl设置的模拟做为实际fl设置的模拟。而后，建立一个指针张量(PointerTensor )来指定数据全部者和存储位置。此外，还能够从虚拟工做器中获取模型更新以进行全局聚合。
LEAF: 能够用做FL中基准的数据集的开源框架[84],例如联邦扩展mnist（femnist），一个基于每一个字符的writer分区的mnist[85]数据集，和一个基于不一样用户分区的sentive140[86]。在这些数据集中，writer或用户被假定为fl的参与者，其相应的数据被认为是保存在其我的设备中的本地数据。在这些基准数据集上实施新设计的算法，能够跨研究进行可靠的比较。

E. FL的独特特征和问题

除了咱们在第II-C节中提出的统计挑战外，与其余分布式ML方法相比，FL具备一些独特的特征和特色[87]：

慢而不稳定的通讯：在传统的数据中心分布式训练中，能够假设通讯环境是完美的，信息传输速率很高，没有丢包。然而，这些假设不适用于训练中涉及异构设备的fl环境。例如，因特网上传速度一般比下载速度慢得多[88]。此外，一些无线通讯信道不稳定的参与者可能会由于与互联网的断开而退出。
异构设备：除了带宽限制外，FL还涉及资源限制不一样的异构设备。例如，这些设备能够具备不一样的计算能力，即cpu状态和电池电量。这些设备也能够有不一样程度的参与意愿，即，FL培训很耗资源，而且鉴于培训分布在众多设备上的本质，所以有可能搭便车。
隐私和安全问题：正如咱们以前所讨论的，数据全部者对隐私愈来愈敏感。可是，如第五节中将介绍的那样，恶意参与者可以从共享参数中推断出敏感信息，这有可能破坏隐私保护。此外，咱们以前假设全部参与者和FL服务器都是可信任的。实际上，它们多是恶意的。

fl的这些独特特性致使了fl实现中的几个实际问题，咱们如今主要从三个方面进行讨论，即i）通讯成本 ii）资源分配和 iii）隐私和安全
在下面的部分中，咱们将回顾解决这些问题的相关工做。

3:为下降通讯成本而提供的解决方案。

在fl中，可能须要参与者和fl服务器之间的多轮通讯来实现目标精度（图5）。

对于复杂的dl模型训练，例如cnn，每次更新可能包含数百万个参数[89]。更新的高维性会致使高通讯成本的产生，并可能致使培训瓶颈。
此外，因为（i）参与设备的不可靠网络条件[90]和（ii）上传速度快于下载速度的互联网链接速度的不对称，致使参与者的模型上传延迟[88]，瓶颈可能恶化
所以，须要提升fl的通讯效率。考虑如下方法来下降通讯成本：

边缘和末端计算：在FL设置中，通讯成本一般主导计算成本[23]。
缘由在于，设备上的数据集相对较小，而参与者的移动设备具备愈来愈快的处理器。另外一方面，只有当参与者链接到Wi-Fi时，他们才可能愿意参加模型训练[88]。
所以，在每次全局聚合以前，能够在边缘节点或终端设备上执行更多的计算，以减小模型训练所需的通讯轮数。
另外，确保更快收敛的方法还能够减小所涉及的通讯回合次数，但以在边缘服务器和终端设备上进行更多计算为代价。
模型压缩：这是分布式学习中经常使用的一种技术[91]。模型压缩涉及模型更新的通讯，例如经过稀疏化，量化或二次采样将模型更新转换为更紧凑的格式[92]。可是，因为压缩可能会引入噪声
所以目的是在保持训练模型的质量的同时，减少每次通讯过程当中传输的更新的大小[93]
基于重要性的更新：该策略涉及选择性通讯，使得在每一通讯回合中仅传输重要的或相关的更新[94]。

A. 边缘和末端计算

图6：在边缘和终端设备上增长计算量的方法包括
（a）在终端设备上增长计算量，例如，在通讯以前传递更多数据集。
（b）以全局模型为参考的双流训练
（c）中间边缘服务器聚合

为了减小通讯回合的数量，能够在每次全局聚合迭代以前在参与的终端设备上执行额外计算（图6（a））。
[23]中的做者考虑了两种增长参与设备上计算的方法：（i）增长并行性，在这种并行性中，每轮训练选择更多的参与者参与；（ii）增长每一个参与者的计算量，从而使每一个参与者在进行全局聚合的通讯以前执行更多的本地更新。
比较了FederatedSGD (FedSGD)算法和FedAvg算法。对于FedSGD算法，全部的参与者都参与其中，而且每一个训练轮只经过一次，其中的小批处理大小包含了参与者的整个数据集。这相似于集中式DL框架中的全批训练。
对于所提出的FedAvg算法，对超参数进行调整，使得参与者能够执行更多的局部计算。如，参与者能够在其数据集上进行更多遍或使用较小的局部小批量来增长每次通讯回合以前的计算量。模拟结果代表，一旦达到必定的阈值，增长并行度并不会显著下降通讯成本。
所以，重点应该在增长每一个参与者的计算量，同时保持所选参与者的比例不变。对于MNIST CNN仿真，在数据集为IID的状况下，使用所提出的FedAvg算法增长计算量能够减小通讯轮数30倍以上。对于非iid数据集，使用相同超参数的改进不太显著(2.8倍)。然而，对于长短时记忆(LSTM)仿真[95]，即便是非iid数据(95.3倍)的改进也更为显著。此外，FedAvg最终提升了精度，由于模型平均产生的正则化效果相似于随机失活(dropout)[96]，能够防止过拟合。
下降通讯成本的一种方法还能够是经过修改训练算法以提升收敛速度，例如经过上述[76]中的LoAdaBoost FedAvg。一样，[97]中的做者还提出了经过采用迁移学习和领域适应中经常使用的两流模型（图6（b））来增长每一个参与设备的计算量[99]。
在每一轮培训中，参与者都会收到全局模型，并将其固定为培训过程当中的参考。在培训期间，参与者不只从本地数据中学习，并且还从其余参与者那里学习到固定的全局模型。
这是经过将最大平均差别（MMD）合并到损失函数中来完成的(MMD测量两个数据分布平均值之间的距离)
经过最小化局部模型和计算全局模型之间的mmd损失，参与者能够从全局模型中提取更多的广义特征，从而加速训练过程的收敛性，以减小通讯次数。
分别使用诸如AlexNet和2-CNN之类的DL模型在CIFAR-10和MNIST数据集上的仿真结果代表，即便数据为非IID，所提出的两流FL也能够在少20％的通讯回合中达到理想的测试精度。
然而，在提升收敛速度的同时，对于上述方法，终端设备必须消耗更多的计算资源。所以，这就须要优化资源分配，咱们随后将在第四节中讨论。

尽管上述研究考虑了在参与设备上增长计算量，但[98]中的做者提出，假设 从参与者到边缘服务器的传播延迟 <参与者到服务器通讯的传播延迟，则邻近的边缘服务器能够充当中间参数聚合器。图6（c））。
提出了一种层次化的FL (HierFAVG) 算法:每几回本地参与者更新后，边缘服务器将收集到的本地模型聚合起来。在预约义数量的边缘服务器聚合以后，边缘服务器将与云通讯以进行全局模型聚合。这样，参与者和云之间的通讯仅在多个本地更新间隔以后才发生一次。相比之下，对于[23]中提出的fedavg算法，因为不涉及中间边缘服务器聚合，所以全局聚合发生的频率更高。
模拟结果代表:在两个全局汇集之间进行相同数量的局部更新时，与fedavg算法相比，在每次全局汇集以前进行更多的中间边缘汇集能够减小通讯开销。这个结果适用于IID和非IID数据，这意味着能够在FEDAVG的基础上实现边缘服务器上的中间聚合，从而下降通讯成本。
可是，当将其应用于非IID数据时，模拟结果代表，在某些状况下（例如，当边缘云差别很大或涉及许多边缘服务器时），HierFAVG没法收敛到所需的准确度水平（90％）。所以，须要进一步研究以更好地理解调整本地和边缘聚合间隔之间的折衷，以确保能够最佳地校准HierFAVG算法的参数以适合其余设置。然而，HierFAVG是在移动边缘网络上实现fl的一种颇有前途的方法，由于它利用了中间边缘服务器的邻近性来下降通讯成本，并可能减轻远程云的负担。

b.模型压缩

为了下降通讯成本，[88]中的做者提出告终构化和草图化的更新，以减小在每一个通讯回合中从参与者发送到服务器的模型更新的大小。结构化更新将参与者更新限制为具备预先指定的结构，即低等级和随机掩码。对于低秩结构，每一个更新都被强制为一个低秩矩阵，表示为两个矩阵的乘积。在这里，一个矩阵是随机生成的，而且在每一个通讯回合中保持不变，而另外一个是优化的。所以，只须要将优化的矩阵发送到服务器。对于随机掩码结构，每个参与者更新被限制为一个稀疏矩阵，对于随机掩码结构，每一个参与者更新被限制为遵循在每一个回合期间独立生成的预约义随机稀疏模式的稀疏矩阵。所以，只须要将非零项发送到服务器。
另外一方面，草图更新是指在与服务器通讯以前以压缩形式对更新进行编码的方法，该方法随后在聚合以前对更新进行解码。草图更新的一个例子是子采样：其中每一个参与者仅交流更新矩阵的随机子集。而后，服务器对子采样更新进行平均，以得出真实平均值的无偏估计。草图更新的另外一个例子是几率量化：其中更新矩阵对每一个标量进行矢量化和量化。为了减小量化偏差，能够在量化以前应用walsh-hadamard矩阵和二元对角矩阵的乘积的结构化随机旋转。
在cifar-10图像分类任务上的仿真结果代表，对于结构化更新，随机掩码的性能优于低秩方法。随机掩码方法也比草图方法得到更高的精度，由于后者涉及删除一些在训练过程当中得到的信息。然而，这三种绘制工具的结合，即子采样、量化和旋转，能够得到更高的压缩率和更快的收敛速度，尽管在精度上有所牺牲。
此外，当每轮训练的参与者更多时，草图更新能够在训练中得到更高的精度。
例如，使用2位进行量化并绘制出除6.25%以外的全部更新数据，表明更新所需的比特数可减小256倍，达到的精度水平为85%。
这代表，对于实际实施的fl，在有不少参与者的状况下，每轮能够选择更多的参与者进行培训，这样子采样能够更积极地下降通讯成本。

[93]中的做者在[88]的研究基础上进行了扩展，提出了有损压缩和联邦退出以减小服务器到参与者的通讯成本。

图7:(i)联邦退出以减小模型的大小(ii)模型的有损压缩(iii)用于训练的解压(iv)压缩参与者更新(v)解压(vi)全局聚合

根据做者在图7中的工做，对所提出的技术进行了总结。对于咱们前面讨论过的模型参数的参与方到服务器的通讯，能够在屡次更新中对解压进行平均以得到一个无偏的估计。
可是，因为服务器与参与者之间的通讯没有平均值，由于在每轮通讯中都会向全部参与者发送相同的全局模型。与[88]类似，考虑了二次采样和几率量化。对于在子采样和量化以前进行结构化随机旋转的应用，使用Kashin的表示方法代替Hadamard变换方法，由于后者在精度-尺寸权衡方面表现更好。
除了子采样和量化方法外，还考虑了联邦退出方法，其中删除了每一个彻底链接层的固定数量的激活函数，以得出较小的子模型。而后将子模型发送给参与者进行培训。而后能够将更新后的子模型映射回全局模型，以导出完整的DNN模型，并在后续聚合过程当中更新全部权重。这种方法减小了服务器到参与者的通讯成本，也减小了参与者到服务器更新的大小。
此外，因为须要更新的参数较少，所以减小了局部计算。对MNIST，CIFAR-10和EMNIST [104]数据集进行了模拟。
对于有损压缩，[88]代表采用的二次采样方法未达到可接受的性能水平。缘由是:对于参与者到服务器的上载，更新错误能够平均化，但对于服务器到参与者的下载，则不能平均化。
另外一方面，使用Kashin的Representation进行量化能够在不压缩的状况下达到与基线相同的性能，而当模型量化为4位时，通讯成本下降了近8倍。
对于联邦丢失率法，结果代表，25%的全链接层权矩阵丢失率(或CNN的过滤器)在大多数状况下都能达到可接受的准确性，同时保证了通讯模型大小减小43%左右。然而，若是丢失率越高，模型的收敛速度就越慢。

前面的两项研究提出了有用的模型压缩方法，能够减小服务器到参与者和参与者到服务器的通讯成本。正如人们可能指望的那样，通讯成本的下降伴随着模型准确性的牺牲。所以，对压缩精度的权衡进行形式化将很是有用，特别是当不一样的任务或不一样数量的FL参与者参与时。

C.基于重要性的更新

基于观察到DNN的大多数权重值分布稀疏且接近零[105]，[94]中的做者提出了边缘随机梯度降低（eSGD）算法：仅选择要传递的重要梯度的一小部分。在每一个通讯回合中将其发送到FL服务器以更新参数。eSGD算法在两个连续的训练迭代中跟踪损失值。若是当前迭代的损失值小于前一次迭代，这意味着当前训练梯度和模型参数对于训练损失最小化是重要的，所以，它们各自的隐藏权重被赋予正值。
此外，梯度还被传送到服务器以进行参数更新。一旦不成立，即，与前一次迭代相比损失增长，则根据其余参数的隐藏权重值选择要更新的其余参数。隐藏权重值越大的参数越容易被选择，由于它在训练过程当中屡次被标记为重要参数。
为了解决小的梯度值，若是它们被忽略而且没有彻底更新，会延迟收敛[106]，则将这些梯度值累积为残差值。因为残差可能来自不一样的训练迭代，所以使用动量校订技术使用残差因子对残差的每一个更新进行加权[107]。当累积残差梯度达到阈值时，根据隐藏的权值选择它们来代替最不重要的梯度坐标。
模拟结果代表：与[105]提出的阈值sgd算法相比，降低率为50%的esgd算法能够得到更高的精度，该算法使用固定的阈值来肯定降低的梯度坐标。esgd还能够节省很大比例的梯度大小。然而，与标准sgd方法相比，esgd仍然存在精度损失。例如，当使用mnist数据集对简单分类任务进行测试时，模型精度收敛到91.22%，而标准sgd能够达到99.77%的精度。若是扩展到更复杂的任务，精度可能会在更大程度上恶化。
此外，esgd方法的精度和收敛速度会由于使用的超参数（如小批量）而任意波动。所以，必须进行进一步的研究，以正式平衡沟通成本和培训绩效之间的权衡。
与[94]类似，[90]的做者提出了通讯缓解联合学习算法（CMFL），该算法仅上传相关的本地更新以下降通讯成本，同时又保证了全局收敛。在每次迭代中，参与者的本地更新首先与全局更新进行比较，以肯定更新是否相关。当得分等于本地和全局更新中相同符号参数的百分比时，计算相关性得分。
实际上，全局更新在聚合以前是未知的。根据经验，发如今MNIST CNN和Next-WordPrediction LSTM中两次连续全局更新的归一化差别的99％以上都小于0.05，所以将 先前迭代中进行的全局更新 用做比较的估计值。
若是更新的相关性得分小于预约义的阈值，则认为该更新不相关。
模拟结果代表，与基准FedAvg算法相比，cmfl对MNIST-CNN和Next-Word-Prediction LSTM的准确率分别为3.47倍和13.97倍。此外，对Gaia相比，CMFL能够节省更多的通讯回合。注意，Gaia是一种基于地理分布的ML方法，它根据更新的大小而不是参数的符号来度量相关性。当与上述MOCHA算法II-C一块儿使用时[72]，CMFL能够将人类活动识别数据集的通讯回合减小5.7倍，将Semeion手写数字数据集的通讯回合减小3.3倍[110]。此外，CMFL能够得到稍高的精度，由于它涉及到消除不相关的更新，这些更新是异常值，会损害训练。

总结

在本节中，咱们回顾了三种主要的下降FL通讯成本的方法，并针对每种方法，讨论了在不一样研究中提出的解决方案。咱们总结了这些方法以及表三中的参考文献。在大规模实施fl以前，通讯成本是一个须要解决的关键问题。在咱们以前的讨论中，咱们注意到许多下降通讯成本的方法在其余方面都有牺牲，例如，模型精度的降低和终端设备上计算量的增长。所以，为了成功地下降通讯成本，必须妥善管理此折衷。此外，参与设备也有其余资源限制，可能会影响培训效率。特别是，fl涉及具备不一样资源约束的异构和分布式设备。所以，咱们如今开始在下一节审查资源分配问题。

4:FL的资源分配方法。

涉及具备不一样数据集质量、计算能力、能量状态和参与意愿的异构设备的参与。给定设备异构性和资源约束，即，在设备能量状态和通讯带宽下，必须优化资源分配，使训练过程的效率最大化。特别是须要考虑如下资源分配问题:

参与者选择：做为第II-D节中介绍的FL协议的一部分，参与者选择是指选择参加每轮培训的设备。一般，服务器会随机选择一组参与者来参与。而后，服务器必须对全部参与设备的参数更新进行汇总，而后再对模型进行加权平均[23]。这样，FL的训练进度受到最慢的参与设备（即散兵[111]）的训练时间的限制。这致使了培训瓶颈。为了解决FL中的培训瓶颈，研究了新的参与者选择协议。
自适应聚合：如第II-B节所述，FL涉及全局聚合，其中模型参数被传送到FL服务器进行聚合。处理全局聚合的传统方法是同步方法，即，其中聚合以固定的时间间隔发生。然而，为了在资源受限的状况下提升训练效率，研究了全局聚合频率的自适应校准[111]。
激励机制:在FL的实际实施中，因为培训模式消耗资源，参与者可能不肯意在没有获得补偿的状况下参加联合会。另外，因为参与者对他们的可用计算资源和数据质量有更多的了解，所以在FL服务器与参与者之间存在信息不对称。
所以，必须精心设计激励机制，既激励参与，又减小信息不对称的潜在负面影响。

参与者选择

为了缓解训练瓶颈，[78]的做者提出了一种新的FL协议，称为FedCS。本协议如图8所示。

图8:FedCS和Hybrid-FL协议下的参与者选择。
步骤1:资源请求
步骤2:意愿设备报告每一个类别和渠道/计算条件的数据量
步骤3:服务器选择客户端进行培训和数据更新
步骤4:服务器使用本地训练的模型和收集的数据更新全局模型

该系统模型是一个MEC框架，其中MEC的操做员是FL服务器，该服务器协调蜂窝网络中的训练，该蜂窝网络包括具备异构资源的参与移动设备。所以，FL服务器首先执行一个资源请求步骤，从随机选择的参与者子集收集无线信道状态和计算能力等信息。根据这些信息，MEC操做人员为后续的全局聚合阶段选择可以在预先指定的截止日期内完成培训的最大参与者数量。经过在每一轮中选择尽量多的参与者，训练的准确性和效率得以保持。
为了解决最大化问题，提出了贪心算法[112]，即，迭代地选择花费最少时间进行模型上传和更新的参与者进行培训。模拟结果代表，与只考虑训练截止时间而不进行参与者选择的FL协议相比，FedCS可以使更多的参与者参与到[23]的每一轮训练中，从而实现更高的准确性。
可是，FedCS仅在简单的DNN模型上进行了测试。当扩展到更复杂的模型的训练时，可能难以估计应选择多少参与者。例如，对于复杂模型的训练可能须要更多的训练回合，而且考虑到一些参与者在训练期间可能会退出，选择太少的参与者可能会致使表现不佳。此外，倾向于选择拥有更好计算能力的设备的参与者。这些参与者可能没有保存表明人口分布的数据。特别是，咱们随后将在本节中回顾公平问题[113]。
FedCS解决了FL参与者之间资源的异质性，而[114]中的做者将FedCS协议扩展为处理参与者之间数据分布差别的Hybrid-FL协议。参加FL的参与者数据集多是非IID的，由于它反映了每一个用户的特定特征。正如咱们在第II-C节中讨论的那样，非IID数据集可能会大大下降FedAvg算法的性能[66]。解决数据集的非iid性质的一个建议措施是将公开可用的数据分发给参与者，这样能够减小他们的设备数据集和整体距离之间的EMD。可是，这样的数据集可能并不老是存在，并且出于安全缘由，参与者可能不会下载它们。
所以，另外一种解决方案是使用有限数量的隐私不敏感参与者的输入来构建一个近似IID的数据集[114]。在Hybrid-FL协议中，在资源请求步骤(图8)中，MEC操做员询问随机参与者是否容许上传他们的数据。
在参与者选择阶段，除了根据计算能力选择参与者外，还要选择参与者，使其上传的数据能够在服务器中造成近似IID的数据集，即，每一个类中收集到的数据量接近(图8)。而后，服务器在收集的IID数据集上训练一个模型，并将该模型与参与者训练的全局模型合并。
模拟结果代表:即便只有1%的参与者共享数据，与未上传数据的FedCS基准相比，非iid数据的分类精度也有显著提升。可是，推荐的协议可能会侵犯用户的隐私和安全，特别是当FL服务器是恶意的。在参与者有恶意的状况下，能够在上传以前伪造数据，咱们将在第五节进一步讨论。
所以，参与者不太可能自愿上传数据，由于他们能够搭其余志愿者的便车。在可行性方面，须要一个设计良好的激励和声誉机制，以确保只有值得信任的参与者才能上传他们的数据。
通常状况下，所实现FL的移动边缘网络环境是动态的、不肯定的，具备可变的约束条件，如无线网络和能量条件。所以，这可能致使培训瓶颈。为此，Q-深度学习( DQL)可用于优化模型训练的资源分配，如[115]所述。该系统模型是一个移动人群机器学习设置(MCML)，它使移动人群网络中的参与者可以协做地训练FL服务器所需的DNN模型。参与的移动设备受到能量、CPU和无线带宽的限制。
所以，服务器须要肯定移动设备用于培训的适当数量的数据、能源和CPU资源，以最小化能源消耗和培训时间。在移动环境的不肯定性下，创建了一个随机优化问题。在该问题中，服务器是代理，状态空间包括移动设备的cpu和能量状态，动做空间包括从移动设备获取的数据单元和能量单元的数量。
为了达到目标，奖励函数被定义为累积数据、能量消耗和训练延迟的函数。
为了克服服务器的大状态和动做空间问题，采用了基于双深度Q网络(DDQN)[116]的DQL技术来解决服务器的问题。
模拟结果代表：与贪婪算法相比，DQL方案能减小31%左右的能量消耗，与随机方案相比，训练延迟减小55%左右。然而，该方案仅适用于参与移动设备较少的联邦。
做为扩展，能够考虑DQL方法在大型联合中的可伸缩性。

上述资源分配方法的重点是提升FL的训练效率，但这可能会致使资源分配的不公平，这是无线网络资源分配中常常探讨的问题[117]和ML[118]。
例如，若是参与者选择协议选择计算能力较强的移动设备参加每一轮训练[78]，则计算能力较强的设备的参与者所拥有的数据分布会过多地表明FL模型。所以，[113]和[119]的做者认为公平是FL的一个附加目标。[119]将公平定义为一个FL模型在不一样参与者之间的表现差别。若是测试精度的方差很大，这意味着存在更多的误差或更少的公平性，由于所学习的模型对某些参与者多是高度准确的，而对其余表明性不足的参与者可能不是这样。
文献[119]提出了联邦q-公平 (q-FFL)算法，对FedAvg中的目标函数进行从新加权，将损失函数中较高的权重分配给损耗较大的设备。实际上，这是文献[113]中提出的不可知FL (AFL)算法的推广，其中损耗最大的设备控制整个损耗函数。
模拟结果代表：所提出的q-FFL算法与AFL算法相比，具备较低的检测精度方差和较快的收敛速度
然而，正如预期的那样，对于一些q-FFL算法的校准，因为散兵可能会延迟训练过程，所以收敛速度可能会变慢。所以，能够考虑将异步聚合方法(在本节中稍后讨论)用于q-FFL算法。
虽然现有的研究大多考虑使用正交频分多址(OFDMA)等正交接入方案[120]，但在[121]中，做者提出了一种多址宽带模拟汇集(BAA)设计来下降FL中的通讯延迟。BAA方案不是在服务器的全局聚合期间分别执行通讯和计算，而是基于空中计算的概念[122]，经过利用多址信道的信号叠加特性来集成计算和通讯。提出的BAA方案容许复用整个带宽(图9(a))，而OFDMA使带宽分配正交化(图9(b))。

图9:(A) BAA复用带宽(上)与(b) OFDMA(下)的空中计算比较[121]。

所以，**对于正交访问方案，通讯延迟与参与者的数量成正比，而对于多访问方案，延迟与参与者的数量无关。**在BAA传输过程当中，信号噪声比(SNR)的瓶颈是距离传输距离最长的参与设备，由于距离较近的设备必须下降其传输功率才能与距离较远的设备进行幅度对准。为了提升信噪比，必须放弃传播距离较长的参与者。可是，这会致使模型参数的截断。
所以，为了管理snr截断权衡，咱们考虑了三种调度方案:1)单元内部调度(cell-interior):超出距离阈值的参与者不被调度;2)全包调度(all-inclusive scheme):全部参与者都被考虑;3)交替调度:边缘服务器在上述两种方案之间进行交替调度。
模拟结果代表:提出的BAA方案能够达到与OFDMA方案相近的测试精度，同时延迟下降了10倍至1000倍。三种调度方案的比较下，
因为在参与者位置变化迅速的高移动性网络中，单元内部调度方案的测试精度优于全包调度方案；对于低迁移率网络，交替调度方案的性能优于单元内部调度。

做为扩展，[123]的做者在空中计算以外还引入了偏差积累和梯度稀疏化。
在[121]中，因为功率限制而没有传输的梯度向量被彻底丢弃。为了提升模型精度，能够先将未传输的梯度向量存储在偏差累积向量中。在下一轮中，使用偏差向量修正局部梯度估计。此外，当存在带宽限制时，参与设备能够应用梯度稀疏化，只保留最高量级的元素进行传输。未传输的元素随后被添加到偏差累积向量中，以便在下一轮中进行梯度估计校订。
模拟结果代表：该算法利用偏差积累向量修正了梯度估计，提升了带宽的利用率，在不增长偏差积累和梯度稀疏的状况下，能够得到比空中计算更高的测试精度。

与[121]和[123]类似，[124]中的做者提出了经过空中计算将计算和通讯整合在一块儿的方法。然而，能够观察到，因为信号失真，在空中计算过程当中产生的汇集偏差会致使模型精度降低[125]。所以，咱们提出了一种选择训练设备数量最大化的参与者选择算法，以提升统计学习性能[23]，同时将信号失真保持在阈值如下。
因为均方偏差（MSE）约束的非凸性[126]和优化问题的难处理性，提出了一种差分凸函数（DC）算法[127]来解决最大化问题。
模拟结果代表：该算法具备良好的可扩展性，其性能接近全局最优。与其余最早进的方法（例如，[128]中提出的半定性松弛技术（SDR））相比，所提出的DC算法还能够选择更多的参与者，从而实现更高的模型精度。

B.自适应聚合

所提出的FedAvg算法同步汇集参数如图10(a)所示，所以容易受到straggler效应的影响，即，每一轮训练的进展速度与最慢的设备同样快，由于FL服务器会等待全部设备完成本地训练，而后才能进行全局聚合[111]。

Fig. 10: 同步fl和异步fl之间的比较。

所以，为了提升FL的可扩展性和效率，提出了异步模型。对于异步FL，每当服务器接收到本地更新时，就更新全局模型(图10(b))。在[111]中的做者根据经验发现，异步方法对于在培训轮次以及联盟涉及具备异构处理能力的参与设备时中途加入的参与者具备鲁棒性。然而，当数据非iid且不平衡时，模型的收敛速度明显滞后。
做为改进，[129]提出了FedAsync算法，在该算法中，每一个新接收的本地更新根据时效性自适应加权，时效性定义为当前历元与所接收更新所属迭代的差值。例如，例如，来自散兵的陈旧更新已通过时，由于它应该在之前的训练回合中收到。所以，它的权重更小。
此外，本文还证实了一类受限非凸问题的收敛性保证(the convergence guarantee for a restricted family of non-convex problems.)然而，FedAsync算法的当前超参数仍然须要进行调整，以确保在不一样的设置下收敛。
所以，该算法仍然没法推广以适应异构设备的动态计算约束。
事实上，考虑到异步FL的可靠性存在不肯定性，同步FL仍然是目前最经常使用的方法[77]。
对于大多数现有的FEDAVG算法的实现，全局聚合阶段发生在固定数量的训练回合以后。
为了更好地管理动态资源约束，[65]中的做者提出了一种自适应的全局聚合方案，该方案改变了全局聚合频率，从而在保证FL训练过程当中有效利用可用资源(如能量)的同时，保证模型性能。在[65]中，MEC系统模型由(i)局部更新阶段(使用局部数据对模型进行训练)、(ii)边缘聚合阶段(发生中间聚合)和(iii)全局聚合阶段(FL服务器接收并聚合更新后的模型参数)组成。
特别地，做者研究了当边缘服务器聚合总数和全局聚合间隔之间的本地更新总数不一样时，训练损失是如何受到影响的。
为此，首先导出了非iid数据梯度降低的收敛界。而后，提出了一种基于最新系统状态自适应选择最优全局聚合频率的控制算法。例如，若是全局聚合太耗时，那么在启动与FL服务器的通讯以前，会发生更多的边缘聚合。
模拟结果代表:在相同的时间预算下，自适应聚合方案在损失函数最小化和精度方面都优于固定聚合方案。然而，自适应聚合方案的收敛保证目前只考虑凸损失函数。

C.激励机制

在[130]中，做者提出了一种服务订价方案，在该方案中，参与者充当模型全部者的培训服务提供者。此外，为了克服模型更新传递过程当中的能量低效问题，提出了一种支持模型更新传递和交易的协同中继网络。
参与者与模型全部者之间的交互被建模为Stackelberg博弈[131]，其中模型全部者为买方，参与者为卖方。提出了Stackelberg博弈，其中每一个理性参与者能够对其自身的利润最大化价格进行非合做性决策。
在低层子博弈中，模型全部者考虑模型的学习精度与训练数据大小之间的凹关系，经过肯定训练数据的大小来实现利润最大化。
在上层子博弈中，参与者决定每单位数据的价格以最大化他们的我的利润。
模拟结果代表：该机制可以保证Stackelberg均衡的惟一性。例如，包含有价值信息的模型更新在Stackelberg均衡中订价更高。此外，模型更新能够协同转移，从而减小通讯中的拥塞，提升能源效率。然而，模拟环境涉及的移动设备相对较少。

与[130]类似，[132]中的做者也将参与者与模型全部者之间的交互建模为Stackelberg博弈。然而，在这种状况下，参与者被鼓励分配更多的计算能力进行训练。
在较低级别的子博弈中，参与者经过选择CPU功耗来最大化其效用。
在上层子博弈中，模型全部者经过选择每单位参与者cpu功率的最优补偿来最小化成本。
而后经过反向概括法求解平衡解。
模拟结果代表：当模型全部者的预算增长时，激励机制能够减小训练延迟，由于激励参与者投入更多的CPU资源来进行更快的训练。

与[130]和[132]相比，[133]中的做者提出了一种使用契约理论[134]方法的激励设计，以吸引具备高质量FL数据的参与者。精心设计的契约能够经过自我揭示机制减小信息不对称，在这种机制中，参与者只选择专门为其类型设计的契约。
为了可行性，每一个合同必须知足我的理性(IR)和激励相容(IC)约束。
对于IR，当参与者参与联盟时，每一个参与者都被保证有积极的效用。
对于IC，每一个效用最大化的参与者只选择为其类型设计的契约。
模型全部者的目标是在IR和IC约束下最大化本身的利润。
如图11所示，导出的最优契约是自揭示的，使得具备较高数据质量的每一个高类型参与者仅选择针对其类型设计的契约，而具备较低数据质量的每一个低类型参与者不具备模仿高类型参与者的激励。

图11:具备未知资源约束的参与者只有在选择最能反映其约束的bundle时，才能使其效用最大化。

模拟结果代表：全部类型的参与者只有在选择与本身的类型匹配的契约时，才能得到最大的效用。此外，与基于Stackelberg博弈的激励机制相比，本文提出的契约理论方法在模型全部者的利润方面也有更好的表现。这是由于在合同理论方法下，模型全部者能够从参与者身上获取更多利润，而在Stackelberg博弈方法下，参与者能够优化各自的效用。

[133]的做者进一步引入声誉做为衡量FL参与者可靠性的指标，设计了基于声誉的可靠FL参与者选择方案[62]。在这种状况下，每一个参与者的声誉值[135]来自两个来源，(i)来自与FL服务器过去交互的直接声誉意见，(ii)来自其余任务发布者的间接声誉意见，即，其余FL服务器。
间接声誉意见存储在开放访问声誉区块链[136]中，以确保以分散方式进行安全声誉管理。在模型训练以前，参与者选择最适合其数据集准确性和资源条件的契约。而后，FL服务器选择声誉分数大于预先设定的阈值的参与者。FL任务完成后，即，达到了理想的精度，FL服务器更新声誉意见，这些意见随后被存储在声誉区块链中。
模拟结果代表：因为检测到不可靠的工做人员而不选择进行fl训练，该方案能显著提升fl模型的准确性。

总结：

摘要:在本节中，咱们讨论了资源分配中的三个主要问题。表四总结了这些问题和方法。
然而，在第三节和第四节中，咱们假设FL保证参与者的隐私和安全。可是，正如咱们将在下一节中讨论的那样，这种假设在恶意参与者或FL服务器存在时可能不成立。所以，咱们将在下一节讨论隐私和安全问题。

5:隐私和安全性问题。

A.隐私保护

FL的主要目标之一是保护参与者的隐私，参与者只须要共享训练模型的参数，而不须要共享他们的实际数据。然而，最近的一些研究代表，恶意的参与者仍然能够根据他们共享的模型从其余参与者那里推断出敏感信息，例如性别、职业和位置。例如，在[137]中，当在FaceScrub[138]数据集上训练一个二元性别分类器时，做者代表，他们能够经过检查共享模型来推断某个参与者的输入是否包含在数据集中，其准确率高达90%。所以，在本节中，咱们将讨论与FL中共享模型相关的隐私问题，并回顾为保护参与者隐私而提出的解决方案。

机器学习中的信息利用攻击——简要概述:最先的研究工做之一显示了从训练过的模型中提取信息的可能性[139]。在本文中，做者代表在训练阶段，训练样本中隐含的相关性被收集到训练模型中。所以，若是发布了通过训练的模型，可能会致使意外的信息泄露给攻击者。例如，对手能够从其训练有素的语音识别系统中推断出用户的种族或性别。在[140]中，做者开发了一种模型反演算法，该算法对于从基于决策树或人脸识别训练模型中获取信息很是有效。该方法的思想是将目标特征向量与每一个可能的值进行比较，而后得出一个加权几率估计，即正确的值。实验结果代表，利用该技术，敌手能够从受害者的标签中重建出一幅很是准确的人脸图像。
最近，[141]的做者代表，对手甚至能够经过对预测模型的查询来推断受害者的信息。特别是当恶意的参与者能够访问一个训练好的模型进行预测查询时，就会发生这种状况。而后，恶意参与者可使用预测查询从数据全部者中提取训练好的模型。更重要的是，做者指出，这种攻击能够成功地从普遍的训练模型中提取模型信息，如决策树、逻辑回归、支持向量机，甚至包括DNNs在内的复杂训练模型。最近的一些研究工做也证实了基于dnn的训练模型对模型提取攻击的脆弱性[142]-[144]。所以，这为共享FL中的训练模型的参与者带来了严重的隐私问题。
FL参与者差别化隐私保护解决方案:
为了保护DNNs训练参数的隐私，[20]的做者引入了差分私有随机梯度降低技术(differentially private stochastic gradient descent)，该技术能够有效地应用于DL算法。
该技术的关键思想是，在向服务器发送参数以前，经过使用一种差分的隐私保护随机机制[145]，例如高斯机制，在训练参数中加入一些“噪声”。特别地，在一个正常的FL参与者的梯度平均步骤中，一个高斯分布被用来近似差分私有随机梯度降低。而后，在训练阶段，参与者不断计算恶意参与者利用其共享参数的信息的几率。一旦达到预约义的阈值，参与者将中止其培训过程。经过这种方式，参与者能够减小从其共享参数中暴露私人信息的风险。
受到这个想法的启发，[146]中的做者开发了一种方法，能够为参与者提供更好的隐私保护解决方案。在这种方法中，做者提出了在向服务器发送通过训练的参数以前处理数据的两个主要步骤。特别是，对于每一轮学习，聚合服务器首先随机选择一些参与者来训练全局模型。而后，若是在一轮学习中选择一个参与者来训练全局模型，参与者将采用[20]中提出的方法，即，在向服务器发送训练参数以前，使用高斯分布向训练模型添加噪声。这样，恶意的参与者就没法经过共享全局模型的参数来推断其余参与者的信息，由于在每一轮的学习中，它都没有关于谁参加了培训过程的信息。
协同培训解决方案:
虽然DP方案能够保护诚实参与者的隐私信息不受FL中其余恶意参与者的侵害，但它们只有在服务器可信任的状况下才能很好地发挥做用。若是服务器是恶意的，则会对网络中的全部参与者形成更严重的隐私威胁。
所以，[147]中的做者引入了一个协做DL框架来呈现多个参与者来学习全局模型，而无需将它们的显式训练模型上传到服务器。此技术的关键思想是，与其将整个训练后的参数集上传到服务器并将整个全局参数更新到其本地模型，不如每一个参与者明智地选择要上传的梯度数量和全局模型中的参数数量 如图12所示进行更新。这样，恶意的参与者就不能从共享的模型中推断出明确的信息。

选择性参数共享模型

本文的一个有趣的结果是，即便参与者不共享全部训练参数，也不更新共享模型中的全部参数，所提出的解决方案的精度仍然接近服务器拥有全部数据集来训练全局模型的状况。例如，对于MNIST数据集[148]，当参与者赞成共享其10%和1%的参数时，预测模型的准确性分别为99.14%和98.71%，而对于集中式解决方案，当服务器有完整的数据须要训练时，预测模型的准确性为99.17%。然而，这种方法还须要在更复杂的分类任务上进行测试。
GANs是一类利用生成网络和鉴别网络这两种神经网络相互竞争来训练数据的ML技术。生成器网络试图经过向真实数据添加一些“噪声”来生成虚假数据。而后，生成的假数据被传递到鉴别器网络进行分类。在训练过程以后，GANs能够生成与训练数据集相同的统计数据。
受到这个想法的启发，[149]中的做者开发了一种强大的攻击，它容许恶意的参与者从受害者的参与者那里推断出敏感信息，即便只有受害者的一部分共享参数，如图13所示。

为了应对GAN攻击，[151]中的做者介绍了一种基于极端boosting算法的秘密共享方案。这种方法在每轮将新训练的模型以明文形式发送到服务器以前，执行一个轻量级的秘密共享协议。所以，网络中的其余参与者没法从共享模型中推断信息。可是，这种方法的局限性在于依赖可信的第三方来生成签名密钥对。
与前面提到的全部工做不一样，[152]中的做者引入了一种协做训练模型，在该模型中，全部参与者协做训练一个联合的GANs模型。该方法的核心思想是联邦GANs模型能够生成代替参与者真实数据的人工数据，从而为诚实的参与者保护真实数据的隐私。
特别是，为了保证参与者的数据隐私，同时又能在训练任务中保持灵活性，这种方法产生了一个联邦生成模型。该模型能够输出不属于任何特定真实用户的人工数据，而是来自于共同的跨用户数据分布。所以，这种方法能够显著下降恶意利用真实数据信息的可能性。可是，这种方法继承了GANs现有的局限性，例如生成的假数据致使训练不稳定，这会极大地下降协做学习模型的性能。

加密解决方案:
在fl中，当参与者想要共享训练过的参数时，加密是保护其数据隐私的有效方法。在[153]中，引入同态加密技术来保护参与者共享参数的隐私，使其免受诚实但好奇(honest-but-curious)的服务器的攻击。一个诚实但好奇的服务器被定义为一个用户，他想要从参与者的共享参数中提取信息，可是保持FL中的全部操做处于适当的工做状态。此解决方案的思想是，在将参与者的训练参数发送到服务器以前，将使用同态加密技术对其进行加密。该方法能有效地保护敏感信息不被好奇的服务器访问，并达到与集中式DL算法相同的精度。
文献[79]也提出了相似的概念，使用秘密共享机制来保护FL参与者的信息。虽然在[153]和[79]中提出的加密技术能够防止好奇的服务器提取信息，但它们须要多轮通讯，而且不能防止服务器和参与者之间的串通。
所以，文献[154]中的做者提出了一种混合的解决方案，它将加法同态加密和fl中的dp相结合，特别是在训练参数发送到服务器以前，将使用加法同态加密机制和有意噪声对原始参数进行加密，干扰原始参数。所以，该混合方案既能防止好奇的服务器利用信息，又能解决服务器与恶意参与者的勾结问题。
然而，在这篇文章中，做者并无将所提出的方法的准确性与没有同态加密+dp的状况进行比较。所以，提出的方法的性能，即，在模型精度方面，还不清楚

B .安全问题

在FL中，参与者对模型进行本地训练，并与其余参与者共享训练参数，以提升预测的准确性。然而，这个过程容易受到各类攻击，例如数据和模型中毒，在这种状况下，恶意的参与者能够发送错误的参数或损坏的模型来伪造全局聚合期间的学习过程。所以，全球模型将更新不正确，整个学习系统会被破坏。本节讨论更多关于FL中出现的攻击的细节，以及处理这些攻击的一些最新对策。

数据中毒攻击:
在FL中，参与者训练它的数据并将训练好的模型发送到服务器进行进一步的处理。在这种状况下，服务器很难检查参与者的真实训练数据。所以，恶意的参与者能够经过建立脏标签数据来破坏全局模型，从而训练全局模型以生成伪造的参数。例如，一个恶意的参与者能够在一个设计好的标签下，例如一个服装分支，生成大量的样本，例如照片，并利用这些样本训练全局模型，以实现其业务目标，例如，预测模型显示目标服装分支的结果。当恶意参与者向训练数据集注入相对较少的脏标签样本（约50个）时，脏标签数据中毒攻击被证实在DL流程中实现了高达90％的错误分类[155]。这就须要紧急解决方案来处理FL的数据中毒攻击。
在[156]中，做者调查了基于sybil的数据中毒攻击对FL系统的影响。特别是对于sybil攻击，恶意参与者试图经过建立多个恶意参与者来提升数据中毒在训练全局模型中的有效性。

表V：具备MNIST数据集的FL系统中无攻击场景和使用1和2 sybils进行攻击的准确性和攻击成功率[148]。

在表V中，做者代表，在只有两个恶意参与者的状况下，攻击成功率能够达到96.2%，而如今FL模型没法正确地对“1”图像进行分类(相反，它老是错误地预测“7”图像)。
为了减小sybil 的攻击，做者提出了一种防护策略，即傻瓜策略（FoolsGold）。该方法的关键思想是，诚实的参与者能够根据其更新的梯度将其与sybil参与者区分开来。具体来讲，在非iid的FL环境中，每一个参与者的训练数据都有本身的特殊性，sybil参与者提供比其余诚实参与者更类似的梯度。使用FoolsGold，该系统能够保护SybIL数据中毒攻击，对传统的FL过程进行最小的改变，而且不须要任何外部信息来辅助学习过程。经过对3个不一样的数据集(MNIST [148]， KDDCup [157]， Amazon Reviews[157])的模拟结果，FoolsGold能够在不一样的条件下减轻攻击，包括不一样的参与者数据分布、不一样的中毒目标和不一样的攻击策略。

模型中毒攻击:
与数据中毒攻击不一样(旨在生成假数据以对全局模型形成不利影响)，模型中毒攻击试图直接毒害它发送到服务器进行聚合的全局模型。
[158]和[159]提出，模型中毒攻击要比数据中毒攻击有效得多，特别是对于参与者较多的大规模FL。缘由：对于数据中毒攻击，恶意参与者的更新将根据其数据集和联邦中的参与者数量进行缩放。可是，对于模型中毒攻击，恶意的参与者能够直接修改更新后的模型并将其发送到服务器进行聚合。所以，即便只有一个攻击者，整个全局模型也可能被毒害。[158]的模拟结果也证明，即便是训练数据有限且高度受限的对手，在执行模型中毒攻击时也能得到较高的成功率。所以，必须开发保护全局模型免受模型中毒攻击的解决方案。
在[158]中，提出了一些防止模型中毒攻击的解决方案。首先，基于来自参与者的更新模型，服务器能够检查共享模型是否有助于提升全局模型的性能。若是不是，则参与者将被标记为潜在的攻击者，观察通过几轮该参与者的更新模型以后，服务器能够肯定这是不是恶意的参与者。
第二个解决方案基于参与者共享的更新模型之间的比较。特别是，若是来自参与者的更新模型与其余模型差别太大，则参与者多是恶意的。而后，服务器将继续观察来自该参与者的更新，而后才能肯定这是不是恶意用户。然而，模型中毒攻击很是难以预防，由于在数百万参与者的培训中，很难评估每一个参与者的改进。所以，须要进一步研究更有效的解决办法。
在[159]中，做者引入了一种更有效的模型中毒攻击，该模型证实，只需一轮学习，攻击者的任务就能达到100%的准确率。特别是，恶意的参与者能够共享其受毒害的模型，该模型不只为其故意的目的而训练，并且还包含一个后门函数(backdoor function )。在本文中，做者考虑使用语义后门函数注入到全局模型中。（缘由:即便不须要修改恶意参与者的输入数据，该函数也可使全局模型分类错误。）例如，图像分类后门函数能够将攻击者选择的标签注入具备某些特定功能的全部图像，例如，全部带有黑色条纹的狗均可能被误分类为猫。模拟结果代表，这种攻击能够大大优于其余传统的FLl数据中毒攻击。例如，在一项总共有8万参与者的单词预测任务中，仅牺牲其中的8个就足以达到50%的后门准确率，而执行数据中毒攻击所需的恶意参与者有400个。
搭便车攻击:
搭便车是FL中的另外一种攻击，当参与者想从全局模型中获益而又不想参与学习过程时，这种攻击就会发生。恶意的参与者，即free rider，能够伪装它有很是少的样本要训练，或者它能够选择一个小的集合来训练它的真实数据集，例如，来节省它的资源。所以，诚实的参与者须要在FL训练过程当中贡献更多的资源。为了解决这个问题，[160]中的做者引入了一种基于区块链的FL架构，称为BlockFL，在这种架构中，经过利用区块链技术来交换和验证参与者的本地学习模型更新。具体来讲，每一个参与者在区块链网络中训练并将训练好的全局模型发送给其关联的采矿者，而后得到与训练数据样本数量成比例的奖励，如图14所示。这样，这个框架不只能够防止参与者搭便车，还能够激励全部参与者为学习过程作出贡献。

图14：传统FL和blockfl架构

在[161]中也引入了一个相似的基于区块链的模型，为FL的参与者提供数据保密性、计算可审核性和激励。然而，区块链技术的使用意味着实施和维护矿工操做区块链网络的重大成本。此外，在区块链网络中使用的一致性协议，例如工做证实（POW），会致使信息交换的长延迟，所以它们可能不适合在FL模型上实现。

总结

在本节中，咱们讨论了两个关键问题，即，通常认为，FL是一种有效的隐私保护学习解决方案，能够帮助参与者进行协做模型训练。然而，在本节中，咱们展现了恶意的参与者能够利用这个过程并得到对其余参与者的敏感信息的访问。此外，咱们还证实了攻击者经过使用FL中的共享模型进行攻击，不只能够破坏整个学习系统，并且能够伪造训练后的模型来达到其恶意目的。此外，本文还回顾了解决这些问题的方法，这些方法对于指导FL系统管理员设计和实施适当的对策尤其重要。表六总结了FL中攻击的关键信息及其应对措施。

6:FL在移动边缘网络优化中的应用。

在本节中，咱们将重点讨论FL在移动边缘网络优化中的应用。正如[ 34 ]做者所强调的那样，无线网络的复杂性和异构性，加强了采用基于数据驱动的ML方法，来优化移动边缘网络的，系统设计和资源分配决策，的吸引力。可是，正如前面几节所讨论的，用户的私有数据在本质上多是敏感的。所以，现有的基于学习的方法能够与FL相结合来保护隐私。在本节中，咱们考虑FL在边缘计算中的四个应用:

网络攻击检测:
物联网设备的广泛存在和网络攻击的日益复杂化[162]意味着有必要改进现有的网络攻击检测工具。最近，DL在网络攻击检测方面取得了普遍的成功。与FL相结合，网络攻击检测模型能够在保护用户隐私的同时协同窗习。
边缘缓存和计算分流:
考虑到边缘服务器的计算和存储能力限制，终端设备的一些计算密集型任务必须分流到远程云服务器进行计算。此外，一般被请求的文件或服务应该放在边缘服务器上，以便更快地检索。当用户想要访问这些文件或服务时，他们没必要与远程云通讯。所以，一个最优的缓存和计算卸载方案能够与FL协做学习和优化。
基站关联:
在一个密集的网络中，优化基站关联以限制用户面临的干扰是很是重要的。然而，利用用户数据的传统基于学习的方法一般假设这些数据是集中可用的。考虑到用户隐私的限制，能够采用基于FL的方法。
车辆网络:
车辆互联网(IoV)[163]的特色是智能车辆具备数据收集、计算和通讯等相关功能，例如导航和交通管理。然而，这些丰富的知识在本质上是隐私和敏感的，由于它能够揭示司机的位置和我的信息。在本节中，咱们讨论了基于FL的方法在IoV网络边缘的电动汽车充电站交通排队长度预测和能源需求中的应用。

A.

B.

C.

D.

7:FL的挑战，未解决的问题和将来的研究方向。

除上述问题外，在大规模部署fl方面还存在挑战、开放性问题和新的研究方向，下面将进行讨论。

A.挑战

退出的参与者:
第四节中讨论的方法，如[78]、[114]和[115]，提出了新的参与者选择和资源分配算法，以解决训练瓶颈和资源异构性。在这些方法中，假定参与者的无线链接老是可用的。然而，在实践中，因为链接性或能量限制，参与的移动设备可能会离线并从fl系统中退出。大量的从训练参与中退出的设备会显著下降FL系统的性能[23]，例如准确性和收敛速度。新的FL算法须要对网络中的设备掉线有很强的鲁棒性，而且可以预测只有少数参与者参加一轮训练的场景。一种可能的解决方案是：FL模型全部者提供免费的专用/特殊链接，例如蜂窝链接，以激励参与者避免退出。
隐私问题:
FL可以保护每一个参与者的隐私，由于模型训练能够在本地进行，只须要与FL服务器交换模型参数。可是，正如[139]、[140]和[141]中所述，在训练过程当中对模型更新进行通讯仍然可能向对手或第三方泄露敏感信息。目前的方法提出了安全解决方案，如DP[20]，[146]和[188]，以及协做培训[147]和[149]。然而，采用这些方法牺牲了性能，即模型精度。它们还须要在参与的移动设备上进行大量计算。所以，在实现FL系统时，必须在隐私保护和系统性能之间取得平衡。
无标号数据:
值得注意的是，调查中回顾的方法是针对监督学习任务提出的。这意味着这些方法假定联合网络中的全部数据都有标签。然而，在实践中，网络中生成的数据多是未标记或错误标记的[189]。要找到有适当数据用于模型训练的参与者，这对服务器来讲是一个巨大的挑战。解决这一挑战可能须要解决FL系统系统中的可伸缩性、异构性和隐私性等挑战。一个可能的解决方案：让移动设备经过相互学习“标记数据”来构造其标记数据。

B.未决问题

移动设备之间的干扰:
现有的资源分配方法，如[78]和[115]，都是基于移动设备的资源状态来进行参与者选择。事实上，这些移动设备可能在地理上彼此接近，即在同一个单位里。所以，可能须要将信道分配策略与资源分配方法相结合来解决干扰问题。虽然在[121]、[123]和[124]中的研究考虑了多访问模式和空中计算，可是这种方法是否具备可伸缩性，好比可以支持许多参与者的大型联合，仍然有待观察。为此，能够考虑采用基于数据驱动学习的解决方案，如联邦DRL，对移动边缘网络的动态环境进行建模并进行优化决策。
通讯安全:
因为无线介质的公开特性，FL容易受到严重的安全问题，如分布式拒绝服务(DoS)[190]和干扰攻击[191]。特别是对于干扰攻击，攻击者能够发送具备高功率的射频干扰信号来中断或对移动设备与服务器之间的通讯，对此形成干扰。这种攻击会致使模型上传/下载的错误，从而下降FL系统的性能，如准确性。能够采用诸如跳频之类的抗干扰方案（例如，在不一样频率上发送模型更新的另外一个副本）来解决该问题。
异步FL:
在同步FL中，每一轮训练的速度和最慢的设备(即最慢的设备)同样快，因此FL系统容易受到掉队者的影响。所以，异步FL在[111]和[129]中被提出做为一种解决方案。此外，异步FL还容许参与者中途参加FL训练，甚至在一轮训练正在进行的时候。这更能反映实际的fl设置，是确保FL可伸缩性的一个重要因素。然而，因为收敛保证，同步FL仍然是最经常使用的方法[77]。考虑到异步FL的诸多优势，应该探索新的异步算法。特别是对于将来提出的算法，须要考虑非凸损失函数在非iid条件下的收敛保证
激励机制设计:
在[130]，[132]和[133]中提出的激励机制设计假设一个联盟仅由多个个体参与者组成，例如带有一个FL服务器的单独FL。这种设置可能有如下例外:(i)参与者多是不肯分享其模型参数的竞争对手，由于竞争对手也受益于一个训练有素的全局模型(ii) FL服务器可能与其余FL服务器竞争，即模型的主人。在这种状况下，激励机制设计的制定将与所提议的有很大的不一样。此外，还能够采用其余机制，如拍卖[193]、[194]。

C.将来发展方向

学习收敛的新研究:
算法的收敛性是算法的核心问题之一。FL查找权重以最小化全局模型聚合。这其实是一个分布式优化问题，其收敛性并不老是保证的。对基于梯度降低的FL的凸和非凸损失函数的收敛范围进行理论分析和评价是重要的研究方向。虽然现有的研究已经涵盖了这个主题，但许多有限制的保证，例如，损失函数的凸性。
量化统计异质性的新工具：
移动设备一般经过网络以非IID方式生成和收集数据。此外，移动设备之间的数据样本数量可能有很大差别。为了提升算法的收敛性，须要对数据的统计异质性进行量化。最近的一些研究，如[195]，已经开发出经过诸如局部差别等度量来量化统计异质性的工具。然而，在训练以前，很难经过联邦网络计算这些指标。这些指标的重要性激发了将来的发展方向，好比开发高效算法来快速肯定联合网络的异构程度
减小通讯的组合算法
目前，有三种常见的减小FL的通讯技术，如第三节所述。研究如何将这些技术相互结合以进一步提升性能是很重要的。例如，模型压缩技术能够与基于重要性的更新技术相结合。这种组合可以显著减小从移动设备发送到服务器的模型更新的大小。可是，须要进一步评估这种组合技术的准确性和通讯开销之间的权衡。特别是，对于咱们在第三节中讨论的模拟结果，因为数据集和参与者数量不一样，精确通讯成本下降的权衡很难管理。
协做移动人群ML:
在现有的方法中，移动设备须要与服务器直接通讯，这可能会增长能耗。实际上，附近的移动设备能够分组在一个集群中，服务器和移动设备之间的模型下载/上传能够经过一个做为中继节点的"簇头"来实现[196]。移动设备和簇头之间的模型交换能够在设备到设备(D2D)链接中完成。该模型能够显著提升能源效率。所以，能够设计高效的簇头协调方案，进一步提升FL系统的能源效率。
FL的应用:
因为保证数据隐私的优势，FL在许多应用中发挥着愈来愈重要的做用，如医疗、金融和交通系统。目前对FL应用的研究多集中在学习模型的联合训练上，忽略了学习模型的实现问题。对于将来FL的应用研究，在调查中须要考虑上述问题，如通讯成本、资源分配、隐私和安全等，以确保FL系统是可行的、设计良好的、可扩展的。

8:总结全文。

本文介绍了FL的教程以及有关FL实施问题的全面调查。首先，咱们首先介绍MEC的动机，以及FL如何在移动边缘网络上用做协做模型训练的支持技术。在此基础上，阐述了DNN模型训练、FL的基本原理和面向FL的系统设计。而后，咱们将针对FL中新出现的实施挑战提供详细的评论，分析和比较方法。这些问题包括通讯成本，资源分配，数据隐私和数据安全性。在此基础上，讨论了基于FL的隐私保护移动边缘网络优化的实现。最后，咱们讨论了挑战，未解决的问题以及将来的研究方向。