任奎：人工智能算法安全浅析——深度学习中的对抗攻击与防护

时间 2020-08-05 标签任奎人工智能算法安全浅析深度学习中对抗攻击防护

2020-05-19 19:52:46算法

任奎安全

随着计算机产业发展带来的计算性能与处理能力的大幅提升，人工智能在音视频识别、天然语言处理和博弈论等领域获得了普遍应用。在此背景下，确保人工智能的核心——深度学习算法具备可靠的安全性和鲁棒性相当重要。网络

然而，近年来研究者发现，深度学习模型存在着易受对抗样本攻击的安全隐患。攻击者能够经过向良性数据中添加特定的扰动，生成对抗样本。附加轻微扰动的对抗样本不会影响人类的判断，却会使深度学习模型产生错误结果。同时，对抗攻击在自动驾驶等场景中的成功实施更加代表了对抗攻击在现实世界中的可行性。所以有关对抗攻击和对抗防护技术的研究，引发了机器学习和安全领域研究者愈来愈多的关注。框架

本文将围绕深度学习对抗攻击和对抗防护领域中最前沿的研究成果，探讨对抗攻击和防护技术的理论基础、经典算法，以及在工业领域的实际部署等研究与应用前沿。机器学习

深度学习的对抗性攻击技术

根据攻击者可得到的信息不一样，可将威胁模型划分红白盒、灰盒和黑盒攻击三类（见图1）。白盒攻击下，攻击者能够得到目标模型的所有信息；灰盒攻击下，攻击者仅可获取模型的结构信息但没法得到模型参数，有模型的查询权限；黑盒攻击下，攻击者仅拥有模型的查询权限。多数攻击算法都是为白盒模型设计的，可是因为对抗样本在模型之间具备必定的传递性，它们一样适用于灰盒模型和黑盒模型。函数

图 1 对抗攻击的爆发性能

上述提到的攻击算法中，攻击者要为每一个样本分别生成其对应的对抗扰动，该对抗扰动不会在良性样本之间传递。那么是否存在一种通用的扰动，使附加该扰动的良性样本均可以欺骗某一特定神经网络？通用对抗攻击算法经过使用全部良性样本对全局扰动进行迭代更新，从而生成对大多样本有效的统一扰动。在每次迭代中，对于附加了当前扰动没法欺骗模型的良性样本，将会为其求解一个相似于L-BFGS的优化问题，以找到该样本得以欺骗模型所需的最小附加扰动。这一附加扰动将被添加到当前全局扰动中，对全局扰动进行一次更新。最终，附加该全局扰动的大多数良性样本都可欺骗神经网络。实验代表，这种简单的迭代算法能够有效地攻击深度神经网络，例如CaffeNet、GoogleNet、VGG和ResNet等。出乎意料的是，这种可在不一样样本中传递的扰动同时能够应用到其余不一样模型中，例如在VGG上制做的通用扰动在其余模型上也能够达到53%以上的攻击成功率。学习

尽管PGD和C&W等对抗攻击算法在数字领域很是有效，但将其扩展到物理世界仍然须要克服两个关键问题。第一个问题是，环境噪声和天然变化将破坏数字空间中计算出的对抗性扰动。例如模糊、噪声和JPEG编码等会对对抗性攻击的破坏率超过80%。第二个问题是，在现实世界中，攻击者仅能在特定物体上添加扰动，而没法对整个环境中的背景添加扰动。Athalye等提出了EoT算法来解决第一个问题。EoT算法不直接使用理想数字域中计算出的梯度用于生成对抗扰动，而是在样本上添加了一组随机噪声，而后对加入这些噪声的样本计算梯度，用这些梯度的平均值生成对抗扰动。在基于梯度的攻击算法（如FGSM和PGD）中采用这种平均梯度，能够提升生成的对抗样本的鲁棒性。Eykholt等提出了一种掩模变换来分离背景和目标，从而能够将对抗性扰动限制在目标区域内，解决了第二个问题。该方法成功地在现实世界的交通标志上生成了可打印的对抗性扰动，其整体攻击成功率达到80%以上。测试

除了图片分类任务，如图1所示图像分割、3D识别、音频识别和强化学习等工业领域也会受到对抗攻击的影响。优化

在3D识别领域，PointNet、PointNet++和 DGCNN等基于点云的分类分割模型已被证实易受到对抗攻击的影响。Zheng等提出了基于丢弃点云中关键点的攻击方法。该方法经过将点移动到点云的质心，近似计算每一个点对分类结果的贡献，而后经过丢弃具备较大贡献的点来欺骗神经网络。随着必定数量的高贡献点被丢弃，PointNet、PointNet++和DGCNN的分类精度显著下降。

在音频识别领域，Carlini和Wagner经过对C&W损耗函数的优化，成功地构建了高质量的音频对抗性样本。对于任何音频信号，只要在DeepSpeech上对音频信号的1%进行对抗性干扰，便可在其对应的文本翻译中最多影响50个单词。

在文本识别领域，Liang等提出了针对文本分类任务的攻击策略。攻击者首先肯定影响分类结果最重要的文本项，而后对这些重要文本项采用插入、删除、交换、字符替换和单词替换等扰动措施。实验代表，这种攻击能够成功地欺骗一些基于DNN的文本分类器。

深度学习的对抗性防护技术

对抗防护能够分为启发式防护和可证实式防护两类。启发式防护算法由研究者经过实验得到，它们在实践中能够作到对一些特定的对抗攻击算法具备良好的防护性能，但没有对防护性能给出理论性保障；可证实式防护经过理论证实，能够计算出在特定对抗攻击算法攻击下模型的最低准确度。

对抗训练试图经过将对抗样本归入训练阶段来提升模型的鲁棒性，是目前为止性能最好的启发式防护算法。Goodfellow等首先提出对抗训练，他们使用良性样本和经过FGSM算法生成的对抗样本一块儿训练神经网络，用于加强神经网络的鲁棒性；接着，提出了使用由PGD算法生成的对抗样本进行对抗训练的方法。根据实验结果，PGD对抗训练可在MNIST、CIFAR-10和ImageNet等多个数据集上，在各类L∞攻击下得到最高的准确度。可是，因为生成PGD对抗样本须要大量计算成本，所以PGD对抗训练不是一种有效率的防护措施。FGSM算法能够和随机启动结合，这样能高效地生成更多对抗样本用于对抗训练，从而提升模型鲁棒性。为了解决模型易受到黑盒攻击问题，提出了集成对抗训练方法。该方法首先训练多个具备不一样网络结构模型，而后同时针对这些不一样的模型生成对抗样本，并将其用于对抗训练。这种方法增长了用于对抗训练的对抗样本的多样性，从而加强了针对从其余模型转移过来的对抗样本的鲁棒性。Lee等提出使用生成对抗网络进行对抗训练，其中生成器用于生成对抗样本，这些生成器生成的对抗样本将与良性样本一块儿用于训练鲁棒分类器。虽然没有给出理论证实，但研究代表对抗训练在现阶段是对抗攻击最有效的防护手段之一。

随机化也是启发式防护的一种，它经过在模型训练或使用阶段加入随机操做，从而减轻对抗性扰动对模型性能的影响。Xie等在图像输入神经网络前先对图像进行随机变换，从而减轻对抗扰动的效果。这种方法在黑盒攻击下得到了卓越性能，但在白盒攻击中可被EoT算法成功攻击。

去噪属于启发式防护，它的主要目的是减轻或去除对抗扰动，从而下降对抗扰动的功能。去噪防护根据降噪目标不一样，能够分为输入降噪和特征降噪两类。输入降噪试图从输入中部分或彻底消除对抗扰动。Xu等采用减小色彩深度和模糊图像的方法对图像进行压缩，下降图片自由度，从而消除对抗扰动。经过比较模型对于原始图片与压缩后的图片预测结果的差别，来判断原始输入是不是对抗样本。Shen等使用生成对抗网络对输入数据进行去噪。该方法将训练一个用于去噪的生成器，其输入是良性样本或对抗样本，其输出是经去噪后的样本。Meng等使用自动编码器技术对输入数据进行去噪。

以上全部介绍的防护都是启发式防护，这意味着这些防护的有效性只在实验上获得验证，而没有在理论上获得证实，若是没法计算理论上的错误率，这些启发式防护可能会被将来的新攻击所打破。所以许多研究者致力于探索可证实的防护方法，在一类定义明确的攻击下，这些方法始终能保持必定的准确性。目前有表明性的可证实式算法有基于半正定规划的可证实式防护、基于对偶方法的可证实式防护、分布稳健性证实、稀疏权重DNN、基于KNN的防护，以及基于贝叶斯模型的防护等。然而根据现有的实验结果，可证实式防护措施的实际性能仍然比对抗训练的性能差不少。

开放性问题与将来发展

在对抗攻击与对抗防护的研究领域中，仍有许多还没有解决的挑战。

首先，对抗样本背后的因果关系这一问题并未获得回答。早期对这一问题的研究将对抗样本的出现归因于模型结构和学习方法，研究者认为适当的策略和网络结构将显著提升对抗样本的鲁棒性。研究者沿着这种思路尝试过一些探索，特别是与模糊梯度相关的研究，然而实际上这多是一种不太合理的研究方向。相反，最近的研究发现，对抗样本的出现更多是数据维度较高和训练数据不足致使的。

最后，是否存在稳健又高效率的对抗防护算法？咱们仍然没有发现一种防护技术可以很好地平衡防护效果和运算效率。在有效性方面，对抗性训练表现出最好的性能，但计算成本很高。在效率方面，许多基于随机和去噪的防护系统的配置只需几秒钟。然而，最近的许多论文代表这些防护方法并无他们声称的那样有效。可证实防护理论上为实现对抗防护指明了一条道路，但其准确性和有效性都远远不能知足实际要求。

对于该领域的将来发展，咱们认为对抗攻击的研究趋势主要包括两个方向。第一个是设计更有效、更强大的攻击用来评估新兴的防护系统，这个方向的重要性很直观，咱们但愿在潜在攻击者以前评估全部的风险。第二个是实现物理世界中的对抗攻击。之前对该研究主题的主要疑问是那些对抗性攻击是否会对物理世界造成真正威胁。一些研究人员怀疑因为某些环境因素的影响，最初在数字空间中设计的对抗性攻击将无效。Athalye等首先向良性样本中添加随机的噪音模拟物理世界的环境因素，并计算这些噪音样本上产生的梯度指望，进而实现物理世界的对抗攻击。Eykholt等进一步考虑了掩膜和制造偏差从而实现了交通标志的对抗性扰动，这些都验证了物理对抗样本的存在。

在防护方面，因为大多数启发式防护都没法防护自适应白盒攻击，所以研究者开始关注可证实的防护，这种防护是指不管攻击者采用哪一种攻击方式，可证实防护均可以在必定程度下保证防护性能。可是到目前为止，可扩展性是目前大多数可证实防护所广泛具备的问题。例如区间界分析是最近流行的证实式防护方法，可是它不能扩展到很是深的神经网络和大型数据集。这主要是由于，攻击算法只要针对某一类防护生效便可，然而一个有效的防护算法则须要去防护全部可能的攻击手段。

结束语

近两年来，针对深度学习算法的对抗攻击和防护技术迅速发展。然而，对于对抗样本的成因、通常鲁棒边界的存在等理论问题尚未找到答案，须要深刻研究。不只如此，在实际安全应用中，尚未一套有效且通用的对抗防护技术框架与方法，目前的对抗性训练防护技术，在实际部署中计算成本仍然过高。许多启发式防护仍缺少进一步验证，还不能抵御自适应性白盒攻击者的攻击。简而言之，要达到有效防护目标，不只须要深度学习算法安全性理论的突破，还须要将系统框架、安全测试、环境适配等多个方面的安全技术相结合，才能推进深度学习对抗性安全的跨越式发展。

（参考文献略）

选自《中国人工智能学会通信》

2020年第10卷第4期人工智能与安全专题