Opacus一款用于训练具备差分隐私的PyTorch模型的高速库

image
原做者:Davide Testuggine、Ilya Mironov,均为 Facebook AI 应用研究科学家
原文连接:https://ai.facebook.com/blog/...git

Opacus是一个可以训练PyTorch模型的差分隐私的库。它支持在客户端上以最小的代码改动进行训练,对训练性能影响不大,并容许客户端在线跟踪任何给定时刻的隐私预算支出。
这个代码版本是针对两个目标受众:
ML从业者会发现这是一个温和的介绍,以训练一个具备微分隐私的模型,由于它须要最小的代码变化。
差分隐私科学家会发现这很容易进行实验和修整,让他们专一于重要的事情。

Opacus是一种新的高速库,用于使用差分隐私(DP)训练PyTorch模型,该库比现有的最新方法更具可扩展性。差别隐私是用于量化敏感数据匿名化的严格数学框架。它一般用于分析中,而且对机器学习(ML)社区的兴趣日益浓厚。随着Opacus的发布,咱们但愿为研究人员和工程师提供一条更轻松的途径,以在ML中采用差别隐私,并加速该领域的DP研究。github

Opacus提供:

  • 速度:经过利用PyTorch中的Autograd挂钩,Opacus能够计算成批的每一个样本的梯度,与依赖微批处理的现有DP库相比,可将数量级的速度提速。
  • 安全:Opacus使用 密码安全的伪随机数生成器
  • 对其安全性相当重要的代码。这在GPU上高速处理了整批参数。
  • 灵活性:多亏了PyTorch,工程师和研究人员能够经过将咱们的代码与PyTorch代码和纯Python代码进行混合和匹配来快速建立他们的想法的原型。
  • 生产力:Opacus随附教程,辅助功能,这些功能甚至能够在你开始培训以前就警告不兼容的图层以及自动重构机制。
  • 交互性:Opacus会跟踪你在任何给定时间点花费了多少隐私预算(DP中的核心数学概念),从而可以提前中止和实时监控。

Opacus经过引入PrivacyEngine抽象定义了一个轻量级的API,该抽象既能够跟踪你的隐私预算,也能够处理模型的渐变。你无需直接调用它便可运行,由于它已链接到标准PyTorch优化器。它在后台运行,使使用Opacus进行培训就像在培训代码的开头添加如下代码行同样容易:算法

model = Net()

optimizer = torch.optim.SGD(model.parameters(), lr=0.05)

privacy_engine = PrivacyEngine(

 model,

 batch_size=32,

 sample_size=len(train_loader.dataset),

 alphas=range(2,32),

 noise_multiplier=1.3,

 max_grad_norm=1.0,

)

privacy_engine.attach(optimizer)

That's it! Now it's business as usual

训练后,生成的工件是标准的PyTorch模型,没有额外的步骤或部署私有模型的障碍:若是你今天能够部署模型,则能够在使用DP对其进行了训练以后进行部署,而无需更改任何代码。安全

Opacus库还包括通过预先训练和微调的模型,针对大型模型的教程以及为隐私研究实验而设计的基础结构。网络

使用Opacus实现高速隐私培训

咱们与Opacus的目标是保留每一个训练样本的隐私,同时限制对最终模型准确性的影响。框架

Opacus经过修改标准的PyTorch优化器来作到这一点,以便在训练过程当中实施(和测量)DP。机器学习

更具体地说,咱们的方法集中在差分私有随机梯度降低(DP-SGD)上。ide

该算法背后的核心思想是,咱们能够经过干预模型用来更新权重的参数梯度(而不是直接获取数据)来保护训练数据集的隐私。经过在每次迭代中将噪声添加到梯度中,咱们能够防止模型记住其训练示例,同时仍可进行汇总学习。(无偏的)噪声天然会在训练过程当中看到的许多批次中抵消。工具

可是,增长噪声须要微妙的平衡:过多的噪声会破坏信号,而过少的噪声将没法保证隐私。为了肯定合适的比例,咱们看一下梯度的范数。限制每一个样本对梯度的贡献很重要,由于离群值比大多数样本具备更大的梯度。咱们须要确保这些异常值的私密性,尤为是由于它们极有可能被模型记住。为此,咱们在一个小批处理中计算每一个样本的梯度。咱们分别裁剪梯度,将其累积回单个梯度张量,而后将噪声添加到总和中。性能

这种基于样本的计算是构建Opacus的最大障碍之一。与PyTorch的典型操做相比,它更具挑战性,自动毕业计算整个批次的梯度张量,由于这对于全部其余ML用例都是有意义的,而且能够优化性能。为了克服这个问题,咱们使用了高效技术训练标准神经网络时得到全部所需的梯度向量。对于模型参数,咱们单独返回给定批次中每一个示例的损失梯度。

这是Opacus工做流程的图表,咱们在其中计算每一个样本的梯度。

经过在运行各层时跟踪一些中间数量,咱们可使用适合内存的任何批次大小进行训练,从而使咱们的方法比其余软件包中使用的替代微批次方法快一个数量级。

隐私保护机器学习的重要性

安全社区鼓励安全关键代码的开发人员使用少许通过仔细审查和专业维护的库。经过容许应用程序开发人员专一于他们最了解的事情:构建出色的产品,这种“不自行加密”的原则有助于最大程度地减小攻击面。随着ML的应用和研究不断加速,对于ML研究人员而言,重要的是使用易于使用的工具来得到数学上严格的隐私保证,而不会拖慢培训过程。

咱们但愿经过开发Opacus等PyTorch工具,使对此类隐私保护资源的访问民主化。咱们正在使用PyTorch更快,更灵活的平台弥合安全社区和通常ML工程师之间的鸿沟。

建筑社区

在过去的几年中,隐私保护机器学习(PPML)社区获得了快速发展。咱们为Opacus周围已经造成的生态系统感到兴奋,咱们的主要贡献者之一是OpenMined,这是一个由数千名开发人员组成的社区,他们正在构建以隐私为中心的应用。并利用许多PyTorch构建块为PySyft和PyGrid提供基础,以实现差别化隐私和联合学习。做为合做的一部分,Opacus将成为OpenMined库(例如PySyft)的依赖项。咱们期待继续咱们的合做,并进一步扩大社区。

Opacus是Facebook AI促进工做进步的更普遍努力的一部分安全发展 计算技术用于机器学习和负责任的人工智能。整体而言,这是未来将其领域转向构建隐私优先系统的重要踏脚石。

开源地址:https://github.com/pytorch/op...

image.png