可变形卷积在视频学习中的应用:如何利用带有稀疏标记数据的视频帧

时间 2021-06-12 标签深度学习计算机视觉卷积神经网络可变形卷积

卷积层是卷积神经网络的基本层。虽然它在计算机视觉和深度学习中得到了广泛的应用，但也存在一些不足。例如，对于某些输入特征图，核权值是固定的，不能适应局部特征的变化，因此需要更多的核来建模复杂的特征图幅，这是多余的，效率不高。体积膨胀，由于输出转换的接受野始终是矩形的，作为层叠卷积的累积效应，接受野会越来越大，接受野中会包含一些与输出转换无关的背景。不相关的背景会给输出位移的训练带来噪声。

为了克服上述问题，你想对传统的卷积层做一个小小的改变：内核可以适应局部特征的变化，接受场可以收敛到与输出对应的语义背景。虽然这些想法看起来很复杂，但是幸运的是，它已经被实现了，这个改进的卷积层叫做可变形卷积层。

在这篇文章中，我将介绍以下主题：

可变形卷积
使用可变形卷积增强关键点估计的性能
使用可变形卷积增强实例分割的性能

可变形卷积

可变形卷积是一个卷积层加上偏移量学习。如上所示，对于卷积核的每个足迹，都学习了2D偏移量，以便将足迹引导到最适合训练的位置。偏移量学习部分也是卷积层，其输出通道数是输入通道数的两倍，因为每个像素都有两个偏移量坐标。基于这种方法，内核可以适应局部特征变化，这对于语义特征学习是有效的。

这是补偿学习的例证。 a是传统的卷积，其中内核足迹完全不动。 b，c和d说明了足迹移动。

在可变形的卷积中，深像素的接收场集中到相应的物体。如上所示，在中，深蓝色像素（上方）属于大绵羊。但是，其矩形接受区域（底部）在左底部包含小绵羊，这可能会给诸如实例分割之类的任务带来歧义。在b中，感受野变形并集中在大羊身上，避免了歧义。

了解可变形卷积中的偏移

如上所述，偏移量有利于局部特征的核适应和接受场的集中。顾名思义，偏移量用于使内核足迹局部变形，从而最终使接收场整体变形。

现在棘手的部分来了：由于可以学习偏移以适应当前图片中的对象，因此我们可以将当前图片中的对象适应到另一张图片中的对象，并在它们之间提供偏移吗？

让我们具体说吧。假设我们有一个视频，其中每个帧都与其相邻帧相似。然后我们稀疏地选择一些帧，并在像素级别上对其进行标记，例如语义分割或关键点等。由于这些像素级别的标注会需要昂贵成本，是否可以使用未标记的相邻帧来提高泛化的准确性？具体地说，通过一种使未标记帧的特征图变形为其相邻标记帧的方法，以补偿标记帧α中的丢失信息。

学习稀疏标记视频的时间姿态估计

这项研究是对上面讨论的一个很好的解决方案。由于标注成本很昂贵，因此视频中仅标记了少量帧。然而，标记帧图像中的固有问题（如遮挡，模糊等）阻碍了模型训练的准确性和效率。为了解决这个问题，作者使用可变形卷积将未标记帧的特征图变形为其相邻标记帧的特征图，以修补上述固有问题。偏移量就是带标记的帧和未带标记的相邻帧之间优化后的特征差。利用多分辨率特征金字塔构造可变形部分，并采用不同的扩张方法。该方法的优点在于，我们可以利用相邻的未标记帧来增强已标记帧的特征学习，因为相邻帧相似，我们无需对视频的每一帧进行标记。这种可变形的方法，也被作者称为“扭曲”方法，比其他一些视频学习方法，如光流或3D卷积等，更便宜和更有效。

如上所示，在训练过程中，未标记帧B的特征图会扭曲为其相邻的标记帧A的特征图。在推理过程中，可以使用训练后的翘曲模型传播帧A的正确的标注值（ground truth），以获取A的关键点估计。此外，可以合并更多相邻帧，并合并其特征图，以提高关键点估计的准确性。

具有遮罩传播的视频实例分割

作者还通过在现有的Mask-RCNN模型中附加一个掩码传播头来提出用于实例分割的掩码传播，其中可以将时间t的预测实例分割传播到其相邻帧t +δ。

该网络结构类似于上面讨论的姿势估计网络，但有点复杂。它包括三个部分：1）帧t的实例分割预测； 2）帧t与t +δ之间的偏移优化和分割变形； 3）特征图聚合，用于最终预测帧t +δ处的实例分割。在这里，作者还使用乘法层来滤除噪声，仅关注对象实例存在的特征。通过相邻帧的特征聚合，可以缓解遮挡，模糊的问题。

结论

将可变形卷积引入到具有给定偏移量的视频学习任务中，通过实现标签传播和特征聚合来提高模型性能。与传统的一帧一标记学习方法相比，提出了利用相邻帧的特征映射来增强表示学习的多帧一标记学习方法。这样，模型就可以通过训练看到被相邻帧的其他眼睛遮挡或模糊的部分。

引用

Deformable Convolutional Networks, 2017 （arxiv.org/1703.06211）

Learning Temporal Pose Estimation from Sparsely-Labeled Videos, （2019 arxiv.org/1906.04016）

Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation, 2020 （arxiv.org/1912.04573）

作者:Shuchen Du

deephub翻译组