MIT 与 Facebook 用于动做分类和定位的大规模视频数据集的标注方法

时间 2019-12-14 标签 mit facebook 用于动做分类定位大规模视频数据集标注方法

图像分类和目标检测领域近年来取得了重大的平行进展。能够认为，这些进展归功于数据集的质量提升和数量增加，进而逐步成功地应用到了更复杂的学习模型中。在图像分类中，咱们有从 Caltech101（2004，只有 9146 个样本）到 ImageNet（2011，包含 120 万个样本）这样的数据集。在目标检测中，尽管收集边界框信息所需的额外人类标注成本提升了，但也出现了训练集规模逐渐扩展的类似趋势。Pascal VOC（2007）只包含 1578 个样本，而最近提出的 COCO 数据集包含超过 20 万张图像和 50 万个目标实例标注。算法

在视频领域，动做分类和动做定位的数据集的规模差距有逐渐扩大的趋势。几年前提出的动做分类数据集包含几千个样本（HMDB51 有 6849 部视频，UCF101 有 13000 部视频，Hollywood2 有 3669 部视频），而最近的基准将数据集规模提升了两个量级（Sports1M 包含超过 100 万部视频，Kinetics 包含 30 万 6 千部视频）。可是动做定位的数据集并无同等的增加速度。THUMOS 在 2014 年提出，包含 2700 部修整过的（trimmed）视频和 1000 部未修整的视频，以及定位标注。而现在最大规模的动做定位数据集相比 THUMOS 仅扩大了一点。例如，ActivityNet 包含 2 万部视频和 3 万个标注，AVA 包含 5 万 8 千个剪辑，Charade 包含 6 万 7 千个视频片断。咱们在表 1 中给出了不一样视频数据集的细节对比。api

表 1：SLAC 和其它视频数据集的对比。注意，Sports1M 的标注经过分析和视频相关的文本元数据自动地生成，所以是不许确的。网络

为何动做定位数据集的规模会比目标检测数据集小得多？为何动做定位数据集的规模仍然比动做分类数据集小一个量级？在本文中，做者提出了两个猜测。首先，在视频上构建时间标注是很费时的。根据咱们在专业标注员上作的实验，在视频中手工标注动做的起始和结束须要花费视频长度的 4 倍时间。为了给出准确的时间标注，标注员不只须要观看整个视频序列，还须要来回重播视频的几个部分以寻找肯定的边界。其次，动做标注的时间边界一般是模棱两可的。虽然目标边界由其物理延展所定义，但因为人类运动的平滑连续性以及动做构成定义的缺少，动做的时间变化边界一般是模糊的。性能

在本文中，做者提出将时间标注任务改为更高效和更低模糊性的形式。即从每一个视频中采样少许的短时剪辑提供给标注员。他们使用了一种主动学习（active learning）算法，以选择一个简单剪辑和几个硬剪辑用于标注。而后标注员须要肯定这些剪辑中是否包含假定的动做。实验代表提供二值的「是/否」回答对于标注员来讲更快更简单。该方法相比传统的观看整个视频并手工标注动做边界的方法节省了超过 95% 的时间。极少的人类干预容许他们构建包含高质量连续标注的大规模数据集。虽然他们的方法仅仅提升了标注剪辑的稀疏集合的质量，做者代表由这样的标注监督的模型在动做分类和动做定位任务中都得到了优越的泛化性能。学习

对于动做分类，能够利用该数据集的大规模特性预训练视频模型。做者代表经过在公认的动做分类基准数据集（UCF10一、HMDB51 和 Kinetics）上微调这些预训练模型，获得的结果显著优于从零开始训练。在 Kinetics、UCF101 和 HMDB51 基准数据集上，他们分别将基于 ResNet 的 3D 卷积网络基线结果提升了 2.0%、20.1% 和 35.4%。做者还证实在 SLAC 上预训练相比在 Sports1M 或 Kinetics 上预训练更加有效。Sports-1M 的标注由一个标签预测算法生成，不可避免会引入显著的噪声。此外，Sports1M 的视频长度平均超过 5 分钟，而标签预测的动做可能仅在整个视频的很小一部分时间中发生。这为学习良好的视频表征以进行动做分类带来了大量的困难。和 Kinetics 相比，SLAC 包含了近 6 倍的剪辑标注（175 万 vs 30 万 5 千），这多是在该基准数据集上训练的深度学习模型拥有优越泛化性能的缘由。测试

最后，做者代表 SLAC 中的稀疏剪辑标注也能够用于预训练动做定位模型，并能够在每一帧给出密集型的预测。在 THUMOS 挑战赛和 ActivityNet-v1.3 数据集上，他们分别将基线模型的 mAP 值提高了 8.6% 和 2.5%。ui

图 1：得到 SLAC 数据的收集过程。spa

表 7：在 SLAC 上预训练的 Res3D-34 模型与在 UCF10一、HMDB51 和 Kinetics 上训练的当前最佳模型的对比。.net

表 8：在不一样数据集上预训练的模型以及当前最佳的模型，在 THUMOS14 测试集上的动做定位性能对比。视频

论文：SLAC: A Sparsely Labeled Dataset for Action Classification and Localization