Unsupervised Feature Learning via Non-parametric Instance Discrimination

这篇文章是cvpr2018的spotlight。是伯克利、香港中文大学、亚马逊联合发表的论文。
论文:Unsupervised Feature Learning via Non-parametric Instance Discrimination.
摘要和介绍中指出,通过对有监督的图像分类结果的观察,发现图像分类的依据不是图像的语义注释,而是数据本身的视觉相似性,换句话说,视觉相似性不是从语义注释中学到的,而是从视觉数据本身学到的。这篇论文研究的是这种情况是否可以扩展到无监督学习,因此文章将类级别的判别信息应用到极致,学习出能够区分单个实例的特征,并提出一个问题:是否能够通过纯粹的判别学习来得到能够反应实例间视觉相似性的度量?如果我们在没有语义注释的情况下学习区分单独实例,那么我们最终可能会得到一个可以捕获实例间的表面相似性的特征表示。

作者据此提出了一种极端化的无监督学习方法,主要特点是非参数化训练、实例级判别(一个实例视为一个类)。但是这样的话,类别的大小就是训练数据集的大小,简单将 softmax 扩展到更多的类是不可行的。作者通过使用噪声对比估计(NCE) 逼近的非参数softmax 分布来解决这个问题,并采用近端正则化方法以稳定训练过程。

此外,作者提倡在训练和测试时都采用非参数化方法,将实例级别的分类看作度量学习问题,其中实例之间的距离(相似度)是以非参数方式直接从特征中计算得到的。也就是说,每个实例的特征都存储在离散的内存块中,而不是网络中的权重。在测试时,根据余弦相似度与Memory Bank进行对比,使用K近邻对学习到的度量进行分类。

接下来是方法。首先网络的目标是学习一个无监督内嵌函数,将图像映射到特征。好的映射函数可以将外观上相似的图像映射到度量空间相近的位置。对于传统的参数softmax,其中的权重向量阻碍了实例之间的显式比较,因此本文题出了非参数方法,那么概率的计算就是公式2在这里插入图片描述因此模型的学习目标就是最大化联合概率,也就是公式3负对数似然值的最小化。
在这里插入图片描述但是为了计算公式2中的概率,需要用到所有图像的特征,本文提出了memory bank来存储每个图像的特征。此外,计算公式2中的非参数softmax时,如果类别数量过大,那么计算复杂度非常高,本文提出了噪声对比估计来估计全部的非参数softmax,最终得到的学习目标是最小化公式7。
在这里插入图片描述与传统的分类不同,这个每一个类别下只有一个实例。因此每一个训练 epoch 每一类都只访问一次。因此,学习过程由于随机采样波动会产生大幅震荡。所以本文在目标函数中添加了一个正则项。因此最小化公式10就是最终的目标函数。
在这里插入图片描述
实验结果显示,在无监督学习设置下,该方法在现有的 ImageNet 分类问题上的表现相比于其他方法得到了大幅提升。在训练数据更多,网络架构更好的情况下,该方法也可以不断地显著提高表现性能。通过微调学习到的特征,算法进一步在半监督学习和目标识别任务上取得了更好的结果。并且模型非常紧凑:每张图片 128 维特征,对于 100 万张图像,此方法只需要 600M 存储空间。这篇论文主要论述如何通过非参数的实例判别进行无监督的特征学习。
在这里插入图片描述 本文使用CNN backbone,原始图片输入网络后输出一个经过L2标准化的128维向量,通过非参数Softmax Classifier计算每个单一样本被识别正确的概率,同时使用Memory Bank存储特征向量,通过NCE来近似估计softmax的数值,降低计算复杂度,最后使用近端正则化稳定训练过程的波动性。主要的思想是将每个单一实例都看作不同的“类”,将区分每一个实例作为pretext。