《论文阅读》Unsupervised Person Re-identification via Softened Similarity Learning

留个笔记自用

Unsupervised Person Re-identification via Softened Similarity Learning

做什么

在这里插入图片描述
Person Re-identification行人重识别,给定一个查询图像(即源图像),行人重识别的目标是在多个不重叠的摄像机之间匹配人(即找到与源图像相同的人)

做了什么

在这里插入图片描述
本文采用的是一种无监督的方法,不需要对训练集内的任何图像进行标记,并且还解决了不同摄像头或者说摄像角度间同一角色的区别问题。
这里需要提前了解的是论文中采用到的《Unsupervised Feature Learning via Non-Parametric Instance Discrimination》这篇论文中的一种Non-Parametric Softmax Classifier的方法
简单来说就是传统的图像分类问题中
在这里插入图片描述
softmax函数往往定义为最后一层权重w和图像特征v的乘积的操作
但这里可以在图像特征v归一化后,用👇代替
在这里插入图片描述
这里的T是用来控制分布的集中度的

怎么做

在这里插入图片描述
整体结构分为三部分,baseline部分、 Softened Similarity部分、similarity estimation部分
在这里插入图片描述
首先是Baseline部分,这部分首先是要对输入进行初始化,因为这里使用的是无监督的方法即所有的训练数据(图片)都没有属于它的标签,所以为了标记,对数据集在这里插入图片描述
每个数据各自的标签为各自的索引index在这里插入图片描述
然后采用一个非参数的分类模型,并使用一个查找表来存储所有训练图像的特征(即索引表)。然后将存储的各图像特征作为各类的权值向量。使用softmax准则来制定分类目标,跟上面所提到的Non-Parametric Softmax Classifier相同
在这里插入图片描述
这里的φ(θ;x)中x是图像,θ是参数,得到的输出即为图像特征v
在这里插入图片描述
这里的V是存储着图像特征的查找表,矩阵维度是N×nφ,Vi指的是第i列,对应着第i类的特征,N是类别的个数也就是图片的个数,然后便是这个部分的LOSS
在这里插入图片描述
这里的t(y)是类别标签上的条件经验分布。作者将GT的分布概率设为1,将所有其他类的分布概率设为0,简单说一下这个模块的作用,就是为了让每个图像计算的特征vi和查找表中不和该图像为一类的其他特征vj的余弦距离最大,而同一类的最小
然后是第二部分Softened Similarity部分
在这里插入图片描述
上一部分中我们将每张图片都视为新的一类,但如果训练集中存在两张图片是同一个人的情况,会被迫设置它为独自的两类,这对网络会产生负面影响。
所以这里对每张训练图片xi,都找另外k个和它特征距离相近的图片,即在这里插入图片描述
而这里计算两张图片距离的计算方法是简单的计算两者特征间的欧氏距离
在这里插入图片描述
这里因为是无监督的方法,不能盲目地认为reliable集合就是和图片x相同类的集合,这里就采用了soft分类的方式
在这里插入图片描述
简单来说就是对标签重新定义,与它相同的当然定义称为λ,而与它不同但属于它的reliable集的定义为(1-λ)/k,取代了原来的相同为1不同为0的情况,于是就可以改编LOSS函数为
在这里插入图片描述
这个函数的目的就变成了最小化特征vi不仅仅和GT的余弦距离,还有和可靠集中的余弦距离,至于其他类的距离照样是最大化
最后是Similarity Estimation部分
在这里插入图片描述
这部分又分为三个小部分
首先是Part similarity exploration即部分相似,为了辅助全局特征间的相似性度量,同时考虑特征细节内容的相似性。具体做法为将上面得到的特征垂直分成p片,然后将这p片特征取平均作为每片的代表,然后计算片之间的距离
在这里插入图片描述
这里的φi就是第i片的特征嵌入函数,这样将计算图片xa和xb间的相似度也附加上了局部特征
然后是核心部分The cross-camera encouragement(CCE),称为跨摄像机鼓励术语,因为对不同摄像机来说可能同一个人所展现出的特征不一样且不可靠,为了使不同摄像机拥有鼓励性,这里提出了CCE
在这里插入图片描述
这里的Cam3和Cam6即使不同的摄像机,对于同样的人显示也会有很大不同即摄像视角的不同,为了解决这个问题,首先把摄像头也做标号。
在这里插入图片描述
然后就能定义CCE了
在这里插入图片描述
对于两张图片xa和xb,若两者的摄像头相同则CCE为λ,不同则为0
之后就能定义总的LOSS部分
在这里插入图片描述
这里的λp是为了控制全局相似度和局部相似度之间的权重比,通过添加CCE项,来自不同相机的图像往往被选为可靠的图像,这使得网络能够从不同的图像中学习

总结

1。这种无监督和soft label的方法值得一学,结合之前看到过的一篇半监督,或许两者在soft label上可以有所结合 2。similarity间的计算其实是一张N维的特征图,相比于分片的方法来获取局部信息,图卷积或许更加强大,只需要考虑它的成功编码