1611.A Discriminatively Learned CNN Embedding for Person Re-identification论文阅读笔记

reid相关的问题:
car recognition/fine-grained classification/objective retrieval/image retrieval/instance retrieval/Pedestrian retrieval

基于identification loss的reid方法和基于verification loss的reid方法框架图:

这里写图片描述
作者分析了基于identification loss的reid方法和基于verification loss的reid方法的优缺点:
这里写图片描述
前者是多分类建模,后者是二分类建模或者当做相似度回归任务建模;
前者使用强标签信息监督学习,但多分类的有效训练需要学习大的矩阵参数而需要大规模且多视角的多样性数据集,而目前数据难以满足(最近出的cuhk-SYSU和PRW数据集可能更适宜使用识别模型建模更好些,因为数据规模较大且具有更好的多样性),后者使用弱标签信息监督学习而不能有效利用标注信息,且后者训练时监督信息有限,缺乏图相对和其他图像关系的考虑;
前者训练用的是分类loss,缺点是输入是独立的,没考虑图像对的相似度等细粒度差异,但是有一个清楚的关系在通过交叉熵loss学习一个特征嵌入后,测试的时候需要移除最后一层分类层,用学习的特征嵌入做相似度计算,在做匹配,一个好处是,测试时gallery可以一次性提取所有行人块的特征,计算效率较高!
后者训练本质上也是分类loss,但是其本质也是一个相似度度量或者特征选择的过程,建立对视角等变化的鲁棒性计算模式,采用对比loss,在数据集不够大规模时,针对特定固定视角的数据域下训练的模型往往也能取得很好的性能,缺点是不易训练,因为输入的是图像对,往往正对较少,造成正负样本对极不平衡,容易训练模型偏向于负样本的学习,不过可以通过一些正则化策略或者数据增强或者分部按比例训练等策略来训练模型!

相较于之前的工作,作者提出了一个模型,可以同时学习特征的嵌入(identification loss)和相似度度量(verification loss),get a smaller standard deviation between cameras,可同时预测ID和进行相似度得分计算。需要优化的loss是三个目标loss即两个识别loss和一个验证loss,而在真正训练模型时,作者把identification loss和verification loss都转化为一个交叉熵loss来监督模型参数的更新,对于verification loss->交叉熵cross-entropy loss而言(把行人验证作为二值分类问题),前者是一种回归loss,迫使同类尽可能的近,容易过拟合(因为正样本对有限且正负样本对极不均衡),也不可以加入正则化手段(如引入dropout会引入零值则不可以在duibiloss前加卷积层进行特征嵌入学习),而后者可以使模型引入dropout正则化手段,减少过拟合的发生。
作者设计模型的一般架构:
这里写图片描述
模型需要联合优化的是三个交叉熵loss,下面为分别独立优化各loss和联合优化的结果:
这里写图片描述
作者实验用了CaffeNet/VGG-16/ResNet-50等CNN提取特征的架构,在Market1501/CUHK03/Oxford5k做了实验,采用detector得到的测试集测试模型,更接近实际场景应用
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
改进方向:当测试集含有大量的错检并作为gallery时,使重检索的性能下降,怎样设计更好的特征提升大规模测试集下reid的性能是值得研究的。 尤其是当训练集较小时即便好的model也是相对难以覆盖所有不同行人ID行人表观的方差变化 尤其是在新的视角和场景下 尤其是在测试集存在大量false positive或错对齐/平移等行人无ID行人框时