目标检测之Fast-RCNN

时间 2020-12-30 标签深度学习自动驾驶神经网络机器学习 pytorch

简要流程：

输入一张待检测图像（输入是 224×224 的固定大小图片）
提取候选区域：利用Selective Search算法在输入图像中提取出候选区域，并把这些候选区域按照空间位置关系映射到最后的卷积特征层；
经过5个卷积层+2个降采样层（分别跟在第一和第二个卷积层后面）
进入ROIPooling层（其输入是conv5层的输出和region proposal，region proposal个数大约为2000个），得到固定维度的特征；
再经过两个output都为4096维的全连接层
分别经过output各为21和84（21*4（矩形有四个点））维的全连接层（并列的，前者是分类输出，后者是回归输出）
最后接上两个损失层（分类是softmax，回归是smoothL1）

1.RoI池化层

ROI Pooling的作用是对不同大小的region proposal，从最后卷积层输出的feature map提取大小固定的feature map 。 RoI池化层直接用MxN的网格，将每个候选区域均匀分成M×N块，对每个块进行max pooling。从而将特征图上大小不一的候选区域转变为大小统一的特征向量，送入下一层。

2.特征提取方式

Fast R-CNN在特征提取上可以说很大程度借鉴了SPPnet，首先将图片用 选择搜索算法（selective search）得到2000个候选区域（region proposals）的坐标信息。另一方面，直接将图片归一化到CNN需要的格式，整张图片送入CNN（本文选择的网络是VGG）， 将第五层的普通池化层替换为RoI池化层，图片然后经过5层卷积操作后，得到一张特征图（feature maps），开始得到的坐标信息通过 一定的映射关系转换为对应特征图的坐标，截取对应的候选区域，经过RoI层后提取到固定长度的特征向量，送入全连接层。

3.联合候选框回归与目标分类的全连接层的训练整体架构总结

Fast R-CNN则是将候选框目标分类与bbox regression并列放入全连接层，形成一个multi-task模型。

cls_ score层用于分类，输出K+1维数组p，表示属于K类和背景的概率。

bbox_predict层用于调整候选区域位置，输出4*K维数组t，表示分别属于K类时，应该平移缩放的参数。

代价函数

多任务损失函数(Multi-task Loss)：Fast R-CNN统一了类别输出任务和候选框回归任务，有两个损失函数：分类损失和回归损失。分类采用softmax代替SVM进行分类，共输出N(类别)+1(背景)类。softmax由于引入了类间竞争，所以分类效果优于SVM，SVM在R-CNN中用于二分类。回归损失输出的是4*N(类别)，4表示的是(x,y,w,h分别表示候选框的中心坐标和宽、高)。

SVD对全连接层进行分解：由于一张图像约产生2000个RoI，将近一半多的时间用在全连接层计算，为了提高运算速度，可以用SVD(奇异值分解)对全连接层进行变换来提高运算速度。一个大的矩阵可以近似分解为三个小矩阵的乘积，分解后的矩阵的元素数目远小于原始矩阵的元素数目，从而达到减少计算量的目的。通过对全连接层的权值矩阵进行SVD分解，使得处理一张图像的速度明显提升。

多任务学习的有效性

隐世数据增加机制 ：由于所有任务都或多或少存在一些噪音，例如，当我们训练任务A上的模型时，我们的目标在于得到任务A的一个好的表示，而忽略了数据相关的噪音以及泛化性能。由于不同的任务有不同的噪音模式，同时学习到两个任务可以得到一个更为泛化的表示。如果只学习任务A要承担对任务A过拟合的风险，然而同时学习任务A与任务B对噪音模式进行平均，可以使得模型获得更好表示F；
注意力集中机制 ：若任务噪音严重，数据量小，数据维度高，则对于模型来说区分相关与不相关特征变得困难。多任务有助于将模型注意力集中在确实有影响的那些特征上，是因为其他任务可以为特征的相关与不相关性提供额外的证据；
窃听机制 ：对于任务B来说很容易学习到某些特征G，而这些特征对于任务A来说很难学到。这可能是因为任务A与特征G的交互方式更复杂，或者因为其他特征阻碍了特征G的学习。通过多任务学习，我们可以允许模型窃听（eavesdrop），即使用任务B来学习特征G；
表示偏置机制 ：多任务学习更倾向于学习到一类模型，这类模型更强调与其他任务也强调的那部分表示。由于一个对足够多的训练任务都表现很好的假设空间，对来自于同一环境的新任务也会表现很好，所以这样有助于模型展示出对新任务的泛化能力；
正则化机制 ：多任务学习通过引入归纳偏置起到与正则化相同的作用。正是如此，它减小了模型过拟合的风险，同时降低了模型的Rademacher复杂度，即拟合随机噪音的能力。

改进

卷积不再是重复对每一个region proposal，而是对于整张图像先提取了泛化特征，这样子减少了大量的计算量（注意到，R-CNN中对于每一个region proposal做卷积会有很多重复计算）
ROIPooling的提出，巧妙的解决了尺度放缩的问题
将regressor放进网络一起训练，同时用softmax代替SVM分类器，更加简单高效

不足

region proposal的提取仍然采用selective search，整个检测流程时间大多消耗在这上面（生成region proposal大约2~3s，而特征提取+分类只需要0.32s），之后的Faster RCNN的改进之一便是此点。

感谢： https://www.jianshu.com/p/fbbb21e1e390

http://www.noobyard.com/article/p-vjlgcjdk-ou.html

http://www.noobyard.com/article/p-taxzvdvg-ms.html

https://www.pianshen.com/article/2477158462/