目标检测：RCNN，Fast-RCNN，FasterRCNN，SSD，YOLO

时间 2021-01-21

计算机视觉四大基本任务：分类、定位、检测、分割

传统图像匹配：

1 特征提取——关键点（特征点、角点）①关键点位置②尺度③方向

2 特征描述

3 特征匹配

目标检测任务：分类和定位

核心问题：图像分类问题、目标可能出现在图像任何位置，有不同大小不同形状

Two-stage基于候选区域：

2014 RCNN SPP-Net

2015 Fast RCNN

2016Faster RCNN

One-stage基于端到端回归：

2016 YOLO(Goole-Net) SSD(VGG-Net)

0 CNN做目标检测的流程：

解决目标检测任务的简单方法（利用深度学习）

下图是描述目标检测算法如何工作的典型例子，图中的每个物体（不论是任务还是风筝），都能以一定的精确度被定位出来。

首先我们要说的就是在图像目标检测中用途最广、最简单的深度学习方法——卷积神经网络（CNN）。我要讲的是CNN的内部工作原理，首先让我们看看下面这张图片。向网络中输入一张图片，接着将它传递到多个卷积和池化层中。最后输出目标所属的类别，听上去非常直接。

对每张输入的图片，我们都有对应的输出类别，那么这一技术能检测图片中多种目标吗？答案是肯定的！下面就让我们看看如何用一个卷积神经网络解决通用的目标检测问题。

首先，我们把下面的图片用作输入：

之后，我们将图片分成多个区域：

3.将每个区域看作单独的图片。

4.把这些区域照片传递给CNN，将它们分到不同类别中。

5.当我们把每个区域都分到对应的类别后，再把它们结合在一起，完成对原始图像的目标检测：

使用这一方法的问题在于，图片中的物体可能有不同的长宽比和空间位置。例如，在有些情况下，目标物体可能占据了图片的大部分，或者非常小。目标物体的形状也可能不同。

有了这些考虑因素，我们就需要分割很多个区域，需要大量计算力。所以为了解决这一问题，减少区域的分割，我们可以使用基于区域的CNN，它可以进行区域选择。

1 传统方法：区域选择（滑窗）、特征提取（SIFT、HOG等）、分类器（SVM、Adaboost等）三个部分。

缺点：一方面滑窗选择策略没有针对性、时间复杂度高，窗口冗余；另一方面手工设计的特征鲁棒性较差

1 RCNN——基于2012AlexNet

任务：分类+定位

步骤①生成候选区域(region proposals)——选择性搜索,生成2000多个候选框即感兴趣区域（ROI）

②特征提取——用AlexNetCNN对每个候选框区域提取特征向量

③目标分类——用SVM对每个候选框区域目标分类

④位置精修——用回归器精修候选框位置

R-CNN模型缺点：

训练阶段多：步骤繁琐: 微调网络+训练SVM+训练边框回归器;

② 训练耗时：占用磁盘空间大：5000张图像产生几百G的特征文件（VOC数据集的检测结果，因为SVM的存在）;

③ 处理速度慢: 使用GPU, VGG16模型处理一张图像需要47s;

④ 图片形状变化：候选区域要经过crop/warp进行固定大小，无法保证图片不变形。

第一步：选择性搜索

候选区域——能够生成候选区域的方法很多，比如：

objectness

selective search

category-independen object proposals

constrained parametric min-cuts(CPMC)

multi-scale combinatorial grouping

Ciresan

R-CNN 采用的是 Selective Search 算法。

选择性搜索Selective Search 主要思想: 我们首先将每个像素作为一组。然后，计算每一组的纹理，并将两个最接近的组结合起来。但是为了避免单个区域吞噬其他区域，我们首先对较小的组进行分组。我们继续合并区域，直到所有区域都结合在一起。

使用一种过分割手段，将图像分割成小区域 (1k~2k 个)

②查看现有小区域，按照合并规则合并可能性最高的相邻两个区域。重复直到整张图像合并成一个区域位置

输出所有曾经存在过的区域，所谓候选区域

合并规则(颜色、梯度、面积和位置)：

颜色（颜色直方图）相近的
纹理（梯度直方图）相近的

③合并后总面积小的：保证合并操作的尺度较为均匀，避免一个大区域陆续“吃掉”其他小区域（例：设有区域a-b-c-d-e-f-g-h。较好的合并方式是：ab-cd-ef-gh -> abcd-efgh -> abcdefgh。不好的合并方法是：ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh）

合并后，总面积在其BBOX中所占比例大的：保证合并后形状规则。

重叠度（IOU）:IOU=A∩B/A∪B，定位物体的边界框(bounding box)，就是矩形框A、B的重叠面积占A、B并集的面积比例，

候选框搜索阶段：

当我们输入一张图片时，我们要搜索出所有可能是物体的区域，这里采用的就是前面提到的Selective Search方法，通过这个算法我们搜索出2000个候选框。然后从上面的总流程图中可以看到，搜出的候选框是矩形的，而且是大小各不相同。然而CNN对输入图片的大小是有固定的，如果把搜索到的矩形选框不做处理，就扔进CNN中，肯定不行。因此对于每个输入的候选框都需要缩放到固定的大小。下面我们讲解要怎么进行缩放处理，为了简单起见我们假设下一阶段CNN所需要的输入图片大小是个正方形图片227*227。因为我们经过selective search 得到的是矩形框，paper试验了两种不同的处理方法：

(1)各向异性缩放

这种方法很简单，就是不管图片的长宽比例，管它是否扭曲，进行缩放就是了，全部缩放到CNN输入的大小227*227，如下图(D)所示；

(2)各向同性缩放

因为图片扭曲后，估计会对后续CNN的训练精度有影响，于是作者也测试了“各向同性缩放”方案。有两种办法

A、先扩充后裁剪：直接在原始图片中，把bounding box的边界进行扩展延伸成正方形，然后再进行裁剪；如果已经延伸到了原始图片的外边界，那么就用bounding box中的颜色均值填充；如上图(B)所示;

B、先裁剪后扩充：先把bounding box图片裁剪出来，然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如上图(C)所示;

对于上面的异性、同性缩放，文献还有个padding处理，上面的示意图中第1、3行就是结合了padding=0,第2、4行结果图采用padding=16的结果。经过最后的试验，作者发现采用各向异性缩放、padding=16的精度最高。

（备注：候选框的搜索策略作者也考虑过使用一个滑动窗口的方法，然而由于更深的网络，更大的输入图片和滑动步长，使得使用滑动窗口来定位的方法充满了挑战。）

第二步：特征提取

R-CNN 抽取了一个 4096 维的特征向量，采用的是 Alexnet，基于 Caffe 进行代码开发。要注意的是 Alextnet 的输入图像大小是 227x227。而通过 Selective Search 产生的候选区域大小不一，为了与 Alexnet 兼容，R-CNN 采用了非常暴力的手段，那就是无视候选区域的大小和形状，统一变换到 227*227 的尺寸。有一个细节，在对 Region 进行变换的时候，首先对这些区域进行膨胀处理，在其 box 周围附加了 p 个像素，也就是人为添加了边框，在这里 p=16。

第三步：目标分类

第三步之后，分别对2000×20维矩阵中进行非极大值抑制（NMS:non-maximum suppression）剔除重叠建议框，得到与目标物体最高的一些建议框

非极大值抑制（NMS）：

RCNN会从一张图片中找出n个可能是物体的矩形框，然后为每个矩形框为做类别分类概率：

就像上面的图片一样，定位一个车辆，最后算法就找出了一堆的方框，我们需要判别哪些矩形框是没用的。非极大值抑制的方法是：先假设有6个矩形框，根据分类器的类别分类概率做排序，假设从小到大属于车辆的概率分别为A、B、C、D、E、F。

(1)从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;

(2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的。

(3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。

就这样一直重复，找到所有被保留下来的矩形框。

极大值抑制（NMS）顾名思义就是抑制不是极大值的元素，搜索局部的极大值。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。这里不讨论通用的NMS算法，而是用于在目标检测中用于提取分数最高的窗口的。例如在行人检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高（是行人的概率最大），并且抑制那些分数低的窗口。

第四步：边界框回归器

候选区域方法有非常高的计算复杂度。为了加速这个过程，我们通常会使用计算量较少的候选区域选择方法构建 ROI，并在后面使用线性回归器（使用全连接层）进一步提炼边界框。

训练

前面已经提到过 R-CNN 采取迁移学习。提取在 ILSVRC 2012 的模型和权重，然后在 VOC 上进行 fine-tune。需要注意的是，这里在 ImageNet 上训练的是模型识别物体类型的能力，而不是预测 bbox 位置的能力。ImageNet 的训练当中需要预测 1000 个类别，而 R-CNN 在 VOC 上进行迁移学习时，神经网络只需要识别 21 个类别。这是 VOC 规定的 20 个类别加上背景这个类别。R-CNN 将候选区域与 GroundTrue 中的 box 标签相比较，如果 IoU > 0.5，说明两个对象重叠的位置比较多，于是就可以认为这个候选区域是 Positive,否则就是 Negetive.训练策略是：采用 SGD 训练，初始学习率为 0.001，mini-batch 大小为 128.

2 SPP Net

SPP：Spatial Pyramid Pooling（空间金字塔池化）

SPPNet把全图塞给CNN得到全图的feature map
让SS得到候选区域直接映射特征向量中对应位置
映射过来的特征向量，经过SPP层(空间金字塔变换层)，S输出固定大小的特征向量给FC层

它的特点有两个:

1.结合空间金字塔方法实现CNNs的对尺度输入。

一般CNN后接全连接层或者分类器，他们都需要固定的输入尺寸，因此不得不对输入数据进行crop或者warp，这些预处理会造成数据的丢失或几何的失真。SPP Net的第一个贡献就是将金字塔思想加入到CNN，实现了数据的多尺度输入。

如下图所示，在卷积层和全连接层之间加入了SPP layer。此时网络的输入可以是任意尺度的，在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出尺度始终是固定的。如下图所示，假设原图输入是224x224，对于conv5出来后的输出是13x13x256的，可以理解成有256个这样的Filter，每个Filter对应一张13x13的Reponse Map。如果像上图那样将Reponse Map分成1x1（金字塔底座），2x2（金字塔中间），4x4（金字塔顶座）三张子图，分别做Max Pooling后，出来的特征就是（16+4+1）x256 维度。如果原图的输入不是224x224，出来的特征依然是（16+4+1）x256维度。这样就实现了不管图像尺寸如何池化n的输出永远是（16+4+1）x256 维度。

2.只对原图提取一次卷积特征

在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。所以SPP Net根据这个缺点做了优化：只对原图进行一次卷积得到整张图的feature map，然后找到每个候选框zaifeature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。节省了大量的计算时间，比R-CNN有一百倍左右的提速。

原始图像的ROI如何映射

SPP-NET是把原始ROI的左上角和右下角映射到Feature Map上的两个对应点。有了Feature Map上的两队角点就确定了对应的Feature Map 区域（下图中橙色）。

优点

SPPNet在R-CNN的基础上提出了改进，通过候选区域和feature map的映射，配合SPP层的使用，从而达到了CNN层的共享计算，减少了运算时间，后面的Fast R-CNN等也是受SPPNet的启发

缺点

训练依然过慢、效率低，特征需要写入磁盘(因为SVM的存在)

分阶段训练网络：选取候选区域、训练CNN、训练SVM、训练bbox回归器, SPPNet反向传播效率低

3 Fast-RCNN

解决RCNN计算时间问题，在每张图片上只使用一次CNN即可得到全部的重点关注区域，而不是运行2000次。

输入图片——在图像中确定约1000-2000个候选框 (使用选择性搜索)。
特征提取——CNN对整张图像提取特征，生成特征图。
生成感兴趣区域——将候选区域方法直接用在特征图上。找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。VGG16 中的卷积层 conv5 来生成 ROI，这些关注区域随后会结合对应的特征图以裁剪为特征图块，并用于目标检测任务中。
利用Rol池化层对这些区域重新调整为固定大小，将其输入到完全连接网络中进行分类和定位。
在网络的顶层用softmax层输出类别。同样使用一个线性回归层，输出相对应的边界框。

所以，和RCNN所需要的三个模型不同，Fast RCNN只用了一个模型就同时实现了区域的特征提取、分类、边界框生成。

首先，输入图像：

输入到卷积网络中，它生成感兴趣区域。

之后，在区域上应用Rol池化层，保证每个区域的尺寸相同

ROI 池化

因为 Fast R-CNN 使用全连接层，所以我们应用 ROI 池化将不同大小的 ROI 转换为固定大小。

为简洁起见，我们先将 8×8 特征图转换为预定义的 2×2 大小。

下图左上角：特征图。

右上角：将 ROI（蓝色区域）与特征图重叠。

左下角：将 ROI 拆分为目标维度。例如，对于 2×2 目标，我们将 ROI 分割为 4 个大小相似或相等的部分。

右下角：找到每个部分的最大值，得到变换后的特征图。

输入特征图（左上），输出特征图（右下），ROI (右上，蓝色框)。

按上述步骤得到一个 2×2 的特征图块，可以馈送至分类器和边界框回归器中。

④最后，这些区域被传递到一个完全连接的网络中进行分类，并用softmax和线性回归层同时返回边界框：

Fast R-CNN 最重要的一点就是包含特征提取器、分类器和边界框回归器在内的整个网络能通过多任务损失函数进行端到端的训练，这种多任务损失即结合了分类损失和定位损失的方法，大大提升了模型准确度。

Fast RCNN的问题

但是即使这样，Fast RCNN也有某些局限性。它同样用的是选择性搜索作为寻找感兴趣区域的，这一过程通常较慢。与RCNN不同的是，Fast RCNN处理一张图片大约需要2秒。但是在大型真实数据集上，这种速度仍然不够理想

4 Faster-RCNN

优化FasterRCNN感兴趣区域(ROI)生成方法，Fast RCNN使用的是选择性搜索，而Faster RCNN用的是Region Proposal网络（RPN）。RPN将图像特征映射作为输入，生成一系列object proposals，每个都带有相应的分数。Fast R-CNN 需要 2.3 秒来进行预测，其中 2 秒用于生成 2000 个 ROI。新的候选区域网络（RPN）在生成 ROI 时效率更高，并且以每幅图像 10 毫秒的速度运行。

下面是Faster RCNN工作的大致过程：

输入图像到卷积网络中，生成该图像的特征映射。
在特征映射上应用Region Proposal Network，返回object proposals和相应分数。
应用Rol池化层，将所有proposals修正到同样尺寸。
最后，将proposals传递到完全连接层，生成目标物体的边界框。

候选区域网络

Region Proposal Network（RPN）的核心思想是使用卷积神经网络直接产生Region Proposal，使用的方法本质上就是滑动窗口。RPN的设计比较巧妙，RPN只需在最后的卷积层上滑动一遍，借助Anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。下图是RPN的网络结构图

候选区域网络（RPN）将第一个卷积网络的输出特征图作为输入。它在特征图上滑动一个 3×3 的卷积核，以使用卷积网络（如下所示的 ZF 网络）构建与类别无关的候选区域。其他深度网络（如 VGG 或 ResNet）可用于更全面的特征提取，但这需要以速度为代价。ZF 网络最后会输出 256 个值，它们将馈送到两个独立的全连接层，以预测边界框和两个 objectness 分数，这两个 objectness 分数度量了边界框是否包含目标。我们其实可以使用回归器计算单个 objectness 分数，但为简洁起见，Faster R-CNN 使用只有两个类别的分类器：即带有目标的类别和不带有目标的类别。

对于特征图中的每一个位置，RPN 会做 k 次预测。因此，RPN 将输出 4×k 个坐标和每个位置上 2×k 个得分。下图展示了 8×8 的特征图，且有一个 3×3 的卷积核执行运算，它最后输出 8×8×3 个 ROI（其中 k=3）。下图（右）展示了单个位置的 3 个候选区域。

此处有 3 种猜想，稍后我们将予以完善。由于只需要一个正确猜想，因此我们最初的猜想最好涵盖不同的形状和大小。因此，Faster R-CNN 不会创建随机边界框。相反，它会预测一些与左上角名为「锚点」的参考框相关的偏移量（如𝛿x、𝛿y）。我们限制这些偏移量的值，因此我们的猜想仍然类似于锚点。

这些锚点是精心挑选的，因此它们是多样的，且覆盖具有不同比例和宽高比的现实目标。这使得我们可以以更好的猜想来指导初始训练，并允许每个预测专门用于特定的形状。该策略使早期训练更加稳定和简便。

Faster R-CNN 使用更多的锚点。它部署 9 个锚点框：3 个不同宽高比的 3 个不同大小的锚点框。每一个位置使用 9 个锚点，每个位置会生成 2×9 个 objectness 分数和 4×9 个坐标。

Anchor boxes是固定尺寸的边界框，它们有不同的形状和大小。对每个anchor，RPN都会预测两点：

首先是anchor就是目标物体的概率（不考虑类别）

第二个就是anchor经过调整能更合适目标物体的边界框回归量

现在我们有了不同形状、尺寸的边界框，将它们传递到Rol池化层中。经过RPN的处理，proposals可能没有所述的类别。我们可以对每个proposal进行切割，让它们都含有目标物体。这就是Rol池化层的作用。它为每个anchor提取固定尺寸的特征映射，之后，这些特征映射会传递到完全连接层，对目标进行分类并预测边界框。

网络的训练

如果是分别训练两种不同任务的网络模型，即使它们的结构、参数完全一致，但各自的卷积层内的卷积核也会向着不同的方向改变，导致无法共享网络权重，Faster-RCNN提出了三种可能的方式：

1 Alternating Training：此方法其实就是一个不断迭代的训练过程，既然分别训练RPN和Fast-RCNN可能让网络朝不同的方向收敛，那么我们可以先独立训练RPN，然后用这个RPN的网络权重对Fast-RCNN网络进行初始化，并且用之前RPN输出Proposal作为此时Fast-RCNN的输入，之后不断迭代这个过程，即循环训练RPN、Fast-RCNN。

2 Approximate Joint Training：这里与前一种方法不同，不再是串行训练RPN和Fast-RCNN，而是尝试把二者融入到一个网络内，具体融合的网络结构如下图所示，可以看到，Proposals是由中间的RPN层输出的，而不是从网络外部得到。需要注意的一点，名字中的"Approximate"是因为“This solution ignores the derivative w.r.t. the proposal boxes' coordinates that are also network responses”，也就是说，反向传播阶段RPN产生的Cls Score能够获得梯度用以更新参数，但是Proposal的坐标预测则直接把梯度舍弃了，这个设置可以使Backward时该网络层能得到一个解析解（Closed Results），并且相对于Alternating Traing减少了25-50%的训练时间。

3 Non-approximate Training：上面的Approximate Joint Training把Proposal的坐标预测梯度直接舍弃，所以被称作Approximate，那么理论上如果不舍弃是不是能更好的提升RPN部分网络的性能呢？作者把这种训练方式称为“ Non-approximate Joint Training”，但是此方法只是一笔带过，表示“This is a nontrivial problem and a solution can be given by an “RoI warping” layer as developed in [15], which is beyond the scope of this paper”。

作者没有用上面提到的三种可能方法，而是使用了4-Step Alternating Training，具体步骤如下。

1 用ImageNet模型初始化，独立训练一个RPN网络；

2 仍然用ImageNet模型初始化，但是使用上一步RPN网络产生的Proposal作为输入，训练一个Fast-RCNN网络，至此，两个网络每一层的参数完全不共享；

3 使用第二步的Fast-RCNN网络参数初始化一个新的RPN网络，但是把RPN、Fast-RCNN共享的那些卷积层的Learning Rate设置为0，也就是不更新，仅仅更新RPN特有的那些网络层，重新训练，此时，两个网络已经共享了所有公共的卷积层；

4 仍然固定共享的那些网络层，把Fast-RCNN特有的网络层也加入进来，形成一个Unified Network，继续训练，Fine Tune Fast-RCNN特有的网络层，此时，该网络已经实现我们设想的目标，即网络内部预测Proposal并实现检测的功能。

上述步骤图示如下。

Faster RCNN的问题

目前为止，我们所讨论的所有目标检测算法都用区域来辨别目标物体。网络并非一次性浏览所有图像，而是关注图像的多个部分。这就会出现两个问题：

算法需要让图像经过多个步骤才能提取出所有目标

由于有多个步骤嵌套，系统的表现常常取决于前面步骤的表现水

5 SSD-Single Shot MultiBox Detector

设计思想：

ssd 在特征图上采用卷积核来预测一系列的 default bounding boxes 的类别分数、偏移量，同时实现end-to-end 的训练。

SSD具有如下主要特点：

从YOLO中继承了将detection转化为regression的思路，一次完成目标定位与分类

基于Faster RCNN中的Anchor，提出了相似的Prior box；

加入基于特征金字塔（Pyramidal Feature Hierarchy）的检测方式，即在不同感受野的feature map上预测目标

2种主流框架：

Two stages：以Faster RCNN为代表，即RPN网络先生成proposals目标定位，再对proposals进行classification+bounding box regression完成目标分类。

Single shot：以YOLO/SSD为代表，一次性完成classification+bounding box regression。

Single shot方式的SSD/YOLO区别：

YOLO在卷积层后接全连接层，即检测时只利用了最高层Feature maps（包括Faster RCNN也是如此）

SSD采用金字塔结构，即利用了conv4-3/conv-7/conv6-2/conv7-2/conv8_2/conv9_2这些大小不同的feature maps，在多个feature maps上同时进行softmax分类和位置回归

SSD还加入了Prior box

6 YOLO

yolo ：之前处理目标检测的算法都归为了分类问题，然而作者将物体检测任务当做一个regression问题来处理，使用一个神经网络，直接从一整张图像来预测出bounding box 的坐标、box中包含物体的置信度和物体的probabilities。整个检测流程都在一个网络中，实现了end-to-end来优化目标检测。

大致流程

1 给个一个输入图像，首先将图像划分成7*7的网格。

2 对于每个网格，我们都预测2个边框（包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率）。

3 根据上一步可以预测出7*7*2个目标窗口，然后根据阈值去除可能性比较低的目标窗口，最后NMS去除冗余窗口即可。

优点

1 将物体检测作为回归问题求解。基于一个单独的End-To-End网络，完成从原始图像的输入到物体位置和类别的输出，输入图像经过一次Inference，便能得到图像中所有物体的位置和其所属类别及相应的置信概率。

2 YOLO网络借鉴了GoogLeNet分类网络结构。不同的是，YOLO未使用Inception Module，而是使用1*1卷积层（此处1*1卷积层的存在是为了跨通道信息整合）+3*3卷积层简单替代。

3 Fast YOLO使用9个卷积层代替YOLO的24个，网络更轻快，速度从YOLO的45fps提升到155fps，但同时损失了检测准确率。

4 使用全图作为 Context 信息，背景错误（把背景错认为物体）比较少。

5 泛化能力强。在自然图像上训练好的结果在艺术作品中的依然具有很好的效果。

参考文章：

https://www.zhihu.com/tardis/sogou/art/23006190

http://www.noobyard.com/article/p-zwjkespo-hh.html

https://m.sohu.com/n/536013557/

http://blog.sina.cn/dpool/blog/s/blog_4929fe410102y5xm.html

https://blog.csdn.net/qq_40475568/article/details/100588224