YOLO系列之yolo v1

时间 2020-08-08 标签 yolo 系列 yolo v1 v 1

yolo v1发表在CVPR2016上，是经典的one-stage检测算法。在没接触yolo以前，我曾经就和师兄争论过，是否能把bounding box的坐标和宽高像分类网络那样预测出来，Yolo v1的出现证实了个人猜想是对的。web

论文标题: 《You Only Look Once: Unified, Real-Time Object Detection》
论文地址：https://arxiv.org/pdf/1506.02640.pdf算法

v1是yolo系列的开山之做，以简洁的网络结构，简单的复现过程(做者给出详细教程)而受到CVer们的追捧。
yolo_v1奠基了yolo系列算法“分而治之”的基调，在yolo_v1上，输入图片被划分为7X7的网格，以下图所示:

如上图所示，输入图片被划分为7x7个单元格，每一个单元格独立做检测。
在这里很容易被误导：每一个网格单元的视野有限并且极可能只有局部特征，这样就很难理解yolo为什么能检测比grid_cell大不少的物体。其实，yolo的作法并非把每一个单独的网格做为输入feed到模型，在inference的过程当中，网格只是物体中心点位置的划分之用，并非对图片进行切片，不会让网格脱离总体的关系。
能够经过yolo_v1的structure来进一步理解，相比faster r-cnn那种two-stage复杂的网络结构而言，yolo_v1的网络结构显得亲民得多。基本思想是这样：预测框的位置、大小和物体分类都经过CNN暴力predict出来。

上面是结构图yolo_v1结构图，经过结构图能够轻易知道前向传播的计算过程，是很便于读者理解的。v1的输出是一个7x7x30的张量，7x7表示把输入图片划分位7x7的网格，每个小单元的另外一个维度等于30。30=(2*5+20)。表明能预测2个框的5个参数(x,y,w,h,score)和20个种类。网络

$S$ x $S$ x $(B5+C)$ = 7x7x(25 + 20)
SxS表示网格数量，B表示每一个网格生成框的个数，C表示能检测识别的种类。

能够看出输出张量的深度影响yolo_v1能检测目标的种类。v1的输出深度只有30，意味着每一个单元格只能预测两个框(并且只认识20类物体)，这对于密集型目标检测和小物体检测都不能很好适用。 ide

训练

正如前面所说的，yolo是端到端训练，对于预测框的位置、size、种类、置信度(score)等信息的预测都经过一个损失函数来训练。
$loss$ $=$ ${\lambda}_{coord}$ $\sum_{i=0}^{S^2}$ $\sum_{j=0}^B$ $l_{ij}^{obj}$ $[(x_i - \hat{x_i})^2+(y_i-\hat{y_i})^2] +$
${\lambda}_{coord}$ $\sum_{i=0}^{S^2}$ $\sum_{j=0}^B$ $l_{ij}^{obj}$ $[(\sqrt{w_i}- \sqrt{\hat{w_i}})^2+(\sqrt{h_i}-\sqrt{\hat{h_i}})^2] +$
$\sum_{i=0}^{S^2}$ $\sum_{j=0}^B$ $l_{ij}^{obj}$ $(c_i - \hat{c_i})^2 +$
${\lambda}_{noobj}$ $\sum_{i=0}^{S^2}$ $\sum_{j=0}^B$ $l_{ij}^{noobj}$ $(c_i - \hat{c_i})^2 +$
$\sum_{i=0}^{S^2}$ $\sum_{c\in classes}$ $(p_i(c)- \hat{p_i}(c))^2$ svg

$S^2$ 表示网格数，在这里是7x7。 $B$ 表示每一个单元格预测框的个数，这里是2。
第一行就总方偏差( sum-squared error)来看成位置预测的损失函数，第二行用根号总方偏差来看成宽度和高度的损失函数。第三行和第四行对置信度confidence也用SSE做为损失函数。第五行用SSE做类别几率的损失函数。最后将几个损失函数加到一块儿，看成yolo v1的损失函数。
$l_{ij}^{obj}$ 取值为0和1，即单元格内是否有目标。
${\lambda}_{coord}$ = 5
${\lambda}_{noobj}$ = 0.5
从上面公式也能够看得出来，yolo_v1就是选用最简单的SSE做为损失函数(PS：还没交叉熵复杂)。不过，能解决问题是王道。函数

总结

v1对于整个yolo系列的价值，即v2/v3还保留的特性，能够总结为3点：
1. leaky ReLU，相比普通ReLU，leaky并不会让负数直接为0，而是乘以一个很小的系数(恒定)，保留负数输出，但衰减负数输出；公式以下: atom

y = {\begin{cases} x, x > 0 \\ 0.1 x, o t h e r w i s e \end{cases}

$y =\begin{cases} x, x>0\\ 0.1x, otherwise \end{cases}$
2. 分而治之，用网格来划分图片区域，每块区域独立检测目标；
3. 端到端训练。损失函数的反向传播能够贯穿整个网络，这也是one-stage检测算法的优点。