论文提出anchor-free和proposal-free的one-stage的目标检测算法FCOS,再也不须要anchor相关的的超参数,在目前流行的逐像素(per-pixel)预测方法上进行目标检测,根据实验结果来看,FCOS可以与主流的检测算法相比较,达到SOTA,为后面的大热的anchor-free方法提供了很好的参考
来源:【晓飞的算法工程笔记】 公众号算法
论文: FCOS: Fully Convolutional One-Stage Object Detection微信
大多目标检测网络都是anchor-based,虽然anchor能带来很大的准确率提高,但也会带来一些缺点:网络
近期,FCNs在各视觉任务中都有不错的表现,但目标检测因为anchor的存在,不能进行纯逐像素预测,因而论文抛弃anchor,提出逐像素全卷积目标检测网络FCOS网络,总结以下:app
让$F_i\in \mathbb{R}^{H\times W\times C}$为层$i$的特征图,$s$为层的总stride,输入的GT为${B_i}$,$B_i=(x_0{(i)},y_0{(i)},x_1{(i)},y_1{(i)},c^{(i)})\in \mathbb{R}^4\times {1,2...C }$分别为box的左上角和右下角坐标以及类别,$C$为类别数。特征图$F_i$的每一个位置$(x,y)$,能够经过$(\lfloor\frac{s}{2}\rfloor + xs, \lfloor\frac{s}{2}\rfloor + ys)$映射回原图,FCOS直接预测相对于当前像素的box位置,而不是anchor的那样将像素做为中心再回归ide
当像素$(x,y)$落在GT中则认为是正样本,将类别$c*$设置为目标类别,不然设置为0。除了类别,还有4D向量$t=(l*,t,r*,b*)$做为回归目标,分别为box的四条边与像素的距离。当像素落在多个GT中时,直接选择区域最小的做为回归目标。相对于anchor-based的IOU判断,FCOS能生成更多的正样原本训练回归器性能
网络最终输出80D分类标签向量$p$和4D box坐标向量$t=(l,t,r,b)$,训练$C$个二分类器而不是多分类器,在最后特征后面分别接4个卷积层用于分类和定位分支,在定位分支使用$exp(x)$保证结果为正,总体输出比anchor-based少9x倍测试
$L_{cls}$为focal loss,$L_{reg}$为UnitBox中的IOU loss,$N_{pos}$为正样本数,$\lambda$为平衡权重,公式2计算特征图上的全部结果blog
对于输入图片,推理获得特征图$F_i$的分类分数$p_{x,y}$以及回归预测$t_{x,y}$,而后取$p_{x,y}>0.05$的做为正样本,公共公式1获得预测框位置图片
下面讲下FCOS如何使用FPN来解决以前提到的问题:ci
如图2,FPN使用${P_3,P_4,P_5,P_6,P_7 }$层特征,其中$P_3$、$P_4$和$P_5$分别经过$C_3$、$C_4$和$C_5$的$1\times 1$卷积以及top-down connection生成,$P_6$和$P_7$则是分别经过$P_5$和$P_6$进行stride为2的$1\times1$卷积生成,各特征的stride分别为8,16,32,64和128
anchor-based方法对不一样的层使用不一样的大小,论文则直接限制每层的bbox回归范围。首先计算$l*$,$t$,$r*$和$b$,若是知足$max(l*,t,r8,b)>m_i$或$max(l*,t,r8,b)<m_{i-1}$,则设为负样本,不须要进行bbox回归。$m$为层$i$的最大回归距离,$m_2$,$m_3$,$m_4$,$m_5$,$m_6$和$m_7$分别为0,64,128,256,512和$\infty$。若是在这样设置下,像素仍存在歧义,则选择区域最小的做为回归目标,从实验来看,这样设定的结果很好
最后,不一样层间共享head,不只减小参数,还能提升准确率。而因为不一样的层负责不一样的尺寸,因此不该该使用相同的head,所以,论文将$exp(x)$改成$exp(s_ix)$,添加可训练的标量$s_i$来自动调整不一样层的指数基底
使用FPN后,FCOS与anchor-based detector仍然存在差距,主要来源于低质量的预测box,这些box的大多由距离目标中心点至关远的像素产生。所以,论文提出新的独立分支来预测像素的center-ness,用来评估像素与目标中心点的距离
center-ness的gt计算如公式3,取值$(0,1]$,使用二值交叉熵进行训练。在测试时,最终的分数是将分类分数与center-ness进行加权,低质量的box分数会下降,最后可能经过NMS进行过滤
center-ness的另外一种形式是在训练时仅用目标框的中心区域像素做为正样本,这会带来额外的超参数,目前已经验证性能会更好
best possible recall(BPR)定义为检测器可以回归的gt比例,若是gt被赋予某个预测结果,即为可以回归。从表1看来,不用FPN的FCOS直接有95.55%,而anchor-based的经典实现只有86.82%,加上FPN后就提升到98.40%
在原始FCOS中,正样本中歧义目标的比例为23.16%,使用FPN后可以下降到7.14%。这里论文提到,同类别目标的歧义是不要紧的,由于无论预测为哪一个目标,都是正确的,预测漏的目标能够由其它更靠近他的像素来预测。因此,只考虑不一样类别的歧义比例大概为17.84%,使用FPN后可降为3.75%。而在最终结果中,仅2.3%的框来自于歧义像素,考虑不一样类别的歧义,则仅有1.5%的,因此歧义不是FCN-based FCOS的问题
center-ness分支可以将AP从33.5%升为37.1%,比直接从回归结果中计算的方式要好
相对于RetinaNet,以前FCOS使用了分组卷积(GN)和使用$P_5$来产生$P_6$和$P_7$,为了对比,去掉以上的改进进行实验,发现准确率依旧比anchor-based要好
将anchor-based的RPNs with FPN替换成FCOS,可以显著提升$AR{100}$和$AR{1k}$
论文提出anchor-free和proposal-free的one-stage的目标检测算法FCOS,再也不须要anchor相关的的超参数,在目前流行的逐像素(per-pixel)预测方法上进行目标检测,根据实验结果来看,FCOS可以与主流的检测算法相比较,达到SOTA,为后面的大热的anchor-free方法提供了很好的参考
若是本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】