FCOS阅读笔记

简介:anchor-free单阶段目标检测方法,PolarMask的基础

emmm我觉得我看完一篇论文之后不能只掌握这个模型,还得提高英语能力,所以以后每篇论文笔记增加一个英语版块,记录论文中看到的一些想记下来的短语/单词或句子


英语角:
in a per-pixel prediction fashion:用一种像素级预测的方法
关键在:in a ** fashion——用一种什么样的方法
hamper the generalization ability of detectors:阻碍了检测器的泛化能力
关键在:hamper——阻碍, generalization ability——泛化能力
aggravates the imbalance between positive and negative samples:
加剧了正负样本间的不平衡性
关键在:aggravate——加剧
tremendous success:巨大的成功
improves the overall performance by a large margin:在很大程度上


第一个问题:
没有anchor如何表示一个正样本?
=>样本中心点坐标+中心点到四条边的距离+类别
(这里说错了,样本中心点坐标其实不能算是预测出的,就是feature map上的点到原图上的坐标映射)
在这里插入图片描述
如何判定一个样本为正样本?
=>对于feature map上的每个点,映射回原图,如果这个点在某一个gt的bounding box内,则判定为正样本,否则为负样本。
如果同时在多个gt box内,为模糊样本,后面用FPN解决

feature map上的点如何映射回原图?

参考https://zhuanlan.zhihu.com/p/24780433评论区

感觉论文上的公式不太对劲,没看懂,请教了另一个人,等待回答中。

晚上再继续写

好吧那个人也不会。

直接贴一下论文中的公式吧:
在这里插入图片描述
这里S是从feature map到input image的stride,比如x->y,stride=2,y->z,stride=3,则x->z,stride=2*3=6。

为什么是这个公式可能跟网络结构有关,这里再贴一下另一个帖子里的比较普通的公式:
在这里插入图片描述
这个就比较好理解了,p是x或y,s是stride,s*p即根据stride把feature map按倍数还原,(k-1)/2则代表还原后的中心,padding代表
注意这里是0-index,即index是从0开始的