FCOS阅读笔记

时间 2021-01-22 标签学习笔记深度学习计算机视觉

简介：anchor-free单阶段目标检测方法，PolarMask的基础

emmm我觉得我看完一篇论文之后不能只掌握这个模型，还得提高英语能力，所以以后每篇论文笔记增加一个英语版块，记录论文中看到的一些想记下来的短语/单词或句子

英语角：
in a per-pixel prediction fashion：用一种像素级预测的方法
关键在：in a ** fashion——用一种什么样的方法
hamper the generalization ability of detectors：阻碍了检测器的泛化能力
关键在：hamper——阻碍, generalization ability——泛化能力
aggravates the imbalance between positive and negative samples:
加剧了正负样本间的不平衡性
关键在：aggravate——加剧
tremendous success：巨大的成功
improves the overall performance by a large margin：在很大程度上

第一个问题：
没有anchor如何表示一个正样本？
=>~~样本中心点坐标~~+中心点到四条边的距离+类别
(这里说错了，样本中心点坐标其实不能算是预测出的，就是feature map上的点到原图上的坐标映射)

如何判定一个样本为正样本？
=>对于feature map上的每个点，映射回原图，如果这个点在某一个gt的bounding box内，则判定为正样本，否则为负样本。
如果同时在多个gt box内，为模糊样本，后面用FPN解决

feature map上的点如何映射回原图？

参考https://zhuanlan.zhihu.com/p/24780433评论区

感觉论文上的公式不太对劲，没看懂，请教了另一个人，等待回答中。

晚上再继续写

好吧那个人也不会。

直接贴一下论文中的公式吧：

这里S是从feature map到input image的stride，比如x->y，stride=2，y->z，stride=3，则x->z，stride=2*3=6。

为什么是这个公式可能跟网络结构有关，这里再贴一下另一个帖子里的比较普通的公式：

这个就比较好理解了，p是x或y，s是stride，s*p即根据stride把feature map按倍数还原，(k-1)/2则代表还原后的中心，padding代表
注意这里是0-index，即index是从0开始的