YOLO 训练和检测均是在一个单独网络中进行,YOLO没有显示地求取region proposal的过程
论文中设置s为7,一个分为49个grid cell,每个gird cell生成两个Bounding boxes
每个cell会有两个bounding box, 选择IOU最大的作为结果
可以看到网络的最后输出为是边界框的预测结果。这样,提取每个部分是非常方便的,这会方面后面的训练及预测时的计算。
最后是7 X 7 X 30 分成三部分
5 + 5 + 20类别数
For each cell predicts: