车辆2D/3D--Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis

时间 2020-12-30

Deep MANTA: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image
CVPR2017
https://arxiv.org/abs/1703.07570

自动驾驶很快就可以达到实用的水平了。

本文的功能是：给一张灰度图像，使用多任务CNN网络 Deep MANTA 可以给出6个信息： region proposal, detection, 2D box regression, part localization, part visibility and 3D template prediction，通过定义 Many-task loss functions 实现

先上图来个感性认识：

Deep MANTA 整个网络流程图如下所示：

Conv layers with the same color share the same weights

怎么从2D 信息推理出 3D 信息了？
首先我们利用了2个3D 的数据库 3D shape and template datasets

2D/3D vehicle model

数据标记问题怎么解决
Semi-automatic annotation process

Experiments

http://www.cvlibs.net/datasets/kitti/eval_object_detail.php?&result=6759889c0a252c63765d5e2e69cb8b1433cadb0a
Running time: 0.7 s
Environment: GPU @ 2.5 Ghz (Python + C/C++)