论文笔记_Extracting 3D Scene-consistent Object Proposals and Depth from Stereo Images

Extracting 3D Scene-consistent Object Proposals and Depth from Stereo Images

  • 从立体图像中提取3D场景一致的对象提议和深度
  • Michael Bleyer1, Christoph Rhemann1;2, and Carsten Rother2
  • 1 Vienna University of Technology, Vienna, Austria
  • 2 Microsoft Research Cambridge, Cambridge, UK
     

摘要

这项工作结合了计算机视觉研究的两个活跃领域:从单个图像中进行无监督的对象提取,以及从立体图像对中进行深度估计。无监督对象提取的最新成功趋势是利用所谓的“ 3D场景一致性”,即强制对象遵守3D场景的基本物理约束,例如3D空间的占用和对象的重力。我们的主要贡献是将3D场景一致性的概念引入立体匹配中,我们证明了该概念对两项任务,对象提取和深度估计均有益。特别是,我们证明了我们的方法能够,通过改变对象先验的数量,创建一个大的3D场景一致性对象提议集合。我们通过实验表明,与使用立体或单眼图像的最新技术相比,我们的结果与真值更加接近。设想我们的方法将为未来的立体图像对象识别系统构建前端。

介绍

在过去的几年中,可以捕获3D信息的相机的使用已大大增加,并在计算机视觉,机器人技术,人机交互(例如[2]和其他领域。在这项工作中,我们假设我们从被动式立体相机(例如商用FujiFilm FinePix 3D或新型LG Optimus手机)拍摄的单张照片作为输入。这项工作的目的是自动提取场景深度以及场景中存在的所有对象。然后可以将这样的输出馈送到其他系统,例如用于对象识别或增强现实,如稍后所述。此外,我们不假定图像是在特定环境(例如室内或室外)中拍摄的。我们唯一的假设是场景是由对象组成的。

解决类似问题的工作量很大。如果对象类是已知的,例如行人或汽车,已经建立了令人印象深刻的检测系统。如果已知对象(或对象类别)的(近似)2D或3D形状的先验知识,则此类系统的性能会进一步提高。对于从立体图像进行类独立对象检测的任务,我们仅了解一些工作。最接近我们的方法是对象立体化[1],稍后我们将对其进行详细讨论。物体立体化共同估计深度和物体,据我们所知,这是唯一在两个任务之间显示出协同效应的作品。在这种情况下,Lubor等文献[3]显示了深度估计对象类提取之间的协同作用,但是这依赖于先验定义的对象类。不同的研究方向是分别解决这两个任务,即根据预先计算的深度图像提取对象。例如在[4]中,开发了一种用于在立体图像中进行交互式前景提取的系统。在机器人技术方面,Borkman和Kragic [5,6]最近提出了一种通过结合颜色立体提示来自动提取前景的系统。与我们的工作一样,他们执行一定数量的3D推理,例如通过了解平面3D支撑表面的知识,以及物体的尺寸约为3D。尽管这些系统是迈向3D推理的重要一步,但我们认为它们尚未充分发挥其潜力。我们工作的主要灵感来自从单个图像中提取对象的最新进展,例如[ 7,9] 。研究表明,当推理不是以2D而是以3D进行时,即对象生活在3D空间中并且必须服从隐式的物理约束和作用力时,结果将得到显着改善。“3D场景一致性”(3D scene consistency),我们稍后将对其进行正式定义。尽管利用“3D场景一致性”概念从单个图像提取对象的工作量很大,但有关立体图像的工作很少,例如[5,6,1]。这是令人惊讶的,因为立体图像提供了近似的深度,因此是理想的输入。

在下文中,我们将详细审查与对象立体化(object stereo)[1]的关系,该关系最接近我们的工作。请注意,[1]中的重点是表明可以通过引入对象的概念来改善深度估计。相反,这项工作的主要重点是对象的提取。在这种关注下,人们不得不问一个问题:检索到的对象将用于什么目的?我们受到[10]的工作的启发,这是在过去三年中赢得PASCAL识别和细分挑战的系统的前端,另请参见[11,8]。这项工作以及相关工作[12]提出了以下3个步骤的流程(pipeline):

  • 1)生成大量的对象提议(a large pool of object proposals);
  • 2)根据学习的客观评分对提案进行排名;
  • 3)对排名最高的对象提案进行对象识别。

我们的想法是遵循这一研究路线,但要建立其流程的新步骤 1),该步骤将立体图像而不是单个图像作为输入。考虑图 1.给定立体图像(a)的目标是估计所谓的“场景提案”池(scene proposals)。场景提案由(1)视差图和(2)将每个像素分配给对象的对象图组成图1(c)和(d)可视化了两个示例对象图。(b)中显示了(c)中对象图的相应深度图(为了显示深度图,我们从一个新颖的视点渲染了场景,并且恢复的对象用3D边界框标记)。与[10]中一样,我们没有对最佳解决方案做出艰难的决定,但我们返回了一个场景建议池,然后可以将其用于其他任务实际上,我们对从场景提案中提取的所有对象,应用了[10]的自动排名技术(第2步),并且发现我们的性能,在分割精度上大大优于所有使用单目或立体图像的技术。

让我们回到与对象立体(object stereo)[1]的比较。 [1]的结果在图1(f)示出。注意[1]没有引入计算对象映射池(computing a pool of object maps的概念。我们工作的主要区别在于,[1]中的对象是由平坦的2D平面近似的,没有任何3D范围。相反,我们通过使用封闭的3D边界框为对象提供第3维。这样,我们可以引入和利用物理上的约束,这在[1]的平面“billboard“世界中是不可能的。注意,这与[7]讨论的2D图像的情况类似:将典型的基于表面的表示更改为3D是很重要的。图1(b)展示了我们为(c)中的对象图恢复的3D边界框。让我们更详细地讨论特定的对象。在图1(f;左箭头)中无法用扁平的2D平面表示,因此[1]与我们的结果(c,d)相反,无法将其检测为一个物体。关于在3D空间中占用的原因,即边界框在3D空间中不应(大面积的)重叠请考虑图1(f,右箭头),其中对象立体将罐的顶部和底部分配给同一对象,而中间部分分配给了另一个对象,这种体积相交在物理上是非常不可能的。 (c,d)在身体上是合理的。我们添加的另一个物理约束是重力,它不能通过基于表面的表示来实现[1]。

 

参考:

1. Bleyer, M., Rother, C., Kohli, P., Scharstein, D., Sinha, S.: Object stereo - joint stereo matching and object segmentation. (In: CVPR ’11)