实现3D扫描的大规模「场景完成」和「语义分割」

?wx_fmt=png&wxfrom=5&wx_lazy=1

?wx_fmt=gif&wxfrom=5&wx_lazy=1


?wx_fmt=png&wxfrom=5&wx_lazy=1



向你们介绍一下ScanComplete,它是一种全新的数据驱动方法,用于将场景的不完整3D扫描做为输入,而后预测一个完整的3D模型以及每一个体素语义标签。咱们方法的主要贡献在于,它可以处理具备不一样空间范围的大场景,而且随着场景大小的增长,所管理的数据大小也呈立方级增加。为此,咱们设计了彻底卷积生成式3D CNN模型,其过滤内核相对于总体场景大小来讲具备不变性。该模型能够在场景子卷(scene subvolumes)上进行训练,可是在测试期间内可以部署在任意大的场景中。此外,咱们提出了一个粗到精(coarse-to-fine)的推理策略,以可以产生高分辨率的输出,同时还可以利用大的输入上下文大小。在一系列普遍的实验中,咱们仔细评估了不一样的模型设计选择,考虑了完成和语义推理的肯定性和几率性模型。咱们的研究结果代表,咱们不只在处理环境的大小和处理效率方面优于其余方法,并且在完成质量和语义分割性能方面也有十分显著的优点。api

 

?wx_fmt=png

室内环境的3D扫描受传感器遮挡的影响,使得3D重构具备高度不完整的3D几何形状(左)。咱们提出了一种基于彻底卷积神经网络的新型数据驱动方法,该方法将不完整的符号距离函数(SDF)转换为彻底的网络,以达到史无前例的空间范围(中)。除了场景完成以外,咱们的方法还会为以前缺乏几何形状的状况下推理语义类标签(右图)。咱们的方法在完成和语义标注精确度方面都要优于现有方法。网络


随着微软Kinect、英特尔RealSense和谷歌Tango等商用RGB-D传感器的普遍应用,室内空间的3D重构已经取得了巨大的成功。3D重构能够帮助建立图形应用程序的内容,虚拟和加强现实应用程序依靠于从周围环境获取高质量的3D模型。虽然在追踪大空间扫描的精确度和高效数据结构方面已经取得了重大进展,但所获得的重构3D模型在质量方面仍然有不尽人意的地方。数据结构


在质量方面,一个基本的局限性是,通常来讲,对于一个给定的场景,咱们只能得到其局部和不彻底重构,由于扫描会遭受遮挡和距离传感器的物理限制。在实践中,即便通过人类专家的仔细扫描,在重构过程当中扫描一个没有孔的房间也几乎是不可能的。长期以来,孔在审美上都是不怎么使人愉悦的,而且可能致使后期处理(诸如3D打印或场景编辑)过程当中的严重问题,由于咱们不肯定扫描的某些区域是表明自由空间仍是占用空间。而诸如拉普拉斯孔填充(Laplacian hole filling、或泊松曲面重构(Poisson Surface reconstruction)这样的传统的方法能够填充小孔。然而,完成高水平的场景几何形状,好比缺乏墙壁或椅子腿,则更加具备挑战性。架构

 

?wx_fmt=png

咱们的方法概述:咱们提出了一个层级粗到精的方法,其中每一个级别都采用局部3D扫描做为输入,而且使用咱们的自回归3D CNN架构中,预测完成的扫描以及在相应级别的体素分辨率下预测每一个体素语义标签。下一个层次结构将先前层次(完成和语义)的输出做为输入,而后能够细化结果。这个过程容许在一个较高的局部体素分辨率的状况下利用大的空间上下文。在最终的结果中,咱们看到全局完成,以及局部表面细节和高分辨率语义标签。框架


解决这个问题的一个颇有前景的研究方向是使用机器学习。近期,用于3D完成,以及涉及单个目标或深度框架的其余生成任务的深度学习方法显示出了很好的效果。然而,3D生成式建模和结构化输出预测仍然具备挑战性。当用体积网格表示时,数据的大小会伴随空间大小的增长呈立方级增加,这严重限制了分辨率。室内场景尤为具备挑战性,由于它们不只大,并且形状不规则,而且还具备不一样的空间范围。机器学习


在本文中,咱们提出了一种新方法—ScanComplete,它能够在大的3D环境下操做,而不受空间范围的限制。咱们利用彻底卷积神经网络,能够在较小的子卷上进行训练,但在测试时应当用于任意大小的环境场景。这种功能能够高效地应用于处理大规模室内场景的3D扫描:咱们展现了高达1480×1230×64像素(≈70×60×3m)的例子。咱们关注的重点为场景完成和语义推理的任务:对于给定的部分输入扫描,咱们推理缺失的几何形状,并预测基于每一个体素的语义标签。为了得到高质量的输出,模型必须使用足够高的分辨率来预测精细的尺度细节。然而,它还必须使用足够大的上下文来识别大型结构,以保证总体的一致性。为了协调这些相互矛盾的问题,咱们提出了一个从粗到精(coarse-to-fine)的策略,该模型预测了一个多分辨率的输出层次结构。第一层次级别在分辨率低但空间大的环境中预测场景几何形状和语义。如下层级使用的空间环境更小,但分辨率更高,而且每一层级都将前一层级的输出做为输入以充分利用全局上下文。函数


在咱们的评估中,咱们在一个史无前例的空间内展现了场景完成和语义标注。此外,咱们证明能够在合成数据上训练咱们的模型,并将其转换为从商品扫描设备中获取的真正的RGB-D扫描。咱们的结果优于现有的合成方法,并得到了具备更高准精确度的语义体素标签。性能

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------学习