2D图像生成3D点云补充材料chamfer distance和EMD

传自知乎大佬

Point Set Prediction Network 论文提出了全新的网络架构,一共分为三个阶段。

第一阶段:网络大致由一个编码器和一个解码器构成编码器是由卷积层和ReLU构成输入一张图片I和一个向量rr用来模拟重建任务中的不确定性输出的是一个Nx3的矩阵M解码器中的全链接层用来生成点云的坐标

第二阶段:为了更好的使模型作用在大而平滑的物体上,论文提出了改进版。因为每一个点都是被独立预测的,全链接层并不能很好的预测物体的几何结构,所以第二阶段的解码器由两部分组成,一个是全链接层,另一个是反卷积层。全链接层还是生成N个点,而反卷积层则是生成尺寸为HxW的3通道的图片,这三个值分别是该点的位置坐标,稍后,全链接层的输出和反卷积层的输出会被合并在一个单元中。这里的跳跃连接增强了流过编码器和预测器的信息流。

第三阶段:这一阶段引入了“沙漏结构”,这种深度神经网络重复执行编码和解码操作,从而进一步增强了模型的提取和表达能力。

Distance Metric between Point Sets

上一步模型生成了点云之后,这一步就要对生成的点云进行判断准确度了。论文提出了两种测量方法,分别是CD和EMD。此外论文还总结了距离测量方法的选取原则:  可微。
计算高效。
对于点集中的少量的离群点具有鲁棒性。
 

S1和S2分别是两个点集,CD的操作就是找出每一个点对应另一个点集中的距离最小的点,然后再把每一个点的最小距离加起来。
 

EMD的方法则是,找出一个映射能够使S2的点转换成距离S1最近。从而该映射就是最优映射。

MoN loss

上面提到了输入向量r,这个r的作用是使输入图片I变得凌乱,来模拟重建的不确定性。所以会生成多个候选3D结构,那么就从这么多个候选结构中,选出距离groundtruth最接近的,作为最终的重建结果,这就是MoN loss 损失函数的由来。

表达如上式,实验中一般设n为2,也就是产生2个预测模型。