Learning from Monocular Videos 论文笔记(转)

时间 2020-12-30

参考:

AAAI无监督单目视频深度学习的结构化方法(论文学习&翻译笔记) http://www.noobyard.com/article/p-valrqsom-td.html

AAAI 2019 | 谷歌提出以无监督方式从单目视频中学习的结构化方法（附开源代码）https://zhuanlan.zhihu.com/p/51928175

A Structured Approach to Unsupervised Depth Learning from Monocular Videos https://ai.googleblog.com/2018/11/a-structured-approach-to-unsupervised.html

0x01 目的和现状

原文: https://www.arxiv-vanity.com/papers/1811.06152/
源代码: https://github.com/tensorflow/models/tree/master/research/struct2depth

尽管已经做出了这么多努力，(目的)学习预测场景深度和自我运动仍然是一个持续的挑战，特别是在处理高动态场景和估计移动目标的适当深度时。

之前使用单目输入的研究无法提取移动目标，并将它们错误地映射到无穷远。

由于之前所做的无监督单目学习方面的研究没有对移动目标建模，因此可能对目标深度做出一致的错误估计，使目标深度映射到无限远。

作者提出了一种新方法，作者的目的:

模拟运动物体;
产生高质量的深度估计结果。
还提出了一种无缝的在线优化技术，可以进一步提高质量并应用于跨数据集的传输。

0x02 Structure

==
　　本文方法中的一个关键思想是将结构引入了学习框架。也就是说，该方法不依赖神经网络直接学习深度，而是将单目场景视为由移动目标（包括机器人）组成的 3D 场景。
　　
方法简介:
　　本文实现的是对单目视频进行深度估计，将场景中相应的运动建模为独立变换（旋转和平移），然后用其对 3D 几何建模，并估计所有目标的运动。此外，知道哪些目标可能移动（例如，车辆、行人以及自行车等）有助于它们学习单独的运动矢量，即便这些目标可能是静态的。通过将场景分解为 3D 和单个目标，可以更好地学习场景中的深度和自我运动，尤其是在动态场景下。

作者在 KITTI 和 Cityscapes 的城市驾驶数据集上测试了这种方法，发现它的表现超过了当前最佳的方法，而且该方法的表现已经逼近用 stereo 对视频作为训练监督的方法的质量。
motion model 可以实现：

可以预测运动物体的目标的深度
可以对单个目标的运动向量进行估计

0x03 Transfer Across Domains

online refinement 可以实现:

可以更细节的显示物体的几何结构
可以实现数据集转移

在 Cityscapes 数据上训练并在 KITTI 数据上测试时进行在线改进。图像显示的是训练好的模型的深度预测，以及带有在线改进的训练好的模型的深度预测。带有在线改进功能的深度预测可以更好地概括场景中的目标。

0x04 Conclusion

==
　　这项研究对来自单目摄像机的深度和自我运动进行了无监督学习，解决了高动态场景中的一些问题。它实现了高质量的深度值和自主运动结果，该结果的质量逼近stereo 的质量，还提出了在学习过程中结合结构的想法(不是很理解)。
　　
　　更值得注意的是，作者提出的将仅来自单目视频的深度值和自主运动的无监督学习和在线自适应相结合，是一个强大的概念。因为这样它不仅可以以无监督的方式从简单视频中进行学习，还可以轻松地转移到其它数据集。

原文链接：ai.googleblog.com/2018/11/a-structured-approach-to-unsupervised.html