Adversarial Training Reconstruction读后感

本文思路是根据合成图像的体素重建来推理真实图像的体素重建,并利用了对抗训练。整个框架如下:

可以看到有三个encoder和decoder。分别细说。

混淆图像域:

encoder是f,decoder是D_img。D_img分类器是分类合成图像和真实图像,为了实现域混淆,希望合成图像的域和真实图像的域不那么明显,也就是说分类器不能很好分类这两种图像,所以D_img分类器的参数要最大化这个分类误差,而图像编码器f的参数是最小化这个误差。

重建网络:

encoder是f,decoder是D_*。D_*在训练中不改变。D_*是从特征维度重建体素表示,这是最基础的loss部分,为了让合成图像的生成体素和真实提体素一样。

形状先验:

encoder是E*,decoder是D_shape。E*是形状编码,在训练中不改变。D_shape分类器分类数据是图像还是体素表示,为了希望图像和体素表示都得到一致的形状流形表示,则图像编码器f需要最大化这个分类器的误差,而D_shape分类器来最小化这个误差