背景

GAN（生成对抗网络）是一种生成式的模型，通过随机采样一个 latent（存在于 latent space，通常 W space 或 W+ space），将其输入到网络中可以生成一个真实图像。GAN Inversion 是其逆过程，旨在给定一张参考图片后，通过一系列方法获得其相应的 latent，从而可以输入到 GAN 的生成网络中恢复这个图片。

Inversion 在 2D GAN 中已经有广泛的研究，主要分为以下三种方法，optimization-based，encoder-based，hybrid。Optimization-based 通常通过迭代最小化目标损失函数不断优化一个随机初始的 latent 来得到目标 latent；encoder-based 通过训练一个 encoder 来经过一次网络前向就获得目标 latent；hybrid 会利用 encoder 提供一个合理的初始化 latent，之后再对其进行迭代优化。类似地，3D GAN Inversion 是在 3D GAN 的基础上，给定一张参考图片，找到其对应的 latent 从而获得其 3D 表示，达到三维重建的效果。

动机

不同于 2D， 3D Inversion 在训练过程仅靠单一视角的输入要产生多视角的几何，是一个病态的问题，容易陷入过拟合输入视角的图片，产生平坦的 3D 形状。需要特别考虑几何，遮挡等问题，因此更加复杂，且目前的方法集中在 optimization-based，耗时较久，且容易过拟合到输入视角上，难以获得完整合理的 3D 几何。

因此，我们设计了一个 encoder-based 的框架来解决 3D GAN Inversion。首先探究了 3D GAN 中 canonical space （标准空间）的性质，并以此提出了 geometry-aware （几何感知）的 encoder，以及 Adaptive Feature Align （AFA，自适应特征对齐）模块提升细节纹理，和 mix tri-plane （遮挡感知融合）模块来处理遮挡关系，从而达到了高效高质量的重建和一致的编辑效果。

方法

我们以 EG3D 为例进行分析，实验显示不同 condition 下采样的 latent 会产生不同质量的3D几何，在完整的 latent space 中，不是每一个采样的 w 都能产生完整的几何，只有在 canonical latent space 中采样得到的 latent 可以生成高质量的完整几何（Fig. 3 中间一行），其生成的相应 3D 表示 tri-plane上的特征也体现出 canonical 性质，因此定义为 canonical feature space。（以人脸为例，tri-plane 体现的是一个正脸的视角）

因此，我们第一步构建了一个 geometry-aware encoder，除了，LPIPS，ID 等重建损失，我们提出使用canonical latent space上的对抗损失，用于隐式地拉近重建的 latent space 和 canonical latent space 之间的分布，另一方面我们显式地正则 canonical view 下的背景深度，两者的共同约束让我们避免在训练中过拟合到输入视角，产生平坦几何，而是获得一个可以生成完整的几何的 latent。相关的损失函数定义如下。

但是 latent （W space，W+ space）的表达能力在之前 2D GAN Inversion 研究中已经被验证是比较有限的，无法做到高质量的重建，一些细节纹理需要补充，因此设计了自适应特征对齐的 AFA 模块。我们在第一步 encoder 的重建中获得的 latent 生成的 feature 是标准的，然而第一步重建结果和输入图片的残差 feature 是和输入图片的视角绑定在一起的，他们在 spacial 上不能直接对齐，因此这里设计了一个 attention 的调制，把生成网络中间的 canonical feature 作为 query，残差的 feature 作为 key 和 value 从而将两者自适应地对齐，达到了补充细节纹理的效果。AFA 模块结构如下。

而给定的图片是2D的，存在遮挡的问题，应该只在输入图片能看见的位置补充的细节，因此我们根据相机的内外参和输入视角的深度，定义了可见点集和遮挡点集，在对tri-plane渲染进行特征选取的时候，对于可见点集，我们使用补充细节后的tri-plane的特征；对于遮挡点集，我们使用第一步 encoder 获得的能生成完整几何的 triplane 的特征。通过这种方法，将两个 tri-plane 结合在一起获得最后的 3D 表示。

实验

实验对比上，我们的方法和 optimization-based 的方法相比，在输入视角的重建上没有明显差别，且我们不会过拟合在输入视角，能生成高质量的多视角，在极端视角和表情下能有更好的表现。和其他 encoder-based 方法相比各方面质量明显更好。消融实验也体现出上述每一个模块的重要性。

Qualitative Analysis

Quantitative Analysis

novel view video

Ablation geometry-aware loss

Ablation AFA

Ablation mix tri-plane

感兴趣的读者可以阅读论文原文，了解详细的研究内容。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/57267.html

ICCV23｜速度提高 500 倍，让 Encoder 在 3D gan Inversion 中大显身手！

背景

动机

方法

实验

相关推荐

发表回复