大家好,欢迎来到IT知识分享网。
作者丨jiang
编辑丨极市平台
- 论文题目:Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding
- 项目主页:https://eg3d-goae.github.io
- 论文代码:https://github.com/jiangyzy/GOAE
背景
GAN(生成对抗网络 )是一种生成式的模型,通过随机采样一个 latent(存在于 latent space,通常 W space 或 W+ space),将其输入到网络中可以生成一个真实图像。GAN Inversion 是其逆过程,旨在给定一张参考图片后,通过一系列方法获得其相应的 latent,从而可以输入到 GAN 的生成网络中恢复这个图片。
Inversion 在 2D GAN 中已经有广泛的研究,主要分为以下三种方法,optimization-based,encoder-based,hybrid。Optimization-based 通常通过迭代最小化目标损失函数不断优化一个随机初始的 latent 来得到目标 latent;encoder-based 通过训练一个 encoder 来经过一次网络前向就获得目标 latent;hybrid 会利用 encoder 提供一个合理的初始化 latent,之后再对其进行迭代优化。类似地,3D GAN Inversion 是在 3D GAN 的基础上,给定一张参考图片,找到其对应的 latent 从而获得其 3D 表示,达到三维重建的效果。
动机
不同于 2D, 3D Inversion 在训练过程仅靠单一视角的输入要产生多视角的几何,是一个病态的问题,容易陷入过拟合输入视角的图片,产生平坦的 3D 形状。需要特别考虑几何,遮挡等问题,因此更加复杂,且目前的方法集中在 optimization-based,耗时较久,且容易过拟合到输入视角上,难以获得完整合理的 3D 几何。
因此,我们设计了一个 encoder-based 的框架来解决 3D GAN Inversion。首先探究了 3D GAN 中 canonical space (标准空间)的性质,并以此提出了 geometry-aware (几何感知)的 encoder,以及 Adaptive Feature Align (AFA,自适应特征对齐)模块提升细节纹理,和 mix tri-plane (遮挡感知融合)模块来处理遮挡关系,从而达到了高效高质量的重建和一致的编辑效果。
方法
我们以 EG3D 为例进行分析,实验显示不同 condition 下采样的 latent 会产生不同质量的3D几何,在完整的 latent space 中,不是每一个采样的 w 都能产生完整的几何,只有在 canonical latent space 中采样得到的 latent 可以生成高质量的完整几何(Fig. 3 中间一行),其生成的相应 3D 表示 tri-plane上的特征也体现出 canonical 性质,因此定义为 canonical feature space。(以人脸为例,tri-plane 体现的是一个正脸的视角)
因此,我们第一步构建了一个 geometry-aware encoder,除了,LPIPS,ID 等重建损失,我们提出使用canonical latent space上的对抗损失,用于隐式地拉近重建的 latent space 和 canonical latent space 之间的分布,另一方面我们显式地正则 canonical view 下的背景深度,两者的共同约束让我们避免在训练中过拟合到输入视角,产生平坦几何,而是获得一个可以生成完整的几何的 latent。相关的损失函数定义如下。
但是 latent (W space,W+ space) 的表达能力在之前 2D GAN Inversion 研究中已经被验证是比较有限的,无法做到高质量的重建,一些细节纹理需要补充,因此设计了自适应特征对齐的 AFA 模块。我们在第一步 encoder 的重建中获得的 latent 生成的 feature 是标准的,然而第一步重建结果和输入图片的残差 feature 是和输入图片的视角绑定在一起的,他们在 spacial 上不能直接对齐,因此这里设计了一个 attention 的调制,把 生成网络中间的 canonical feature 作为 query,残差的 feature 作为 key 和 value 从而将两者自适应地对齐,达到了补充细节纹理的效果。AFA 模块结构如下。
而给定的图片是2D的,存在遮挡的问题,应该只在输入图片能看见的位置补充的细节,因此我们根据相机的内外参和输入视角的深度,定义了可见点集和遮挡点集,在对tri-plane渲染进行特征选取的时候,对于可见点集,我们使用补充细节后的tri-plane的特征;对于遮挡点集,我们使用第一步 encoder 获得的能生成完整几何的 triplane 的特征。通过这种方法,将两个 tri-plane 结合在一起获得最后的 3D 表示。
实验
实验对比上,我们的方法和 optimization-based 的方法相比,在输入视角的重建上没有明显差别,且我们不会过拟合在输入视角,能生成高质量的多视角,在极端视角和表情下能有更好的表现。和其他 encoder-based 方法相比各方面质量明显更好。消融实验也体现出上述每一个模块的重要性。
- Qualitative Analysis
- Quantitative Analysis
- novel view video
- Ablation geometry-aware loss
- Ablation AFA
- Ablation mix tri-plane
感兴趣的读者可以阅读论文原文,了解详细的研究内容。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/57267.html