GazeNeRF: 3D

编程入门行业动态更新时间:2024-10-04 21:18:19

GazeNeRF: 3D

文章链接
代码maybe coming soon
NeRF资料
HeadNeRF原文
NeRF ECCV2020简介：
1.NeRF利用的核心技术是体绘制，该技术在已知三维空间内任意体素(x=( x , y , z ) x,y,z) x,y,z))在给定视角方向(d= ( θ , ϕ ) (\theta,\phi) (θ,ϕ))的体素的不透明性( σ \sigma σ)以及颜色( c c c)的情况下，就可以得到场景的相机二维投影。

具体，对于从相机原点(o)出发，角度为d的射线上体素颜色( c c c)进行当前透明性( σ ( r ( t ) ) \sigma(r(t)) σ(r(t)))以及历史不透明性(T(t)) σ \sigma σ加权积分可以得到对应二维投影位置的像素颜色C( r r r)，在实际计算中积分通过离散化采样近似。

2.那为了得到体素在对应视角下的不透明性和颜色，服务于体绘制，NeRF设计了一个网络，他是一个由体素三维坐标(x=( x , y , z ) x,y,z) x,y,z))和视角方向(d= ( θ , ϕ ) (\theta,\phi) (θ,ϕ))到体素的不透明性( σ \sigma σ)以及颜色( c c c)的映射。

3.Loss约束网络通过体绘制得到的二维投影和GT的MSE

细节：
1.NeRF对每个新场景都是重新单独进行训练的，不存在pre-train，因此耗时。
2.NeRF在射线体素采样时采用的是由粗到细采样，粗即先均匀划分区间区间内随机采样，细即随后会根据每个区间的 σ \sigma σ调整区间内采样次数（正相关）。

3.NeRF网络映射时，先根据像素位置x得到不透明性和特征，再将特征和相机视角拼接然后得到颜色c。这样做是因为作者认为不透明性跟视角无关。
4.为了提升NeRF在高分辨率场景下的性能，采用了将输入特征x和d向高维映射的位置编码。

HeadNerf CVPR 2022 代码链接
创新点：HeadNerf结合ReNerf和3DMM思想重建具有身份、表情、摄像机位置、光照多样性的头部图像，并为了提高速度，不直接用NeRF生成图片，而是生成低分辨率的特征，通过特征上采样得到图片。
NeRF为了生成多视角的图像，进行映射，HeadNeRF得到具有身份、表情、摄像机位置、光照多样性的头部图像，进行映射
那么如何初始化训练图片对应的z呢？ 3DMM是一项将复杂人脸图像分解表示为低维z向量的技术。
3DMM的核心思想人脸的每个属性都可以由其他许多幅人脸属性（训练集）嵌入正交基加权线性相加得到。如下式， S ˉ \bar{S} Sˉ为属性均值，s i _i i为样本i属性减去均值后的协方差。3DMM的逆渲染化就是根据测试二维图像和模型三维投影之间的差异更新系数α的过程。3DMM能将复杂的人脸嵌入到低维空间。
作者首先通过3DMM逆渲染化得到身份、表情、反射率和场景的照明的隐代码，将隐代码代替NeRF的视角方向，和体素x一起输入网络，映射得到高维特征和不透明度。

损失函数包括：
1.约束头部区域mask的渲染图象和真实值MSE一致性

2.约束渲染图象和GT特征MSE一致性

3.约束可学习隐代码和其3DMM给出的初始值的一致性

GazeNerf：在headNerf输入基础上加上gaze标签，分双流预测头部、眼部区域

旋转矩阵为gaze对应的旋转矩阵，使得强3Dgaze信息被引入

对Headnerf对应3类损失都分别约束脸部图像、眼部图像、一张脸图像。
除Headnerf对应3类损失函数，还包括视线一致性约束

评估指标包括头部重定向错误、眼部重定向错误、重定向图像质量和身份相似性
1.头部重定向错误、眼部重定向错误，resnet50给出的姿态角误差
2.重定向图像质量，包括结构相似性指数（SSIM）、峰值信噪比（PSNR）、习得感知图像块相似性（LPIPS）和Fr´echet起始距离（FID
3.身份相似性，人脸识别模型FaceX Zoo