飞行者联盟 门户 新闻资讯 模拟飞行 查看内容

pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)

2024-11-18 17:15| 发布者: 我什么都不知道 1235 1

摘要: 文章首发微信公众号:小小cv笔记论文题目pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction1、简介pixelSplat是一个前馈模型,它学习从图像对中重建三维高斯基元参数 ...

pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-7320

文章首发微信公众号:小小cv笔记

论文题目

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

1、简介

pixelSplat是一个前馈模型,它学习从图像对中重建三维高斯基元参数化的三维辐射场。模型具有实时和内存高效渲染,可扩展的训练以及在推理时快速的3D重建。为了克服稀疏和局部支持表示所固有的局部最小值,我们预测了3D上的密集概率分布和该概率分布的样本高斯均值。通过一个重参数化技巧使这个采样操作可微,允许我们通过高斯飞溅表示反向传播梯度。在现实世界的RealEstate10k和ACID数据集上对方法进行了宽基线新视图合成的基准测试,其中我们优于最先进的光场转换器,并在重建可解释和可编辑的3D辐射场时将渲染速度加快了2.5个数量级。

2、背景

1)单场景新颖视图合成。早期的方法采用体素网格和学习的渲染技术,最近,神经场和体渲染已经成为事实上的标准。然而,这些方法的一个关键障碍是它们的高计算需求,因为渲染通常需要对每条光线进行数十次神经场查询。离散数据结构可以加速渲染,但在高分辨率下无法实现实时渲染。3D高斯喷溅解决了这个问题,它使用3D高斯分布来表示辐射场,可以通过栅格化有效地渲染。然而,所有的单场景优化方法都需要几十张图像来实现高质量的新视图合成。

2)基于先验的三维重建和视图合成。可概括的新颖视图合成旨在从每个场景的少数图像中实现3D重建和新颖视图合成。如果代理几何(如深度图)可用,机器学习可以与基于图像的渲染相结合,以产生令人信服的结果。

3)在这项工作中,训练神经网络在单个前向传递中仅从两张图像中估计3D高斯原始场景表示的参数。我们的方法呈现出两全其美的效果:它以3D高斯形式推断出可解释的3D场景表示,同时与光场变压器相比,渲染速度加快了三个数量级。

3、方法

1)给定一对图像及相机参数,可推断出底层场景的三维高斯表示,可以渲染产生看不见的视点的图像。方法包括一个双视图图像编码器(解决尺度模糊性)和一个像素对齐的高斯预测模块。


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-2831

2)双视图图像编码器,论文使用两张图像进行新视角合成,将两个参考视图表示 为I1和 I2 。对I1中的每个像素,利用I2来中对应的外极线,来标注I1相应的深度。深度值是根据I1和 I2 的相机位姿计算出来的 。编码器通过外极注意力(epipolar attention)找到每个像素的对应关系,并记忆该像素的相应深度。如果在 I2 中没有对应的像素的深度,则通过每幅图像的自注意来修复。合成新视角基本都需要补充信息,常见的是加入深度信息,本文也是通过两幅图像计算出深度信息作为补充  


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-6539

3)在两个不同的视图(图像)中捕获(投影)时,如何使用三角测量来计算点 (X) 的深度。在此图中,C1 和 C2 分别是左右摄像头的已知 3D 位置。x1 是左相机捕获的 3D 点 X 图像,x2 是右相机捕获的 X 图像。x1 和 x2 称为对应点,因为它们是同一 3D 点的投影。我们使用 x1 和 C1 找到 L1,使用 x2 和 C2 找到 L2。因此,我们可以使用三角测量来找到 X,


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-4050

4)像素对齐的高斯预测模块,提出了像素对齐高斯函数的概率预测。对于输入特征图中的每个像素特征F[u],神经网络f预测高斯原语参数Σ和s,高斯位置µ和不透明度α不能直接预测,这将导致局部最小值。相反,f预测深度pϕ(z)上的每像素离散概率分布,由φ参数化。然后采样产生高斯基元的位置。每个高斯的不透明度被设置为采样深度桶的概率。最后一组高斯原语可以使用3DGS飞溅算法从新的视图中渲染出来。


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-349

5)像素对齐高斯的概率预测,需要:深度桶b∈RZ,像素坐标u处的特征F[u],参考视图的相机原点o,射线方向du。1、预测深度概率φ和偏置δ,协方差Σ,球谐波系数S,2、样本深度桶指数z从离散概率分布参数化的φ,3、通过解投影计算高斯平均值µ,深度bz由桶偏移量δz调整,4、根据采样深度的概率设置高斯不透明度α


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-3251

4、实验

1)和其他方法的性能对比


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-8809

2)和其他方法的可视化对比


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-1966

3)消融实验


pixelSplat:用于可扩展3D重建的图像对的3D高斯splat(CVPR2024)-3818


路过

雷人

握手

鲜花

鸡蛋
《微软模拟飞行2024》主要优势在于对本地存储空间要求较小,只需要50GB,推荐配置里32GB的内存要求也不过分,但是最佳配置里要求64GB内存可是要比绝大部分玩家的PC要高得多。
2024-11-19 21:12

返回顶部