泛化NeRF系列:IBRNet 学习基于多视点图像的绘制
1摘要
作者提出了一种通过插值法来利用稀疏的邻近视点集来合成复杂场景的新视点的方法。这种方法的核心是一个网络架构,它包括一个多层感知器(MLP)和一个光线转换器(Ray transformer),它可以估计连续5D位置(3D空间位置xxx和2D观察方向ddd)的颜色值ccc和体积密度σσσ,从多个源视图中动态绘制外观信息。通过在渲染时绘制源视图,作者采用了一些基于图像的渲染(IBR)的经典工作中的方法,并可以以此渲染高分辨率的图像。与优化每个场景的渲染函数的NeRF不同,我们学习了一种通用的视图插值函数,该函数适用于新的场景。我们使用经典的体绘制来渲染图像,这是完全可微分的,并且允许使用多视角姿态图像作为监督来进行训练。实验表明,文中的方法比最近寻求推广到新场景的新的视图合成方法性能更好。此外,如果对每个场景进行微调(fine-tune),文中的方法与最先进的单场景神经渲染方法具有竞争力。
2论文创新点
IBRNet是完全可微分的,因此可以训练一个从多视角图像学习的端到端的网络框架。经过实验表明,经过在大量的数据集中学习训练,IBRNet可以生成包含复杂的几何和材质的高质量的未知视角的图像。总的来说,本篇论文的创新点如下:
(1)提出了一种新的基于机器学习的多视点图像绘制方法,该方法在新场景下的绘制性能优于现有的单视点合成方法。
(2)提出了一种名为IBRNet的新模型架构,它能够从多个视图预测连续空间中的颜色和密度。
(3)经过对单个场景的微调,其性能可与仅为单个场景重建设计的最先进的新视图合成方法相媲美。
3网络框架
整体的网络框架由两部分构成,第一部分是一个NeRF网络的MLP用于读入空间信息输出颜色值和体密度特征,第二部分是一个Ray Transformer用于读入光线上的所有采样点的体密度特征,输出体密度序列。之后,和NeRF一样,通过体渲染的方法得到图像的颜色信息与真实值进行计算比较,得到RenderingLoss再反向传播训练网络。
整个数据的详细处理流程如下:首先输入从所有的源图像中提取到的二维图像特征{f1,f2,...,fNf_1,f_2,...,f_Nf1,f2,...,fN}输入到一个类似PointNet的MLP中,用以聚合局部和全局信息,得到多视图的感知特征特征{f1′,f2′,...,fN′f^{'}_1,f^{'}_2,...,f^{'}_Nf1′,f2′,...,fN′}和池化权重{w1,w2,....wNw_1,w_2,....w_Nw1,w2,....wN},利用这感知特征和池化权重,可以得到每个采样点的密度特征fσf_σfσ,文中并没有直接使用得到的密度特征fσf_σfσ进行体渲染,而是将一条光线上的所有采样点对应的密度特征fσf_σfσ输入到了一个RayTrasformer里面进行聚合,这样的好处是能够进行更大范围的几何推理,并提高更准确的密度预测精度。对于颜色值预测,是将密度特征fσf_σfσ和查询射线相对于所有源图像的相对方向连接起来,并预测一组混合权重,最后输出对应的加权平均值,得到颜色值。
4实验结果![](/assets/blank.gif)
项目主页
论文代码
论文链接
泛化NeRF系列:IBRNet 学习基于多视点图像的绘制相关推荐
- 小白菜的opencv学习(3)在图像上绘制和写字
小白菜的opencv学习(3)在图像上绘制和写字 我们知道,机器视觉在识别后最直接观察的办法就是画出来,把人物.图形描述出来.今天就学习如何在图像上绘制和写字.文章最后会尝试在摄像头采集的视频中绘制写 ...
- IBRNet:基于IBR的NeRF
IBRNet: Learning Multi-View Image-Based Rendering 针对问题:使NeRF具有泛化能力 如何做:主要还是针对颜色和密度的预测进行改进(三维重建部分),和N ...
- 基于C++的ITK图像分割与配准学习笔记1(图像数据表达-图像)
ITK学习参考资料整理汇总(包含 ItkSoftwareGuide.PDF英文版.ItkSoftwareGuide-2.4.0-中文版.医学图像分割与配准(1ITK初步分册) (1)PDF. 医学图像 ...
- 半监督分类算法_基于同质区和迁移学习的高光谱图像半监督分类
作 者 信 息 赵婵娟,周绍光,丁 倩,刘丽丽 (河海大学 地球科学与工程学院,江苏 南京 211100) " [摘要]针对高光谱遥感图像分类中标记样本难获取的问题,提出了一种基于同质区和迁 ...
- 基于InceptionV3深度学习实现岩石图像智能识别与分类
基于InceptionV3深度学习实现岩石图像智能识别与分类 文章目录 基于InceptionV3深度学习实现岩石图像智能识别与分类 总体流程 数据预处理 构建InceptionV3模型 训练.保存模 ...
- 自动驾驶采标系列三:基于图像的目标检测技术
标注猿的第54篇原创 一个用数据视角看AI世界的标注猿 上一篇文章我们从"环境感知"数据的采集设备上进行了详细说明,已经了解了相应设备采集的数据及采集前 ...
- opencv-python教程学习系列2-读取/显示/保存图像
前言 opencv-python教程学习系列记录学习python-opencv过程的点滴,本文主要介绍图像的读取.显示以及保存,坚持学习,共同进步. 系列教程参照OpenCV-Python中文教程: ...
- 目标检测YOLO实战应用案例100讲-基于深度学习的航拍图像YOLOv5目标检测研究及应用(论文篇)
目录 基于深度学习的航拍图像目标检测研究 航拍图像目标检测 评价指标与数据集
- 基于可解释人工智能和深度学习的组织病理学图像中的副结核病诊断;用于恶意软件检测的安全稳健的认知系统设计;带有涂鸦注释的弱监督伪装对象检测;Time Majority Voting:一种面向非专家用户的
可解释的机器学习 中文标题:基于可解释人工智能和深度学习的组织病理学图像中的副结核病诊断 英文标题:Diagnosis of Paratuberculosis in Histopathological ...
最新文章
- class反编译成java_Spring Tools Suite(STS)安装反编译插件
- LINUX下PHP使用PDO访问MYSQL的连接设置注意事项
- JQuery选择器一般方法
- Dos批处理常用命令大全扫盲篇
- 初学Java你有这些疑惑吗?本文给你几个建议
- LinbDesk --- 新的extjs4.2 desktop demo : 技术交流Q群:336584192
- 再见 Spring Task,这个定时任务框架真香!
- Python shutil文件操作、文件夹操作
- 简单网络管理协议SNMP
- fatal python error: aborted_Python中logging模块
- Spring Web MVC(二)
- Spring xml文件配置——创建bean的三种方式及作用范围、生命周期
- Python爬取天堂网图片
- mysql update无效_Mysql update记录无效如何解决
- python正则表达式提取电话号码_用于提取电话号码的正则表达式
- ISCC2021wp
- 三级指标 主成分分析_(完整版)主成分分析法的步骤和原理
- 鼓式制动系统行业研究及十四五规划分析报告
- 《用Castor 处理XML文档》学习笔记
- Keep悦动圈竞品分析报告(1)