留个笔记自用

FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation

做什么

Scene Flow Estimation场景流预测

也就是提供两帧后估计场景中每个点的三维运动,可以理解成包含3D信息的场景配准

做了什么


这里提出了一个迭代式的步骤,没有用端到端的方法学习,而是用步骤化来细化场景流预测,然后用强正则化方法证明了解的迭代收敛性

怎么做

首先是场景流的问题定义,就像前面所说的,输入是两组点云S和T,pi∈R3∈S,qj∈R3∈T,目标是估计第一个场景下每个点的运动矢量fi∈F,使得用这个矢量移动场景中点之后,能使移动后的S和T对齐

整体结构按照问题定义设计,S和T分别是源点云和目标对齐点云,每一步的F均为平移矢量估算
然后是整体流程,首先通过一个local encoder和global encoder分别编码各自点云的全局信息和局部信息,然后构建一个核心global correlation unit全局相关模块来学习全局校准信息,这是最开始的初始化,然后用local update unit局部更新模块来再全局基础上对逐点进行局部信息更新,这里的local模块实现了迭代ICP,每步的F是由local模块进行refine输出。
首先是feature encoder部分

这里模块内的组成部分有《Flownet3d: Learning scene flow in 3d point clouds》中用到的set conv,全局模块和局部模块就是由几层这种卷积组成。

然后是初始化步骤的全局相关模块,这里输入两个全局特征,输出F1也就是逐点平移矢量的初始化

这里先用sin函数简单计算相似度,这里的h()函数就是对点的全局特征表示
然后用这个相似度得出相关矩阵

这样得到的矩阵M,每个位置(i,j)就是表示了P点云也就是S点云中点pi和Q点云也就是T点云中点qj之间的关系,一种相关对应关系
有了这个相关矩阵,就可以初步估算全局状态下的平移矢量F

简单来说,这里就可以理解成对原点p来说,目标点云每个点位置根据这个相关矩阵而进行的加权平均
至此,由全局特征得到了初始化的一个场景流结果F1
然后是局部更新模块

这个模块的输入是上一个迭代的模块输出(初始化的全局F或者迭代中的局部输出F)和源点云的local encoder
这里的理解就是使用上一步的F对原点云进行warp也就是配准的转移,然后用这个结果再进行一次feature提取,然后结合F进行对F的改进

这里的局部关系层用了《Flownet3d: Learning scene flow in 3d point clouds》中的flow embedding来提取特征
然后用GRU的方式进行迭代信息的选取

这里的x是
dlocal是warp后提取的特征,dcorr是flow embedding层得到的flow特征,dmotion视为前面迭代的流特征,这是构建了一个两层set conv得到的,也就是一个对过去信息的特征整合。
经过这个RNN部分,得到了信息保留的x特征,通过这个特征再构建一个两层set conv,得到逐点矢量变化△F

至此,就是一整个迭代步骤的过程
最后是模型的训练

整体序列的loss就是每一次迭代的LOSS Lk的整和,所以主要就是这里每次迭代的LOSS,这里构造了两种方式,自监督方式和监督方式
首先是自监督方式

这就是标准的Chamfer LOSS的写法,这里的SK就是原点云S+当前平移矢量TK得到的,这个loss就是希望转移后的点到目标点的最小距离之和最小,传统方式了
在此基础上,添加一些正则化loss

这里的L是拉普拉斯函数,定义为点x到它的邻域内点的距离之和,即当根据预测流扭曲时,强制源保持其拉普拉斯性质

然后是标准正则化LOSS

最后将这两个LOSS相加
然后是第二个方式,全监督方式


这个LOSS就比较好理解了,就是根据GT直接计算转移后的L1距离

效果


这里是用了两个数据集,FlyingThings和KITTI,分别在全监督和自监督的情况下进行的对比

总结

1.整体方法都比较好理解,一种迭代框架化的实现,这种方法能在很多领域进行范用

《论文阅读》FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation相关推荐

  1. 论文阅读:FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks

    文章目录 1. 论文总述 2. 利用CNN预测光流的另一种思路 3. 通过堆叠网络来进行光流估计优化的idea来源 4. FlyingThings3D (Things3D) dataset 5. Th ...

  2. [论文简述+翻译]Just Go with the Flow: Self-Supervised Scene Flow Estimation(CVPR 2020)

    论文简述 第一作者:Himangi Mittal 发表年份:2020 发表期刊:IEEE Conference on Computer Vision and Pattern Recognition(C ...

  3. [论文阅读:姿态识别Transformer] POET: End-to-End Trainable Multi-Instance Pose Estimation with Transformers

    [论文阅读:姿态识别&Transformer] 2103 POET: End-to-End Trainable Multi-Instance Pose Estimation with Tran ...

  4. 论文笔记-Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation

    Hello, 这是论文阅读计划的第24篇啦 今天介绍的这篇论文是CVPR 2020的论文,非监督的光流估计. 一.背景介绍 光流作为图像的运动描述,已经广泛应用于高级视频任务.得益于深度学习的发展,基 ...

  5. 论文阅读CLAM:Data-efficient and weakly supervised computational pathology on whole-slide images

                全视野数字切片(幻灯片/WSIs)图像的数据高效和弱监督的计算病理学 一.WSIs图像介绍 主要应用于病理学细胞图像领域,即组织载玻片到数字格式的转换. 每张内存大,可以放大倍 ...

  6. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)...

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

  7. 文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

    Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

  8. 论文阅读笔记-场景图谱-图谱生成:Scene Graph Generation from Objects, Phrases and Region Captions

    文章目录 摘要 引言 正文部分 Conclusionn Li Y, Ouyang W, Zhou B等. Scene Graph Generation from Objects, Phrases an ...

  9. (sketch to image) 论文阅读笔记 SketchyCOCO:Image Generation from Freehand Scene Sketches

    Task Description:根据sketch生成全景图 Input: 包含前景sketch(如上图中的斑马,长颈鹿,大象等)和背景sketch(如草-草地,白云-天空,树-森林等)的全景级fre ...

最新文章

  1. OpenGL绘制复杂图形
  2. linux脚本定时任务,使用Linux脚本执行定时任务
  3. 【渝粤教育】国家开放大学2018年秋季 0053-21T移动通信技术与移动通信设备 参考试题
  4. 循序渐进之Spring AOP(2) - 基本概念
  5. Vue动态加载组件的两类方式(import和require)
  6. 越狱完发现bigboss源是空白
  7. BUUCTF WEB DROPBOX
  8. Spring Boot 容器选择 Undertow 而不是 Tomcat Spring Boot 内嵌容器Unde
  9. oracle sysobject,SQL2000数据库提示未能读取并闩锁页 sysobjects 失败数据库修复
  10. CNVD-2022-03672/CNVD-2022-10270:向日葵简约版/向日葵个人版for Windows命令执行漏洞复现及修复建议
  11. 结构数组使用(bushi)
  12. fragment 中调用getactivity()的时候报 nullpoint错误
  13. C/C++ —— 什么是定义?什么是声明?
  14. JTAG篇(2)——FT2232H 控制 JTAG TAP
  15. input 正则控制输入
  16. 【音视频】弱网下实时视频的极限通信
  17. 苹果微信更新不了最新版本_微信最新版本可以更改微信号了!还有大量功能更新!...
  18. mysql 的delete from 子查询限制
  19. 抖音短视频SEO优化排名方法
  20. 在找工作的过程中,面试一定要经历的逻辑推理题...

热门文章

  1. 服务于期末考试的计算机硬件基础资料
  2. Axure 原型模板素材哪里下载
  3. 百度富文本编辑器(ueditor)的使用
  4. LSH(Locality Sensitive Hashing)基本思想
  5. 【渝粤教育】国家开放大学2019年春季 49法律文书 参考试题
  6. Java6、7章复习 5.4
  7. 360安全备份 android,手机里的数据怎么备份 360安全卫士备份手机数据图解
  8. 手工制作微型计算机,世界超强完美DIY 电子奇才五年全手工制作CPU
  9. 计算机中期答辩ppt讲述内容,深度学习中期答辩ppt
  10. 养老服务平台市场现状研究分析-