Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
下图Vote3Deep在KITTI上不可见点云的检测效果。
本文方法:在原生的3D特征(native 3D representation)上执行一个稀疏卷积,接着是一个ReLU非线性,它返回一个新的稀疏3D特征。这个过程可以像传统CNN一样重复和叠加,输出层预测检测分数。用NMS对重复检测进行剪枝(3D中的NMS能够更好地处理彼此背后的对象,因为3D包围框的重叠小于它们的2D投影)。
本文为每个类假设一个固定大小的边界框,这消除了回归边界框大小的需要。我们根据训练集上的百分之95的地面真实边界框大小为每个类别选择3D边界框尺寸。
———————————————————————————————————————————————
在2D稀疏上投票过程(没有偏置):投票权重是通过在每个维度上翻转卷积权重得到的。投票过程只需要在每个非零的位置应用来计算相同的结果。Vote3Deep将投票过程应用于带有多个特征图的3D输入,而不是单一特征的2D网格。
该算法的基本思想是让每个非零输入特征向量根据滤波器的权值向其在输出层的周围格子投一组选票,这些选票由滤波器的感受野定义。投票权重是卷积核沿每个空间维度翻转获得的。最后的卷积结果是通过对每个输出单元的投票进行累加得到的
稀疏卷积需要grid中的值不为0
中心点对称卷积
———————————————————————————————————————————————
此图表明,多层次堆叠比baseline要高,并且很重要的一点,增加了模型的复杂性,对精准性提高很大。这些较大的模型可能没有得到充分的正则化。另一种可能的解释是,3D数据的易用性使得即使是相对较小的模型也能捕捉到输入特征中的大部分变化,从而为解决任务提供信息。
由上图可知,kernel-size大小和filter个数并不会很大地提高精度,所以本文选择8个3x3x3的kernel。因为汽车的大小和行人在真是世界中大小不一样,所以汽车需要一个大的kernel去获得大的感受野,但是因为是并行部署的,所以检测速度最好一样,所以汽车用的model-b,别的用的model-d,精度如图所示。
Vote3Deep是最好的,相较于其他两个模型
我们还将Vote3Deep与表中同时使用点云和图像数据的方法进行了比较。自行车精度提升最大,原因可能是因为与行人和汽车相比,骑自行车的人在3D中拥有更独特的形状,而行人和汽车更容易被认为是与杆或垂直面混淆
我们逐帧检测,200帧取均值和标准差,l1能有效的提升检测速度,但是数值太大,训练直接None了。car的速度提升最快,本文预测,中间层数量的减少和更大的感受野都有助于模型学习更稀疏但仍然具有高信息量。
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks相关推荐
- FAST AND HIGH-QUALITY SINGING VOICE SYNTHESIS SYSTEM BASED ON CONVOLUTIONAL NEURAL NETWORKS
摘要 本文介绍了基于卷积神经网络(CNN)的歌声合成.当前提出的基于深度神经网络(DNN)的唱歌声音合成系统,并且改善合成唱歌声音的自然性.由于歌声代表着丰富的表达形式,因此需要一种强大的技术来准确地 ...
- 论文阅读 End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds
[论文阅读] End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds 原文链接:https://arxiv ...
- 目标检测--A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection ECCV2016 https://g ...
- Receptive Field Block Net for Accurate and Fast Object Detection(RFB)
Receptive Field Block Net for Accurate and Fast Object Detection(RFB) paper code Abstract 受人类视觉系统感受野 ...
- Receptive Field Block Net for Accurate and Fast Object Detection
Receptive Field Block Net for Accurate and Fast Object Detection 作者:Songtao Liu, Di Huang*, and Yunh ...
- 论文解读 Receptive Field Block Net for Accurate and Fast Object Detection
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 PDF全 ...
- 论文阅读:Multi-view Convolutional Neural Networks for 3D Shape Recognition
Preface 今天阅读一篇ICCV2015的论文:<Multi-view Convolutional Neural Networks for 3D Shape Recognition>, ...
- 基于CNN的动态手势识别:Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks
Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks论文解读 1. 概述 2. ...
- Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering论文解读( and code)
<Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering> 提供了已实现的GCN,并且 ...
最新文章
- A - Expanding Rods POJ - 1905(二分)
- 10g启动归档模式及报ORA-00265错处理
- [YTU]_2866(结构体---点坐标结构体)
- php session mysql_php session mysql存储
- 源码分享,送你一份Google Python class源码
- vue获取div中的值_一篇文章看懂Vue.js的11种传值通信方式
- 一般向量空间的基变换_MIT—线性代数笔记30 线性变换及对应矩阵
- js 跳转传递汉字参数
- 百度否认退市;微信官方回应「个人影响度报告」;微软公布 C# 9.0 计划 | 极客头条...
- 使用音频转换器怎么转换电影的格式?
- python识别数字程序_Python识别处理照片中的条形码
- Android实现边录音边播放
- [随想感悟] 申论到底是什么 写好申论的要点
- win10自带计算机应用恢复,win10重置电脑后怎么恢复应用_win10重置后恢复软件的方法...
- oracle中锁机制,Oracle锁的基本机制
- 通过手机使用广域网访问局域网的服务器
- Linux配置SSH服务器
- 中国作家维权联盟向苹果和百度发出律师函
- Cocoapod方式引入百川SDK -报错[!] Unable to find a specification for `xxx`
- 【iOS逆向】某App的算法分析