2023视觉3D量产元年？最新视觉3D检测综述一览前沿进展！

摘要

准确、鲁棒的感知系统是理解自动驾驶和机器人的周边环境的关键。自动驾驶需要目标的3D信息，包括目标的位置和姿态，以清楚地了解驾驶环境。相机传感器因其丰富的颜色和纹理以及低廉的价格而广泛应用于自动驾驶。相机的主要问题是缺乏3D信息，而这些信息是了解3D驾驶环境所必需的。此外，目标的尺度变化和遮挡使得3D目标检测更具挑战性。已经发表了许多基于深度学习的方法，例如深度估计，以解决3D信息的缺乏。本综述介绍了图像3D目标检测3D目标框编码技术和评估指标。根据用于估计图像深度信息的技术，对基于图像的方法进行了分类，并在每种方法中添加了见解。然后，总结了SOTA的基于单目和双目相机的方法。作者还比较了所选3D目标检测模型的性能，并提出了3D目标检测的挑战和未来方向。

简介

自动驾驶车辆和机器人导航应该获得目标的3D信息，以便清楚地了解周边环境。对于完全自动驾驶，感知系统，如3D目标检测，需要在恶劣天气下工作，准确地提供关于驾驶环境的精确信息，并使高速驾驶的快速决策成为可能[1]。尽管由于深度学习(deep learning，深度学习)的快速发展，2D目标检测在计算机视觉领域已经显示出显著的性能改善，但是由于缺乏关于传感器、尺寸变化、遮挡等方面的3D信息，3D目标检测仍然是一个具有挑战性的问题。一个强大的感知系统，包括3D目标检测，有助于完全自动驾驶的发展，减少由鲁莽的人类司机造成的死亡事件。建立一个准确的感知系统来提供关于驾驶环境的精确信息，高速驾驶场景快速决策，以及在恶劣天气下工作的稳健性，对于实现完全自动驾驶的目标至关重要[1]。

不同的3D传感器可用于3D目标检测，如光检测和测距(LiDAR) ，无线电检测和测距(radar) ，深度传感器(RGB-D 相机)[2]。激光雷达传感器是测距的理想选择。它也比照相机更能抵御恶劣天气。然而，LiDAR 数据是非结构化和稀疏的，这使得 LiDAR 处理更具挑战性。此外，激光雷达用于基于颜色的检测效果很差，而且价格昂贵。雷达(radar) 是另一种测量距离和速度估计的3D传感器，适用于恶劣天气和夜间驾驶。然而，它的分辨率很低，所以基于雷达的目标检测很差。相机传感器价格低廉，色彩和纹理信息丰富。相机的主要问题是缺乏高精度的深度信息。为了解决这个问题，已经发表了不同的基于深度学习的方法。单目相机缺乏深度信息可以通过使用双目相机[3] ，[4]或运动结构来部分解决。预测双目实例分割是解决3D目标检测单目深度问题的另一种技术。此外，一些工作转换成伪 LiDAR 表示的图像，以解决缺乏深度信息[6]。

本文的主要贡献归纳如下:

对单目和双目图像的3D目标检测方法进行了深入的分析。
总结了3D目标框编码技术和目标检测评估指标。
根据深度估计技术对基于图像的3D目标检测方法进行分类。
提供了用于自动驾驶中的3D目标检测SOTA方法。

目标检测概述

目标检测分类

基于图像的3D目标检测模型使用2D目标检测作为基础模型，并使用不同的技术，如回归，以扩展到3D目标检测。因此，作者回顾2D目标检测模型来充分理解3D目标检测。基于深度学习的一般目标检测方法可分为两大阵营: two-stage和one-stage。two-stage目标检测网络有一个感兴趣区域(ROI)网络用于生成区域proposal，随后的网络用于目标框回归和分类，如下图1所示。R-CNN [15] ，SPPNet [16] ，Fast R-CNN [17] ，Fast R-CNN [18] ，RFCN [19]和Mask R-CNN [20]是two-stage2D目标检测模型的例子。

Girshick 等[15]提出了 R-CNN，一个two-stage的2D目标检测网络，如下图2所示。

采用选择性搜索算法[21]生成2000个区域proposal(候选框) ，然后采用 CNN 模型进行特征提取。提取的特征输入到支持向量机(SVM)中，用于对区域proposal中的目标进行分类。R-CNN 的主要限制是从每幅图像冗余生成2000个边界框，增加了网络的计算负担。He等人提出了空间金字塔池化网络(SPPNet)[16] ，通过引入空间金字塔池层来克服这个问题，该层产生感兴趣区域(ROI)的固定长度表示。R-CNN 和 SPPNet 分别训练特征提取和目标框回归网络。所以，训练需要很长时间来处理。Girshick 等人提出了Fast R-CNN 检测器，通过同时训练特征提取和目标框回归网络来解决多阶段训练问题。Fast R-CNN 还使用选择性搜索算法的proposal生成。选择性搜索算法由于proposal生成的冗余性而增加了模型的计算量。因此，对于实时应用来说，FastR-CNN 的检测速度很低。为了解决这个问题，Faster R-CNN [18]使用区域proposal网络代替选择性搜索算法来生成区域proposal。许多改进是基于Faster R-CNN，如 RFCN [19] ，Mask RCNN [20] ，Light Head RCNN [22] ，特征金字塔网络(FPN)[23]等。Mask RCNN 网络将Faster R-CNN 和全卷积网络(FCN)结合在一个体系结构中，通过一个附加的二进制掩码来显示边界框中目标的像素。还有很多3D 目标检测网络，比如 Mono3D [24]。

另一方面，one-stage目标检测网络直接通过网络一次性学习类的概率和目标框坐标，而不为每幅图像生成区域proposal。下图3显示了one-stage目标检测的总体结构。

Redmon 等人开发了 You Only Look Once (YOLO)[25] ，这是第一个one-stage深度学习目标检测器。该网络使用一个单一的神经网络将图像划分为多个区域，并同时预测每个区域的边界框和类概率，如下图4所示。

YOLO 比two-stage目标检测网络快，但由于类不平衡问题(one-stage网络常见的问题) ，其精度较低。YOLO 与小目标和成群的目标检测作斗争。YOLO v2[26]通过在卷积层上添加批量归一化(BN)来改进 YOLO，将图像的分辨率从224 × 224提高到448 × 448，使用anchor 框而不是全连接的层来预测多尺度训练的目标框等。YOLO 的下一个版本[27]和[28]进一步提高了检测速度并解决了准确性瓶颈。同样，Liu等人提出一个单目多框检测器(SSD)[29] ，这是一个one-stage的检测网络，通过引入纵横比和多尺度特征映射来检测多尺度的目标，改善了 YOLO [25]的精度瓶颈和小目标检测问题。然后，Lin 等人介绍了 RetinaNet，通过引入Focal loss作为分类损失函数来改善one-stage目标检测。该网络的精确度可与two-stage目标检测相媲美，同时保持了高检测速度。zhao等人提出了 M2det [31] ，这是一个多级特征金字塔网络，可以构建多尺度和多级特征，有助于检测不同尺度的目标。zhang等人介绍了一种RefineDet[32] ，以进一步提高one-stage测量的准确性。Movi-3D [33] ，[34]和 AutoShape [35]是图像3D one-stage目标检测网络。

one-stage目标检测网络速度快，但由于类不平衡问题，其检测精度低于two-stage检测器。另一方面，two-stage检测器比one-stage检测器速度慢，但具有更高的检测精度。RPN 减少了two-stage检测器的冗余检测。然而，one-stage检测器直接在无 RPN 的单pass中检测类概率和目标框估计，因此冗余度降低了检测精度。

3D 目标框编码

使用透视投影，可以从2D 目标框中估计出3D 目标框。有四种常用的3D 目标框编码技术: 8-角法[36] ，4-角-2-高法[37] ，轴对齐3D 中心偏移法[38]和七参数法[39] ，[40] ，如下图5所示。

Mousavian 等[38]提出了一种轴对齐的3D 中心偏移3D 目标框编码技术，它结合了深度学习和几何约束。由其中心，γ，所描述的3D边界框，尺寸，，，方向θ，，α ，其中θ，，α，，，表示设置的方位角、仰角、仰角、翻转角度、高度、宽度和长度分别代表方位角、仰角、翻滚角、高度、宽度和长度。仰角和翻滚角被认为是零。因此，作者可以将3D边界框表示为，γ，，，，，θ。8角框编码方法[36]从3D proposals的八个角（∆x0，···，∆x7，∆y0，··，Δy7，∆z0，···，∆z7）回归定向3D框，这是一种24-D矢量表示。然后，Ku 等[37]开发了4个角和两个高度，代表了顶部和底部角与地面的偏移量。这两个高度是由传感器高度确定的。因此，3D 边界框的表示形式为(∆ x1...∆ x4，∆ y1... ∆ y4，∆ h1，∆ h2)。虽然8角编码方法给出了比轴对齐方法更好的结果，但它没有考虑3D 目标框的物理约束[36]。因此，它强制边界框的顶部角与底部角对齐。4角和二高编码技术解决了这个问题，增加角和高度偏移从地面上提出的目标框和真值框之间的平面。voxelnet [39]和 SECOND [40]采用了7点 3D目标框编码技术。这七个点是(x，y，z，w，l，h，θ) ，其中 x，y 和 z 是中心坐标; w，l 和 h 分别是宽度，长度和高度。θ是绕 Z 轴的偏航旋转角度。仰角和翻滚角被认为是零。这种编码方法进一步被点柱[41] ，WCNN3D [42]和单目3d [24]采用。这种技术被广泛应用于3D目标检测。真值与anchor 之间使用7点技术的回归操作可以定义为:

gt 和 a 分别表示真值和anchor 框。是anchor 框的对角线。

能量最小化方法使用不同的3D 目标框编码技术。例如，Mono3D [43] ，3DOP [44]和 DeepStereoOP [4]将3D 边界框表示为(x，y，z，θ，c，t) ，其中(x，y，z)和 θ 分别表示3D 边界框的中心和方位角。C 表示目标类，如汽车和行人，t 表示从训练数据中学习到的一组3D 框模板，它显示了每个类的物理大小变化。

目标检测的评估指标

一个常用的目标检测评估指标是平均精度(AP)[45] ，这是每个目标类别在不同召回情况下的平均检测精度。平均-平均精度(mAP)被用来作为整体目标类别性能比较的最终评价指标。利用预测值与真值目标框之间的几何重叠(IOU 阈值)来衡量目标定位精度。IOU 的图形表示如图6所示(黄色区域表示预测框和真值边界框的交集，而绿色区域表示两者的并集)。

下面公式显示了 IOU 的数学表达式。具有代表性的阈值可能因目标而异。例如，在 KITTI [45]数据集中，汽车的3D 边界框需要0.7的IoU，行人和骑自行车者需要0.5的IoU。

是预测的边界框，是真值边界框。此外，F1得分和精确-召回曲线被用作分类的评价指标。精度显示真正的正样本的比率总数据集的实际值，而召回揭示的比率真正的正样本的预测值。精确召回的平衡对于平均精度(AP)和 mAP 具有重要意义。AP 通过对 R 等间隔的召回级别的平均精度来近似 Precision/Recall 曲线形状[46]。

对于 KITTI 数据集，计算了11个等间隔的召回水平[46] ，[47] ，即 R11 = (0,0.1,0.2，... ，1)。当召回间隔为零时，正确匹配的预测在底部召回bin中给出100% 的精度[46]。定义插值函数 ρinterp (r)为:

其中 ρ (r)是召回 r 的精度。在召回大于或等于 r 时的最大精度值被考虑，而不是每个点 r 的整个观测精度值的平均值。

mAP计算了11个召回点的总体性能评估。一些工程，如 MonoPair，[48]和[46] ，计算 mAP 使用41点而不是11个召回点，而是平均40(1/40,2/40,3/40，... ，1) 份，没有零召回点，这样在最低的召回bin可消除故障[46]。其他常见的性能评估指标是 AP3D 指标，平均方向相似度(AOS)指标[45] ，以及鸟瞰图表示的定位指标()[36]。AOS 通过加权估计方向和真值方向之间的余弦距离来衡量3D方向和检测性能。

其中 r = TP/( TP + FN) ，是基于 PASCAL [47]数据集的召回。TP 是真正例，FN 是假反例。召回 r 处的方向相似度∈[0,1]，被余弦距离归一化。

其中 D (r)表示所有目标检测的召回率 r 的集合，而 θ 是检测的估计方向和真值方向之间的角度差异 i 和 δ (i)项惩罚多个检测。

另一方面，nuScenes [49] AP 方法通过阈值化地平面上的2D 中心距离 d 而不是 IOU 来定义匹配。这有助于解耦目标大小和方向对检测的影响。

其中 D = {0.5,1,2,4} m，C 是类的集合。对于 nuScenes 数据集，他们为与真值框匹配的每个预测量一组真正的正样本(TP)。然后，对于每个 TP，计算整个类的平均 TP (mTP)。

最后计算了 nuScenes 检测得分(NDS)。

nuScenes 检测评分是 nuScenes 数据集的评价指标。

Waymo 开放数据集[51]使用了一个3D目标检测评估指标，即 APH，通过将朝向信息整合到一般的评估指标中，比如 AP。

其中 p (r)是精度/召回曲线。此外，h(r)的计算类似于 p(r) ，但是每个真正的正样本都由朝向精度加权，其可以定义为 θθ，πθθπ，其中 θ 和 θ 分别是预测的朝向和以弧度（[-π，π]内）为单位的真值朝向 (详见 Waymo 开放数据集[51])。大多数自有数据集遵循 KITTI 或 nuScenes 评估度量。

图像3D目标检测方法和各种方法的比较

基于图像的目标检测方法使用图像作为输入。在这一部分中，作者回顾了基于单目图像和双目图像的方法。2D 目标检测已经在很多应用中成功实现，但是对于自动驾驶应用来说还不够。自动驾驶车辆必须清楚了解驾驶环境，才能可靠地驾驶。由于缺乏准确的深度信息，3D目标检测对于基于图像的方法来说更具挑战性。人们提出了不同的深度估计方法来从2D图像检测3D目标。其中一些方法使用two-stage的目标检测方法，首先生成目标proposal，然后对3D边界框检测和分类进行回归。经典的目标检测方法使用手工制作的方法来生成2D 框proposal[52]-[55]。其他人则利用深度神经网络的能力，从图像中学习复杂的特征，从而生成2D 框proposal[56] ，[57]。类似地，框型proposal可以由几何约束[38] ，[58] ，Pseudo-LiDAR [50] ，[59]或双目深度估计[3] ，[43]产生。

由于缺乏深度信息，基于图像的3D目标检测更具挑战性。大多数深度估计技术可以分为伪激光雷达，双目图像，或几何约束为基础，如目标的形状和关键点，以估计深度。伪 LiDAR 方法从图像中生成点云数据，并使用基于3D LiDAR 的方法进行检测。虽然这些方法的性能优于纯图像方法，但由于图像-LiDAR 生成误差的影响，其精度仍然低于基于 LiDAR 的方法。基于双目图像的方法利用左右图像的视差来估计深度。这些方法也比单一图像方法提高了3D目标检测的性能。有些工作还通过生成虚拟图像，从单个图像生成双目图像，其性能优于单个图像的方法。其他工作使用几何约束来估计单幅图像的深度信息。

伪激光雷达方法

一些工作将单目或双目图像转换成激光雷达表示，称为Pseudo-LiDAR，以解决缺乏深度信息的问题，如[6] ，[24] ，[50] ，[59]-[61]。伪激光雷达是一种通过预测每个图像像素的深度来表示图像的激光雷达，称为深度图。通过将单目图像转换为激光雷达表示((Pseudo-LiDAR) ，Wang等人发现数据的表示起到了很大的作用，而不是3D目标检测上数据的质量。使用金字塔双目匹配网络(PSMNet)[62] ，DISPNET [63]和 SPS-STEREO [64]进行双目深度估计，但使用 DORN [65]作为单目深度估计器。然后，将深度图投影到3D点云中，通过模拟 LiDAR 信号产生伪 LiDAR，如下图7所示。

基于 LiDAR 的检测器可以直接处理伪 LiDAR 数据。实验采用 AVOD [66]和 Frustum PointNet [67]基于 LiDAR 的模型。在 KITTI [45]数据集上的实验结果表明，伪激光雷达表示对于3D目标检测来说比仅仅是图像的实现更为充分。

同样，Ma 等[59]将 RGB 图像转换为伪 LiDAR，并使用 pointNet 作为骨干网络来获取目标的每个感兴趣区域(ROI)的3D 位置，尺寸和方向。该模型由3D数据生成和框估计阶段组成，如下图8所示。

在第一阶段，使用两个深层 CNN 骨干生成2D检测和点云表示。在第二阶段，设计了两个模块用于背景点的分割和 RGB 信息的聚合，以提高检测性能。然后，使用 PointNet 作为骨干网络，预测每个 ROI 的3D 位置、尺寸和方向。提出的多模态特征融合模块还用于融合互补的 RGB 图像线索和生成的点云，以提高性能。Xu和Chen[68]开发了一个基于融合的3D目标检测模型，通过基于单目图像估计目标类别、2D位置、方向、维度和3D位置。他们使用 MultiBin [38]体系结构来获取3D 目标的姿态，然后计算点云表示。估计的深度被编码为一个前视特征，并与 RGB 图像融合，以改善输入。最后，将从原始输入中提取的特征与点云相结合，提高了检测性能。虽然将图像转换为伪 LIDAR 需要额外的处理，但伪 LIDAR 方法显著提高了单一图像方法的性能。

Weng 和 Kitani [24]利用 DORN [65]作为单目深度估计器，提出了一种基于伪激光雷达表示的two-stage检测网络。他们使用实例掩码2D proposal而不是边界框来减少点云中不属于目标的点的数量。他们用扩展的two-stage 3D LiDAR 检测算法 Frustum PointNets 训练网络[67]。提出的2D-3D目标框一致性约束，以降低伪激光雷达表示中的噪声，并处理局部失调问题。噪声实例掩模2D proposal表示和2D-3D 目标框一致性约束分别比[50]和[68]提高了6% 和21.2% 。类似地，OCM3D [69]是一个以目标为中心的单目3D 目标检测模型，旨在通过为每个目标建立体素来降低伪激光雷达数据的噪声级别。3D空间点的分布自适应地确定体素的大小，并允许点云的噪声有效地组织在体素网格中。该模型的性能优于以前的模型，例如 KITTI [45]数据集上的 RTM3D [70]。

Chong 等人提出了一种单目3D 目标检测模型—— Monodistill。将激光雷达数据投影到图像平面，然后在激光雷达网3D检测器上进行训练。最后，利用 LIDAR 网络作为教师网络，对基线单目模型进行知识提取。在 KITTI [45]数据集上的实验结果表明，该方法提高了基本模型的性能。Reading 等[72]提出了一种针对单目3D 目标检测的分类深度分布网络(CDDN)。平台特征网络将图像信息投影到3D空间中，构造平台特征网格。然后，pointpillars[41]检测头执行3D目标检测。该模型使用了 KITTI [45]和 Waymo[51]实验数据集。Vianney 等[61]提出了一个有监督和无监督的预处理方案，在输入3D目标检测网络之前，从深度图生成精确的伪激光雷达数据。Qian等[60]提出了一个基于可微变化表示(CoR)网络的端到端框架来训练深度估计和3D目标检测。

为了提高检测性能，一些方法将双目图像转换为伪 LiDAR 表示。Zhou 等人提出了 SGM3D [73]模型，该模型利用双目表示来提高单目3D 目标检测的性能。作者使用预先训练的双目匹配模型 PSMNet [62]进行深度学习。根据估计的深度和相机的直觉，像素被转换成3D伪点云。提出了一种多粒度特征对齐(MG-FA)模块，用于获得一致的中间特征表示和基于双目视觉和单目视觉的输出之间的预测。本文还引入了一种基于 IOU 匹配的对齐(IOU-MA)模块，以减少双目预测和单目预测之间的不匹配。在 KITTI [45]和 Lyft [74]数据集上的实验结果显示了性能改进。Pseudo-LiDAR++ [6]是一种使用双目深度估计网络而非视差估计的端到端深度学习方法。基于图的深度校正算法将学习到的密集双目深度和稀疏的激光雷达信号连接起来，用于进一步的深度细化。结果改善了3D 目标检测，尤其是远距离目标检测。

Chen等人从双目图像中提出了 Disp R-CNN 3D目标检测模型，该模型分为三个阶段。在第一阶段，mask R-CNN [20]检测图像的2D边界框和实例分割。实例视差估计网络(iDisNet)在第二阶段估计实例视差图。最后，从实例视差图中生成一个实例点云，作为对检测头进行3D目标框回归的输入。在 KITTI [45]数据集上的实验结果显示了一个有希望的结果。

将单目或双目图像转换为伪激光雷达，比纯图像方法提高了3D目标检测，但由于图像到激光雷达转换的误差，其性能低于基于激光雷达的方法。因此，虽然将图像数据转换成伪激光雷达表示需要额外的处理，但是当激光雷达数据不容易获得时，这是一个很好的选择。

双目图像方法

这些方法从双目图像产生深度[3]-[5] ，[43] ，[76]-[79]。Mono3D [43]使用双目图像来估计深度，并通过编码目标大小先验，地平面，各种深度信息特征，点云密度和与地面的距离来生成3D 目标框目标proposal。这个问题被表述为一个能量最小化函数，并且马尔可夫网络(MRF)被用来为proposal生成的3D边界框打分。使用Fast R-CNN [17]来预测类proposal，并使用顶部目标候选目标来估计目标的方向。Chen 等[44]扩展了以前的工作[43] ，通过假设目标应该在地面上并且只使用单一的单目图像来产生具有非常高召回率的各种 IOU 阈值的类别特定的3D 目标proposal(3DOP)。它们使用语义和目标实例分割、上下文、形状特征和位置先验来评分3D 边界框，如下图9所示。

3DOP 的局限性在于它应该为每个目标类单独运行以实现高召回率。由于生成了许多目标proposal，此操作增加了处理时间。为了克服这个问题，Pham 和 Jeon [4]引入了一个proposal重新排序算法 DeepStereoOP，以重新排序生成的3D 目标proposal。该算法仅使用少量候选proposal就可以实现高召回率和良好的定位。two-stream CNN 算法使用 RGB 特征、深度特征、视差图和到地面的距离来重新排列排名靠前的候选proposal。结果表明，DeepStereoOP 算法优于 Mono3D [44]算法，能以较少的proposal获得较高的召回率。

Chen 等[3]提出了一种利用双目图像和上下文信息的proposal生成算法。3D 目标proposals是使用能量最小化函数生成的，该函数编码目标大小先验、地平面信息和深度信息特征，如free space、点云密度和到地面的距离。CNN 评分网络使用外观，深度和上下文信息来预测3D目标的proposal和姿态同时进行。结果优于以前在 KITTI 数据集上的工作，如[4]和[44]。Konigshof 等人提出了利用双目图像和目标检测语义信息的3D图像处理方法。语义图和可选的边界框proposal是使用 ResNet38[81]从左图生成的。该模型在 KITTI [45]数据集上进行了训练和测试。Li和Chen提出了 S3D-RCNN [82] ，一个two-stage的联合双目3D目标检测和形状估计模型，只需要一对双目 RGB 图像。作者提出了一种将目标姿态估计与目标形状解耦的全局-局部框架。该模型在 KITTI [45]数据集上显示了显著的性能改进。

Li 等人开发了一种扩展的基于Faster R-CNN 的3D目标检测方法 Stereo R-CNN，通过双目图像中稀疏、密集、语义和几何信息同时检测和关联左右图像中的目标。在生成左右感兴趣区域(ROI)proposal后，目标类的左右 ROI 特征进行连接并回归2D 双目框、视点和3D 维度。他们预测了一个关键点，只使用左侧特征结合2D双目框进行3D框估计。Peng 等[78]提出了一个 Instance-DepthAware 模块 Ida-3d，利用实例深度感知、视差自适应和匹配cost重加权，作为3D目标框中心的深度估计方法。通道和损失加权方法是利用左右相干增强特征和削弱噪声信号的关键。

DSGN [79]是一个one-stage的端到端双目目标检测模型，共同估计深度和检测3D目标。特征提取器组件从左右图像中学习像素级和高级特征，如下图10所示。

然后生成平面扫描体和3D几何体。网络的深度估计分量估计平面扫描体积深度。最后，3D目标检测组件预测目标和边界框信息。为了改进深度估计技术，Chen 等人提出了 DSGN++ [84] ，这是 DSGN 的一个扩展版本。DSGN++ 模型的三个主要方面对 DSGN 模型进行了改进。首先，提出的深度平面扫描(DPS)模块提取深度引导的双目特征。其次，双视双目声体积(DSV)模块允许多视图特征连接，顶部视图和前视图。最后，提出的跨模态数据编辑-复制粘贴策略保证了多模态对齐，增强了前景区域在3D空间中的优势，提高了数据效率。该模型在 KITTI 数据集上进行了训练和测试。

为了提高深度估计的准确性，提出了置信引导双目3D目标检测(CG-stereo)[85]模型。该模型在深度估计阶段对前景和背景像素采用不同的解码器。利用深度估计网络输出的置信度来提高深度估计的精度。该模型的性能优于以前的模型，例如 KITTI [45]数据集上的 DSGN [79]。现有的大多数基于双目图像的深度估计技术都提供了预定义的值。当实际深度与预定义的值不匹配时，这种估计会导致错误的预测。Garg 等[86]提出了一个模型，可以估计任意深度值，而不是预定义的离散的。提出的连续视差网络(CDN)还输出一组具有概率和偏移量的离散值，将离散分布转化为连续分布进行准确的视差估计。该模型在 KITTI [45]数据集上用 Wasserstein 目标函数进行训练。CDN-SDN 应用于Pseudo-LiDAR [6]和 DSGN [79]模型。SDN 骨干网估计Pseudo-LiDAR网络的深度，而 PSMNET 的 DSGN 骨干网被 CDN 骨干网取代。

三角学习网络(TLNet)[76]使用3D anchor 来构建双目图像之间的目标级几何关联。然后，神经网络学习双目图像之间的对应关系，对anchor 附近的目标目标进行三角定位。提出了通道重加权方法，通过测量左右相干性来增强信息特征，削弱噪声信号，克服了在单3D [44]网络中生成视差图计算量大的缺点。Stereo CenterNet [77]利用双目图像中的语义和几何信息来实现双目目标检测。他们使用anchor-free 的2D框关联方法，只检测左边图像中的目标，通过预测它们之间的距离来计算左右关联。Gao等人提出了一种有效的双目几何网络(ESGN)用于3D目标检测。利用 ResNet-34[88]骨干网提取多尺度特征图。使用双目相关和重投影模块，提出的3D有效的几何感知特征生成(EGFG)模块构建多尺度双目体积的相机平台空间。然后，利用深度多尺度信息融合(多尺度 BEV 投影融合)模块生成多个3D几何感知特征。提出了一种基于深度几何感知的特征提取方法，以帮助基于 LiDAR 的检测器进行双目特征学习。在 KITTI 数据集上的实验结果表明，ESGN 模型优于 YOLOStsereo3D [89]模型。YOLOStereo3D [89]比 ESGN 模型更快，但 ESGN 通过生成3D 几何感知特征避免了相机空间中的目标失真。[90]Guo等人提出了一个基于双目的3D目标检测模型——激光雷达几何感知双目检测器(LIGAStereo)。基于 LiDAR 的模型特征用于指导双目模型的学习。直接的2D语义监督和附加的2D检测头提高了学习效率。在 KITTI [45]数据集上的实验结果表明，该模型的性能优于以前的双目模型，如 DSGN [79]。

Liu等人利用双目相机图像提出了 YOLOstereo3D [89]3D目标检测模型。作者通过12个回归参数将每个anchor 描述为，，，用于2D边界框; ，，用于左侧图像上的目标的3D中心; ，，分别对应于3D边界框的宽度，高度和长度。他们在训练期间同时应用光度失真增强[58]双目图像和随机翻转[83]。从双目图像中提取多尺度特征后，通过多尺度双目匹配与融合模块对特征进行匹配。Pseudo-LiDAR特征体网络(PLUMENet)[91]是一种基于双目图像的3D目标检测模型。利用2D卷积网络从双目图像中提取多尺度特征。然后，在3D空间中构造伪激光雷达特征体。在混合3D BEV 网络进行3D推理后，通过多任务头(占用和检测头)预测3D占用网格和目标目标框。在 KITTI [45]数据集上的实验结果表明，该模型的性能优于以前的模型，如 ZoomNet [5]。

Zhang 等[92]将 CenterNet [77]扩展为一个灵活的框架，用于单目3D 目标检测，显式地解耦被截断的目标。作者将目标深度估计表述为多种方法的不确定性引导集合，并自适应地结合不同的关键点来估计深度。在 KITTI 数据集上的实验结果表明，该模型的性能优于 RTM3D [70]和 MoVi3D [33]等模型。Chen等[93]提出了3D目标检测的伪双目3D检测方法。该虚拟视图是从每个单个图像生成的，用作与输入图像一起使用的双目图像。提出了三种虚拟视图生成方法: 图像级生成方法、特征级生成方法和特征克隆方法。提出一种基于视差的动态卷积算法，从单幅图像中自适应地滤除特征，生成虚拟图像特征。该模型在 KITTI [45]数据集上进行训练和测试。

基于双目图像的方法利用2D左右框来预测3D空间中目标的边界框。光度对齐通常用来进一步优化3D目标框位置。左右图像之间的目标级几何关联可以通过不同的技术来实现，比如3D anchors 。能量最小化函数对于生成3D 目标proposal也是至关重要的。一些基于双目图像的方法使用双目匹配和双目实例分割来匹配感兴趣区域上左右图像之间的检测，并且只对包含感兴趣目标的区域估计实例级视差。下面的方法使用双目匹配或双目实例分割来匹配检测或估计感兴趣区域的视差。

ZoomNet [5]应用自适应缩放来调整边界框的大小，并同时调整相机内参，以实现实例级的视差估计，并从每个目标实例构建点云和伪 LiDAR，而不是完整的图像。基于Pseudo-LiDAR的目标检测在远距离目标上表现不佳，因为远距离目标分辨率较低，这是由于点的数量少，难以区分双目图像之间的相对位置，以及遮挡。这种自适应缩放有助于以更大的分辨率分析远距离目标，估计更好的视差，并具有更均匀的密度点云。他们还提出像素级的部分位置，以帮助解决遮挡检测问题。同样，Pon 等[95]提出了一种以目标为中心的双目匹配网络(OC Stereo) ，它解决了与深度双目匹配方法相关的问题。他们开发了一种以目标为中心的深度表示来帮助解决条纹伪影、目标或背景像素之间的模糊性以及远近目标之间的像素不平衡问题。作者提出了一种基于感兴趣区域(ROI)双目匹配的快速2D框关联算法，该算法只考虑目标的像素，能够精确匹配左右图像的检测结果。Disp r-CNN [96]是一个实例级视差估计网络(iDisNet) ，它仅对包含感兴趣的目标而不是整个图像的区域进行视差估计，并在此之前学习类别特定的形状。此操作有助于捕捉目标边界的平滑形状和锐利边缘，从而获得更精确的3D目标检测。

基于图像的方法中缺乏深度的问题可以部分地用双目图像来解决。利用不同的技术从双目图像中生成3D目标方案。一些方法，如 TLNET [76] ，使用cost和通道重加权权来增强特征和削弱噪声。其他方法将目标方案表述为能量最小化问题。一些工作，如 DeepStereoOP [4] ，提出了一个重新排序算法，以减少冗余的proposal，只使用少数proposal。此外，上下文信息可以与双目图像一起使用，以生成proposal。

几何约束方法

这些工作通过添加额外的几何约束创建3D proposal，包括目标形状，地平面和关键点[33] ，[38] ，[44] ，[58] ，[66] ，[70] ，[94] ，[97]-[104]。Mousavian 等人提出了 Deep3DBox [38] ，一种通过结合几何约束的3D目标检测方法。采用混合离散-连续损失法估计目标的3D方向，然后结合估计的几何约束对2D目标框进行回归，得到目标的3D目标框。M3D-RPN [58]是一个针对3D 目标检测的单一端到端区域proposal网络，使用了2D 尺度和3D 深度之间的相关性。提出的深度感知卷积层提高了3D参数估计，增强了3D场景的理解。同样，Mono3d++ [97]使用了一种联合方法来预测车辆的形状和姿态，这种方法使用了一个3D 目标框和一个单个 RGB 图像的可变线框模型。无监督的单目深度，地平面约束和车辆形状优先优化损失函数。整体能量函数综合了损失、车辆形状和姿态，进一步提高了车辆的检测性能。由于车辆之间的形状差异，将损失函数与车辆形状相结合可能会限制模型的性能。有些方法使用几何推理的实例级深度估计。另一些使用关键点和几何信息相结合的深度估计。例如，MonoGRNet [94]是一个使用几何推理和实例级深度估计从单目 RGB 图像获取3D 目标检测的统一网络。该模型由2D检测、实例深度估计、3D定位和定位角估计子网络组成，如下图11所示。

该模型在 KITTI [45]数据集上进行了训练和测试。Barabanau 等[100]还开发了一种基于关键点和几何推理相结合的方法，用于从单目图像中获取3D目标。类似地，Liu 等人提出了 AutoShape [35] ，一个one-stage实时形状单目3D 目标检测模型。该模型对3D关键点及其在图像上的2D投影采用几何约束，以提高检测性能。提出的自动标注pipeline可以自动生成每个目标的形状感知的2D/3D 关键点对应。利用 KITTI [45]汽车数据集对模型进行评估。同样，Cai等人将3D目标检测任务建模为结构化多边形预测任务和深度估计任务的组合。深度估计网络利用目标的高度来估计深度，然后将其与结构化多边形相结合得到3D框。最后，在 BEV 中提出了细粒度3D目标框细化方法，以提高3D目标框的精度。

Ku 等[102]通过几何约束估计了区域proposal网络，并进一步应用回归分析了3D目标检测。SMOKE[103]结合一个单一的关键点估计与回归3D变量来预测一个单独检测到的目标的3D边界框，而不是生成2D区域proposal。Roddick 等人通过将基于图像的特征图到正交3D空间，提出了一个3D目标检测模块。正交特征将 RGB 图像转换为正交鸟瞰特征图。RTM3D [70]预测了3D目标框的九个透视关键点，建立了3D和2D点的几何关系模型，从单目图像中检测出3D目标。类似地，MoVi-3D [33]是一个one-stage的深度体系结构，它利用几何信息来生成虚拟视图，使用先前的几何知识来控制由于深度而产生的目标的尺度变化。

GS3D [98]是一个有效的模型，为每个预测的2D框得到一个粗长方体，以确定3D目标框的细化。这种方法改善了3D目标检测，比基于回归的目标框预测更好。ROI-10D [99]是一个端到端的3D目标检测网络，通过将2D提升为3D来预测六个自由度的姿态信息(旋转和平移)。损失函数测量框的度量偏差，并通过与真值3D 框的比较使误差最小化。

Ding 等人提出了一种深度引导的动态深度扩张局部卷积(D4LCN)[106]网络，其中局部滤波器使用局部应用于每个图像的每个像素和通道的深度图从每个 RGB 图像中学习特定的几何形状。一些模型，如[34] ，避免了对图像进行多次处理，通过使用 NMS 和非线性列表平方优化器生成多目标正则3D目标框参数，降低了深度神经网络的计算瓶颈。Srivastava[107]等人为自动驾驶车辆的3D目标检测开发了一种2D到3D的提升方法。他们使用生成对抗网络(GAN)从单个 RGB 图像生成 BEV 图像，进行图像到图像的转换[108] ，然后使用生成的 BEV 图像进行3D目标检测。

Garanderie 等[109]利用360全景图像为自动驾驶汽车提出了一个3D目标检测模型。这种方法对于避免驾驶过程中的盲点具有重要意义。该模型使用 CARLA [110]城市驾驶模拟器和 KITTI [45]数据集进行测试。Liu 等[111]开发了一个用于单目3D 目标检测的深度拟合评分网络。该网络使用目标的anchor 定维度和方向回归生成3D proposal。然后，他们使用一个拟合质量网络(FQNet)来理解3D方案和目标之间的空间关系，只使用2D图像。Chen 等[48]提出了一种基于对空间关系的3D目标检测方法。目标位置计算使用不确定感知预测和相邻对的3D距离。最后，采用非线性最小二乘法对系统进行联合优化。基于同样的原因，Bao等人提出了单目网络(MonoFENet [105] network) ，通过估计单目图像的视差来实现3D目标检测。下图12显示了使用单目视差估计器生成的视差图像。

然后将估计的视差转化为3D密集点云，输入点特征增强(PointFE)网络，并与图像特征融合进行最终的3D目标框回归。Bao等[113]提出了一个two-stage的目标感知的3D目标检测模型，使用区域的外观注意力和几何投影分布来投票表决3D质心的proposal。使用Faster R-CNN [18]的 RPN 生成2D区域proposal，然后根据生成的 ROI 网格坐标估计3D质心proposal。基于所提出的目标感知投票模块，包括区域外观注意和几何投影分布，对3D质心方案进行3D定位投票。最后，在不学习密集深度的情况下，基于所提出的感兴趣区域检测目标的3D目标框。Zhou 等人提出了 IAFA [114] ，这是一个实例化的特征聚合模型，用于从单个图像中获取3D目标检测。该模型收集属于同一目标的像素，以便对中心分类做出贡献，并生成一个注意力图，以聚集每个目标的有用信息。作者利用来自其他网络的粗实例标注作为监督信号，生成特征聚合注意力图。该模型是在 KITTI [45]数据集上进行训练的。

Lu 等人提出了几何不确定性投影网络(GUP Net)[115]用于单目3D 目标检测。输入图像由构建在 CenterNet [77]上的2D 检测骨干进行处理，以获得每个框的2D 目标框(ROI)和3D 目标框信息，即角度，尺寸和3D 投影中心。然后，GPU Net 将数学先验和不确定性建模相结合，预测深度信息及其相应的不确定性。提出了一种有效的分层任务学习(HTL)策略，以减少基于几何方法(错误放大)中任务依赖引起的不稳定性。误差放大导致估计深度的放大。HTL 策略控制整个训练过程，使每个任务空闲，直到其前期任务得到良好的训练。KITTI 数据集[45]的实验结果优于 MoVi-3D [33]和 RAR-net [112]等方法。

Wang 等[116]提出了一个基于图的深度条件动态信息传播(DDMP)模型，用于单目3D 目标检测。该模型包括两个分支: 回归分支和深度提取分支。回归分支接收 RGB 图像进行特征提取，深度提取分支估计相应的深度图并提取深度感知特征。提出了一种中心感知深度编码(CDE)方法，以减少深度先验不准确的问题。上下文感知和深层感知特性通过 DDMP 模块与图形消息传播模式集成。最后，3D目标框使用3D检测头实现。在 KITTI 数据集上的实验结果表明，该模型的性能优于以前的模型，如 D4LCN [106]。

有些工作采用了与上述不同的方法，通过2D图像的输入来解决3D目标问题。Liu等人提出了 RAR-Net [112] ，一个增强的轴向细化网络单目3D 目标检测模型。该模型从初始预测开始，逐步向真值细化，每一步只改变一个3D参数。采用 ε- 贪婪策略，通过选择估计报酬最高的行为来使报酬最大化，在每个行为完成后获得报酬，并通过单目3D 检测网络的精确3D 框来实现。在每个步骤中，将来自图像和3D空间的信息进行融合，然后将当前的检测结果投影到图像空间中以保存信息。这种基于强化学习的学习方法可以作为一个后处理阶段，并集成到现有的单目3D检测模型中，以提高性能，同时增加一些额外的计算开销。该模型使用 KITTI 数据集[45]进行训练，表现出良好的性能。Mehtab 等[117]提出了一种使用激光雷达和相机传感器的3D车辆检测模型。自动驾驶车辆的大小和方向的3D目标框估计的 RGB 图像，而激光雷达点云用于距离估计。作为一个图像特征提取器，作者使用了 MobileNetV2[118]。该模型在 KITTI [45]和 Waymo [51]数据集上进行了训练和测试。Simonelli 等[46]提出了单目3D目标检测的自监督损失解缠变换。这项损失将各组参数的贡献与原始损失分开计算。作者还将损失函数 IOU 应用于2D检测和3D目标框预测以及检测置信度。该模型是在 KITTI [45]数据集上进行训练的。

三种深度估计技术对2D图像进行不同的深度估计操作。Pseudo-LiDAR 方法将图像转换为 LiDAR 表示，并使用基于 LIDAR 的模型来利用 LiDAR 表示的3D 信息。另一方面，双目模型不会将图像转换成另一个域，而是从左右双目图像产生深度。几何约束方法利用附加的几何约束，包括目标形状、地平面和关键点来估计2D图像的深度信息。下表一列出了3D目标框编码技术、3D目标检测评估方法、用于实验的数据集以及每种方法的发表年份。表二显示了基于图像的3D目标检测方法在基于 KITTI [45]验证和测试数据基准上的 BEV 和3D性能比较。

挑战和未来方向

相机图像，尤其是单目图像，含有丰富的纹理和颜色信息，这些信息对于色彩相关的任务，如目标分类和车道检测是必不可少的。然而，它们并不能提供高度精确的深度信息来完全了解周围的环境。自动驾驶需要在不同的天气条件下保持强劲，但是相机会受到恶劣天气的影响。此外，在不同领域评估的深度学习模型比经过训练的表现差。作者提出了基于图像的自动驾驶 3D目标检测的挑战和未来的研究方向。

半监督学习 : 监督式学习的挑战之一是对数据进行标注，这需要时间和金钱。数据标注和标签问题可以用非监督式学习解决。然而，无监督模型的检测和分类精度低于有监督模型。这些问题的潜在解决方案是应用一个使用少量标注数据和许多未标注数据的半监督模型，以利用丰富的免费可用图像，用于不同的应用程序。一些教师学生模型，比如 Zhang 等人，属于自动驾驶的半监督3D目标检测网络。教师模型在师生模型中生成伪标签，学生模型对伪标签和标签数据集进行训练。然后，教师模型可以从学生模型中得到更新，从而得到更好的伪标签预测。这个模型主要用于2D目标检测，但3D模型上比较有限的。
多任务学习 : DL 网络的特征提取部分可以用于多个应用。因此，建立一个具有共同特征提取器/模型下层结构的多决策层模型来执行多任务可以节省时间、内存和计算能力。例如，[120]执行目标检测和分段多任务学习。期待许多多任务的学习工作。
领域自适应模型 : 当 DL 模型在不同的领域进行测试时，它们应该执行相同的/等效的操作。然而，当训练领域发生变化时，大多数 DL 模型表现不佳。域自适应模型对于自动驾驶来说是必不可少的，以避免特定国家的变化，如交通标志的变异性和拐角问题。因此，需要域自适应模型来了解驱动环境的变化并快速响应这些变化。
轻量级模型 : 自动驾驶中的 DL 模型应该满足以下三个标准[1] : 1)关于周围环境的准确信息。2)适应不同天气的工作。3)高速驾驶实时性。为了达到上述标准，DL 模型应该足够健壮，可以在不同的天气下工作，并且轻量级，可以部署在低功耗和低内存的嵌入式硬件设备上。大多数现有的3D目标检测模型并不像2D模型那样轻巧。有相对轻量级的2D目标检测模型，比如 YOLO [121]和 SSD [29] ，而不是3D目标检测模型。
多传感器融合 : 相机适用于色彩相关的检测，纹理丰富。尽管已经发表出了不同的方法来解决缺乏3D信息的问题，但是使用相机的3D目标检测还是具有挑战性的。此外，相机不能抵御恶劣天气，这使得在不同的环境天气下强劲的驾驶具有挑战性。其他传感器可以提供更好的3D 信息，如激光雷达，以及对恶劣天气(如雷达)更强的鲁棒性。因此，将相机图像与激光雷达和/或雷达融合，可以通过使用不同传感器的最佳目标检测来改善3D 图像(详细分析多传感器融合方法和不同传感器在3D 目标检测中的融合技术，请参阅[14])。
为空间信息添加时间线索 : 在现有的3D目标检测模型中，使用了包含有限信息的单帧(空间)数据。在空间信息中加入时间信息可以提高检测性能。BEVDet4D [122]在使用空间信息以外的时间信息方面显示了有希望的结果。
平衡数据集 : 大多数现有的数据集存在类不平衡问题，其中一些类有很多样本，而其他的很少。由于数据中的高维表示，大多数类在决策过程中影响模型。通过花时间和收集更多的数据为那些代表性较少的类或提出其他解决方案，如提出损失函数，[123] ，[124] ，可以尽量减少或避免类不平衡问题的影响。此外，利用模拟器生成综合数据，并利用实际数据进行训练，有助于解决类不平衡问题。

结论

这项调研提出了基于 DL 的单目和双目相机图像的自动驾驶的3D目标检测。总结了3D目标框编码方法及相应的评价指标。此外，作者亦会讨论一般的目标检测类别，包括one-stage、two-stage及深度估计方法的3D目标检测。基于伪激光雷达、双目图像和几何约束等技术对深度估计方法进行了分类。虽然使用相机图像的3D目标检测显示，由于数码相机的快速增长，其性能已有显著改善，但仍有一些问题需要解决，例如在恶劣天气或夜间驾驶时的可靠性和稳健性。相机传感器色彩丰富、质地低廉，但不能测量远距离，不能承受恶劣天气，不能直接提供3D 信息[14]、[42]、[125]。3D 传感器，如激光雷达和雷达，提供关于驾驶环境和目标的3D 信息。激光雷达在恶劣天气条件下比相机具有更强的鲁棒性，是进行远距离测量和速度估计的理想选择。然而，没有丰富的颜色和纹理。同样，雷达（Radar）是一种抗恶劣天气的鲁棒传感器，也是测距和速度估计的最佳选择，但是它的分辨率较低，给基于雷达的检测带来困难。此外，在自动驾驶过程中，传感器有可能出现故障。因此，使用多个传感器进行自动驾驶对于使用来自不同传感器的冗余数据进行可靠和稳健的驾驶，以便在恶劣天气或传感器故障条件下工作至关重要。为了提高实时处理的速度和准确性，轻量化和精确的3D目标检测模型是必不可少的。最后，提出了挑战和可能的研究方向。

参考

[1] Deep Learning-Based Image 3-D Object Detection for Autonomous Driving: Review