文章目录

  • 7.重建
    • 7.1 立体匹配
    • 7.2 多视角三维重建
    • 7.3 重建和识别

7.重建

7.1 立体匹配

  立体估计是从立体摄像机捕获的二维图像中提取三维信息的过程,不需要特殊的测距装置。特别地,立体算法通过在同一时间点拍摄的两幅图像中找到对应的位置来估计深度信息,通常是由两个相邻的摄像机安装在固定的机构上。这些对应关系是三维世界中相同物理表面的投影。深度信息对于自动驾驶或驾驶员辅助系统的应用至关重要。对稠密深度图的精确估计是三维重建的必要步骤,而许多其他问题如障碍探测、可通行区域分析和跟踪都得益于深度估计的可用性。
分类法:在文献中已经提出了用于立体匹配的多种分类法。在计算限制的引导下,最早的分类方法是根据输出视差图的密度(Franke & Joos(2000))。基于特征的方法只提供基于边缘的稀疏深度图,而基于区域的方法,如块匹配,以牺牲计算时间生成密集输出。立体算法的一种最新的常用分类是基于局部优化和全局优化。局部方法通过简单地选择匹配成本最低的点来计算视差,这被称为赢家通吃(WTA)解决方案。全局方法将视差计算作为基于相邻像素或区域间平滑假设的能量最小化框架。找到全局能量函数的最小值有很多种方法,包括连续域的变分方法和使用动态规划、图割和置信传播的离散方法。
匹配成本函数:立体匹配是一个对应问题,目标是基于成本函数来识别左右图像之间的匹配点。算法通常假设图像经过校正,搜索空间缩小为一条水平线,在这条直线上的距离编码了左右点之间的对应,定义为视差。匹配成本计算是在每个像素或所有可能的视差处计算成本函数的过程,在真正的视差处该值为最小值。然而,在实际应用中很难设计这样的代价函数,因此立体算法假设匹配点之间的外观是恒定的。这种假设在现实环境中经常被违背,例如设置稍有不同的相机会导致曝光变化、光晕变化、图像噪声、非兰博顿曲面、光照变化等。Hirschmuller & Scharstein(2007)将这些变化称为辐射测量差异,并系统地研究它们对常用的匹配成本函数的影响,即绝对差异、基于过滤的成本(LoG、Rank和Mean)、层次互信息(HMI)和规范化交叉关系。他们发现一个成本函数的性能取决于使用它的立体匹方法法。在具有模拟和真实辐射差异的图像上,基于关联方法的秩(rank)滤波效果最好。对于全局方法,在具有全局辐射测量变化或噪声的测试中,HMI的性能最好,而在存在局部辐射测量变化的情况下,秩和LoG滤波器的性能优于HMI。定性的结果表明,当使用全局方法时,基于滤波器的成本计算方法会导致模糊的对象边界。没有一项匹配成本进行评估能够成功地处理强光变化。
SGM:半全局匹配(SGM) (Hirschmuller(2008))因其速度和高精度而变得非常有影响力,这在各种基准测试中得到了证明,如Middlebury (Scharstein & Szeliski(2002))或KITTI (Geiger et al. (2012b))。SGM最近也被用在CNN的功能上,因为简单地为每个像素输出最有可能的配置,并不能与现代立体算法竞争(Zbontar & LeCun (2016);Luo等人(2016))。能量函数对小的和大的视差差异有两级惩罚,后一级根据局部强度梯度加权。能量的计算方法是采用动态规划的方法,将从多个方向到每个像素的一维路径的成本相加,并由WTA确定。对SGM的实践和理论方面进行了一些后续研究。Gehrig等人(2009)提出了SGM的实时、低功耗实现,并在可重新配置的硬件平台上为汽车应用程序提供算法扩展。Drory等人(2014)通过澄清SGM与置信传播和树型加权信息传递的关系,并以不确定性度量作为结果,为SGM的成功提供了原则性的解释。
结合立体估计的可靠性可以进一步提高SGMs的性能。Seki & Pollefeys(2016)利用CNNs预测立体估计的可信度。考虑到传统可信特征的思想,一致的相邻像素更有可能是正确的,从另一幅图像中估计的视差应该是对应的,他们设计了一个双通道视差图块作为CNN的输入。为了获得密集的视差,根据估计的置信度对每个像素进行加权,将置信度纳入SGM。
可变基线/分辨率:立体估计可以融合在一起,从而对三维场景的静态部分进行更完整的重建。然而,假设固定的基线,焦距,视场可能并不总是最好的策略。Gallup等人(2008)指出了传统立体视觉方法存在的两个问题:当距离较远时精度下降,而不必要的计算时间花费在较近的范围。鉴于在许多应用中,立体相机的视图选择非常灵活,例如从动作到结构,盖洛普et al。(2008)提出从一组可能的摄像机同时拍摄的图像中动态选择最适当的摄像机基线,以在较远的范围内准确估算距离。不仅如此,他们还降低了分辨率,加快了近距离范围的计算速度。与传统的固定基线立体视觉相比,所提出的变基线/分辨率立体视觉算法通过均匀地在整个体块中进行计算,在重建体块上获得了恒定的精度。
平面性:基于外观匹配成本的固有模糊性可以通过正则化来克服,例如将期望视差图的先验知识引入立体估计过程。最简单的先验倾向于相邻像素具有相同的视差值。然而,这种一般的平滑先验无法重建粗糙的纹理和倾斜的表面,因为它们更倾向于前面平行的平面。处理任意平滑先验的一种更通用的方法是使用超过成对对应的高阶连接。高阶先验能够表达关于深度图像的更真实的假设,但通常需要额外的计算成本。在文献中处理倾斜曲面的一种很常见的方法是假定分段平面。Geiger et al.(2010)通过在一组被称为支持点的鲁棒匹配对应点上形成三角剖分,构建了视差空间上的先验知识。这就减少了匹配的模糊性,并通过将搜索范围限制在合理的区域而得到高效的算法。Gallup等人(2010)首先训练分类器将图像分割为分段平面和非平面区域,然后只对平面区域执行分段平面先验。非平面区域通过标准多视点立体算法的输出来建模。
变分方法:类似地,在变分方法中,通常使用平滑性先验信息,全变分(TV)在弱的和模糊的观察条件下不能产生令人信服的结果,因为它激励分段常数区域会导致阶梯状结构。Haene等人(2012)以小型分段平面的形式将基于图块的先验知识引入全变分框架。总广义变分(TGV) (Bredies et al.(2010))被认为是比TV更好的先验知识,因为它不惩罚分段仿射解。然而,与TV不同,它仅限于凸数据项,在TV中,即使存在非凸数据项,也可以计算全局解。粗到细的方法作为非凸立体匹配问题的近似,通常会导致细节的丢失。为了保留细节,Kuschk & Cremers(2013)通过使用边缘检测和报告改进的结果,将自适应正则化权重集成到TGV框架中。Ranftl et al.(2013)通过将非凸泛函分解为两个子问题得到了更好的结果,这两个子问题在一个为凸的情况下可以全局解决,另一个可以通过将泛函提升到更高维度空间来解决。
最先进的算法:在表6中,我们展示了在KITTI2015基准上的立体匹方法法排名。KITTI基准测试报告了背景区域(D1-bg)、前景区域(D1-fg)和所有区域(D1-all)的错误(坏)像素百分比。Guney & Geiger(2015)使用对象知识来补偿反射和无纹理表面上的弱数据项。Seki & Pollefeys(2016)通过对立体对应可信度的预测和与SGM的集成,在背景区域取得了最好的性能。最近,深度学习方法(Zbontar & LeCun (2016);罗等人(2016);Mayer等人(2016)提出实现最先进的性能。Mayer等人(2016)提出的深度学习方法是最快的方法之一。

表6:KITTI 2015立体匹配排行榜。根据Menze & Geiger(2015)在背景(bg)、前景(fg)或所有区域中定义的3px/5%标准,数字对应坏像素的百分比。水平线以下的方法是旧的条目,作为参考。
超像素:分段平面性建模的一种替代方法是将图像明确划分为超像素区域并将每个超像素区域上的表面建模为一个倾斜的平面(Yamaguchi et al. (2012);Guney & Geiger(2015)。然而,必须注意的是,超像素化确实是图像相对于平面性的过度分割,例如没有一个超像素包含两个非共平面的表面。山口等(2012)联合推出了由连续和离散随机变量组成的混合MRF获得遮挡边界和深度信息的方法。Guney & Geiger(2015)使用了类似的框架来合并带有特定的3D形状的对象类别任务,该方法能在更远的距离范围内进行规范化。利用语义分割和3D CAD模型,解决了场景中汽车高度镜面反射和无纹理区域的模糊性,如图19所示。

图19:使用对象知识解决立体匹配的歧义。立体视觉方法在反射、无纹理或半透明表面上常常失败(top, Zbontar & LeCun(2016))。通过使用对象知识,Guney & Geiger(2015)鼓励了差异,使之与看似合理的表面(中心)一致。这在定量和定性上都改善了结果,同时恢复了场景中物体的3D几何形状(底部)。改编自Guney & Geiger(2015)。
深度学习:近年来,深度学习方法(Mayer et al., 2016);Zbontar & LeCun (2016);Luo等人(2016)在立体估计领域获得了广泛的应用。Mayer等人(2016)采用了Dosovitskiy等人(2015)提出的用于光流估计的编码器-解码器架构(见8.1节)。编码器计算抽象特征,而解码器重新建立原来的分辨率,两者之间有额外的关联结构用于连接收缩和扩大网络部分。与编码器-解码器架构相反,Zbontar & LeCun (2016);Luo等人(2016)使用Siamese网络,该网络由两个共享权重的子网络和一个最终得分计算层组成。其思想是通过学习小图像块上的相似度度量来训练网络计算匹配成本。Zbontar & LeCun(2016)将正/负示例定义为匹配和非匹配图块,并使用差额损失来训练一种采用简单的点乘积层的快速架构和一种使用全连接层来学习分数计算的缓慢但更精确的架构。Luo等人(2016)使用了类似的体系结构,但将问题表述为对所有可能的差异进行多类分类,以隐式地捕捉不同差异之间的相关性,如图20所示。

图20:立体匹配的深度学习。训练一个Siamese网络来提取每个像素的所有可能差异的边际分布。改编自罗等人(2016)。
讨论:近年来,立体估计在精度和效率方面都有了很大的进步。然而,一些固有的问题使它没有被标记为已解决。立体匹配最终是在两幅图像中基于不变表象的假设寻找对应关系。然而,外观经常会因不同于几何图形的线索而改变,此外,帧之外的像素或遮挡区域也无法匹配。因此,在这些情况下失败是不可避免的,因为这些方法完全依赖于外观匹配,而没有任何关于几何的预先假设。我们在图21中展示了KITTI 立体匹配测评Geiger等人(2012b)上的前15个方法的累积误差。在自动驾驶环境中,最常见的失败案例是汽车表面由于闪亮和反射区域。Guney & Geiger(2015)通过整合对可能的汽车形状的先验知识,具体解决了这个问题。同样,反射和透明的窗口不能可靠地匹配。Hirschmuller & Scharstein(2007)的结论是,强烈的光照变化构成了另一个常见的误差来源,比如隧道内部或路面过度曝光。离开帧和遮挡的像素常常会对许多方法造成错误,这两种方法都需要推理,而不仅仅是匹配和局部交互。其他问题区域的具体例子包括像交通标志这样的薄结构,或者像围栏这样的重复结构。

图21:KITTI 2015立体分析。发表在KITTI 2015立体匹配基准15种表现最好的立体匹方法法的累积误差。红色是根据Menze & Geiger(2015)定义的3px/5%准则,大多数方法产生不良像素的区域。黄色对应于某些方法失败的区域。所有方法正确估计的区域都是透明的。

7.2 多视角三维重建

  多视图三维重建的目标是在一定的先验或平滑假设下,通过倒转图像形成过程,对基础三维几何模型进行建模。与双视图立体视觉不同的是,多视图重建算法特别解决了不同视点的问题以及从两个以上甚至可能是大量图像中完全重建3D场景 的问题。如果已知摄像机参数,求解场景的三维几何形状就相当于求解对应问题,基于测量不同视点之间一致性的照片一致性函数。
分类:文献中已经提出了几种多视图重构算法的分类方法,通常考虑到照片一致性函数的形式、场景表示、可见性计算、先验和初始化需求,如Seitz et al.(2006)。从应用角度来看,场景表示是一种常见方法,将多视图重构方法分为深度图、点云、网格和体块。
表示:深度图:深度图表示通常包括每个输入视图的深度映射,通过3D建模流程进行估计,首先进行图像匹配,然后进行姿态估计和稠密立体匹配。这种表示在场景分析中通常是首选的,因为它具有对大场景的灵活性和可伸缩性。对城市场景特别有效的一种策略是平面扫描立体算法(Collins(1996))。它扫描一个场景中的一系列平行平面,通过平面同质性将图像投射到平面上,然后评估每个平面上的照片一致性值。在大型场景中,挑战之一是实时处理大量数据。Pollefeys(2008)提出了一种基于深度地图表示的大规模实时三维重建系统。实时性能是通过结合一组在典型城市场景上特别有效的组件来实现的,例如一个2D特征跟踪器,它具有自动增益调整功能,可以在自然场景中处理大的动态范围,以及在GPU上并行实现平面扫描立体和深度地图融合。
表示:点云:与每个视图的部分深度图不同,基于点云或图块的表面表示使用所有输入图像重建单个3D点云模型。在空间一致性假设下,场景表面的点云可以增长或扩展,从而提供简单的模型操作,如合并和分割。这类方法的代表作品是Furukawa & Ponce(2010)基于图块的多视角立体匹配(PMVS)。PMVS从特征匹配步骤开始,生成稀疏的图块集,然后在展开步骤和过滤步骤之间迭代,使图块变得密集并删除错误的匹配。
表示:体积:体积法是在一个定期采样的3D网格上表示几何,即体块,或者作为一个离散的占用函数(Kutulakos & Seitz (2000))或一个编码到最近面(水平集)距离的函数 (Faugeras & Keriven, 1998)。最近的方法使用在规则体素位置定义的概率分布图对占用率进行编码 (Bhotika等人(2002);波拉德&曼迪(2007);Ulusoy等人(2015))。体积法的主要局限性在于需要的内存较大。有很多方法可以解决这个问题,如体元散列(Nießner et al .(2013))或数据自适应空间的离散化形式的德劳内三角(Labatut等人(2007))。一个有效的解决方案是八叉树数据结构,它本质上是一个自适应体素网格,只在表面附近分配高分辨率单元。
表示:网格或表面:重构中的最终表示通常是基于三角形网格的表面。体积表面是从中间过程的表征中提取融合了三维信息,如深度地图,点云,卷或扫描得到一个纯净的网格模型。Curless & Levoy(1996)提出了一种利用有符号的距离函数将表面信息积累到体素网格中的算法。表面被隐式地表示为聚集的有符号距离函数的零交叉。它可以使用三方阵算法Lorensen & Cline(1987)提取,也可以通过容积图切割的方法将每个体素标记为内部或外部。有一些方法直接从图像开始,使用基于光一致性函数的数据项和平滑的正则项组成的能量函数来细化网格模型。在这些方法中,能量通常使用梯度下降法进行优化,其中每个顶点的移动由目标函数的梯度决定。
城市重建: 在本次调查中,我们主要从自主驾驶的角度进行多视点的重建,主要关注的是大城市乃至整个城市的重建。城市重建算法的目标是通过解决诸如照明条件、遮挡、外观变化、高分辨率输入和大规模输出等固有挑战,实现城市区域的全自动、高质量、密集重建。Musialski等人(2013)通过基于输出的顺序,即建筑和语义、立面和图像,最后是街区和城市,对城市重建方法进行了调查。
输入数据:Musialski等人(2013)指出,地面、空中和卫星图像以及激光探测和测距(LiDAR)扫描是城市重建中最常用的传感器。地面图像是最普遍的,因为易于获取、存储和交换。由于网络地图项目的进步,航空和卫星图像变得更加容易获取。与空中或多视点成像相比,卫星成像提供了一种世界范围的成像技术覆盖频率高,成本低,但分辨率较低。激光雷达提供了半稠密的三维点云图,其在地面级别和航空级别都相当精确。一些方法还将这些数据类型合并在一起以结合他们的互补优势。处理在室外场景的挑战条件下,其他的方法利用额外的数据来源,如捕捉地球表面的数字表面模型(DSMs)。DSM是城市场景的2.5D表示,提供了每个规则网格上点的高度信息。下面我们将介绍近期不同输入方式的例子。
立体序列:Cornelis等人(2008)指出,从视频流中提取详细的3D信息会导致重构算法的计算成本很高。通过保持必要的低水平的细节信息,他们创建了一种高速的、紧凑的、内存使用效率高的立体城市模型,该模型是基于简化的几何假设,即立面和道路表面的直纹表面。由于在城市场景中普遍存在的汽车等物体违背了这些假设,它们将汽车的检测和定位融入到重构中。Geiger等人(2011)利用有效的立体匹配,提出了一种系统,可以实时生成立体序列静态场景的精确三维重建。对于在线重建,他们使用两个线程:第一个线程执行特征匹配和自我运动估计,而第二个线程执行密集立体匹配和三维重建。
数字表面模型(DSM):数字表面模型是由空中激光雷达点云或多视点立体模型(MVS)生成的,适用于城市的几何描述场景。基于MVS的DSMs可能非常嘈杂,因此Lafarge等人(2010)提出,通过使用从3D参数块库中提取的简单城市结构组合来重建建筑,从而从MVS图像中生成DSMs。与基于MVS的DSMs不同,激光扫描在获取3D城市模型方面也非常流行。Lafarge & Mallet(2012)通过同时重建树木和地形复杂的地面,以及从空中数据生成的点云构建建筑,为城市场景提供了更完整的描述。他们通过结合两种不同类型的3D表现形式来模拟建筑的原始混合表现形式,一种是常规部分的原始形式,如Lafarge et al.(2010)中所介绍的;另一种是不规则屋顶等非典型表面的网格图块。
空中或街道水平: Fruh et al.(2005)向机载数据(DSMs)上传了一系列垂直2D表面扫描和相机图像,以生成城市的纹理立面网格。他们提出了一种数据处理技术,通过去除嘈杂的前景对象,并在建筑立面的几何和纹理上填充孔,来创建视觉上有吸引力的立面网格。Bodis-Szomoru等(2016)指出,机载和移动地图数据提供了互补信息,需要共同开发,以生成完整和详细的大规模城市模型。机载传感器可以大规模获取屋顶结构、地面和植被,同时通过多视点立体方法或激光雷达在道路上进行移动测绘,提供立面和街道侧面的细节。他们提出了一种解决方案,将道路上详细的移动地图和一个粗糙但更完整的点云融合在一个表面网格中。他们的评估显示,通过将街道细节融合到机载模型中,模型的质量得到了显著提高。
立体卫星:Duan & Lafarge(2016)提出了一种方法来制作紧凑的三维城市模型,由从成对的立体卫星图像中得到的地面和建筑对象组成。它们使用凸多边形表示场景,并对语义类(地面、屋顶和立面)和每个多边形的高程进行联合分类和重建。虽然他们的评估表明所得到的结果并不像激光雷达扫描那样精确,但该方法可以产生快速、紧凑和语义感知的模型,对低分辨率和遮挡问题具有鲁棒性。

7.3 重建和识别

  在自动驾驶中,理解周围环境的结构和语义信息是很重要的。传统的图像分割方法都是在二维图像域中使用先验信息,例如空间平滑项,重建方法通常鼓励分段光滑表面。长期以来,人们一直认为语义和三维重建相互之间传递着有价值的信息。与立体匹配类似,在重建中引入语义的动机是在由于推测性、缺乏纹理、重复结构或强光照变化而导致图像信息不完善和不明确的情况下,照片的一致性下降。语义标签提供了关于某个位置可能的表面朝向的几何线索,并帮助解决了固有的模糊性。三维重建将推理从2D提高到3D,并作为一个强大的调整器,通过加强几何一致性对多个图像进行分割。
  平面性与基本物体:Micusik & Kosecka(2009)提出了一种通过利用图像分割线索以及存在主导场景方向和分段平面结构来克服这些困难的方法。特别地,他们采用了一种基于超像素的密集立体重建方法,使用了MRF公式中三个正交平面法线的曼哈顿世界假设。另一种利用分段平面结构和形状重复的方法是使用平面、球体、圆柱体、圆锥和圆环等基本形状(Lafarge et al. (2010);Lafarge & Mallet (2012);Lafarge等人(2013))。基于基本排列的方法提高了紧凑性并降低了复杂性。然而,它们仍然是简单的表示形式,无法模拟精细的细节和不规则的形状。因此,Lafarge等人(2013)提出了一种既紧凑又详细的混合方法。从最初的基于网格的重构开始,他们使用基元来处理常规结构,如柱和墙,而不规则的元素仍然由网格来描述以保留细节。
体块:体块场景重建通常将体块划分为占用空间和可通行区域区域。Haene等人(2013)提出了数学框架,将其扩展到一个多标签体分割框架,该框架将对象类或可通行区域标签分配给各个体素,如图22所示。他们首先从训练数据中学习表面方向上的外观概率和类特异性几何先验知识。然后,用这些数据驱动先验来定义一个连续的体积分割公式中的一元和成对项。联合推理得益于典型的类特定几何形状,比如指向上方的地面法线。此外,它为场景几何中信息较少的情况下,提供了一个特定类的平滑先验知识。他们的评估显示了这种先验优于标准平滑假设(如总变化)。

  Zhou等(2015)通过引入语义先验,提出了一种基于鱼眼摄像机序列的街景三维重建方法。受到户外场景中重复出现的类似3D形状物体的启发,他们首先使用3D物体探测器对建筑和车辆进行定位,然后在学习形状的体积模型的同时共同重建建筑和车辆。这种方法能够减少噪音,同时完成缺失的表面的重建,因为相似形状的物体能够从各自类别的所有观察结果中受益。
单目视频:多视点立体视觉的缺陷会给Haene等人(2013)等需要密集深度测量的方法带来问题。Kundu等人(2014)以单目图像流作为输入,提出了另一种基于SfM的稀疏点云和帧的密集语义标记的联合推理方法。这样,三维语义表示在时间上是一致的,而不需要额外的成本。他们用更高阶的CRF在三维世界中对问题进行建模,它允许真实的场景约束和先验,比如3D对象支持。此外,它们明确地模拟了可通行区域,提供信息以减少模糊性,尤其是在弱支撑的表面上。他们对Camvid和Leuven单目数据集的评估显示,与传统的SfM和先进的多视点立体视觉相比,3D结构得到了改善,并且在每像素精度和时间一致性方面都优于视频分割方法。
容量:大尺度:前人在语义重构方面的工作(Haene et al.,2013);Kundu et al.(2014))由于内存占用大,计算成本高,限制于小场景和低分辨率。Blaha等人(2016)指出,对于大的区域,如可通行区域、地下部分或建筑内部,并不需要高分辨率。他们提出了Haene等人(2013)的一个扩展,在一个应用中使用自适应八叉树数据结构并进行粗到精的优化,以从陆地和空中图像生成3D城市模型。从粗糙的体素网格开始,他们解决了一系列的问题,在这些问题中,解决方案只在预测的表面附近逐渐细化。自适应细分节省内存,运行速度快得多,同时在几何重建和语义标记方面仍与最高目标分辨率的固定体素离散化一样精确。
  除了空间范围外,由于内存需求的增加,不同语义标签的数量也是一个可伸缩的问题。由于不同标签之间转换的指标变量,其数量的复杂度是二次的。Cherabier等人(2016)提出将场景划分为块,其中只有一组相关标签是活动的,因为在早期可以确定的特定块中没有很多语义类。因此,他们可以从优化的一开始就禁用标签,从而得到更有效的处理。在迭代优化期间更新每个块中的活动标签集,以从错误的初始化中恢复。他们的评估显示,与Haene等人(2013)相比,他们可以将标签数量从6个增加到9个,在内存使用效率上有显著的提高。
形状先验:传感器获取三维形状的进展和目标检测算法的性能鼓励了在三维重建中使用三维形状先验。降维是表示形状知识的一种有效而流行的方法。早期的方法使用线性降维,如PCA,来捕捉低维潜伏形状空间中的形状差异。更近期的方法使用非线性降维,如高斯过程潜在变量模型(GP-LVM) (Dame et al.(2013))。
  Dame等人(2013)研究了单目SLAM中形状先验的重要性。与深度估计平行的是,他们精细化了一个物体的姿态,形状和比例,以匹配最初的分割和深度线索。最后融合到体积表示法中。他们的实验表明,在透明和镜面表面,甚至在未被观察到的部分场景中,效果都有所改善。除了表示形状外,Bao等人(2013)还候选区域学习一组锚点,作为多个实例中对象形状的代表。他们首先使用2D物体探测器进行初始对准。接下来,他们通过匹配锚点,将SfM中的点云与平均形状对齐,然后扭曲并细化它以接近实际形状。他们的评估表明,该模型足够通用,可以通过处理实例间的大形状变化来学习不同对象类别(如汽车、水果和键盘)的语义先验。
  而之前的方法(Dame et al. (2013);Bao等人(2013))试图将输入数据拟合成参数形状模型,Haene等人(2014)建立了一个对象的法线局部分布模型。他们以空间变化的各向异性平滑项的形式提出了一个对象类别的特定形状先验知识。与Haene等人(2013)的多标签分割方法类似,他们将重构过程划分为目标区域和支撑面,只对目标应用形状先验,引导优化到正确的形状。
数据驱动:与直接为每个物体建立语义信息模型的方法不同,Wei et al.(2014)提出了一种数据驱动正则化方法,利用SIFT流算法将训练数据库中的语义匹配块转化为视差或流的形状信息。它们将形状信息表示为场景属性的相对关系,而不是绝对值。它主要用于场景属性的可重复使用的条件下,如与位置无关的汽车的视差模型。他们将数据驱动的先验与Sintel上流行的平滑条件进行比较,与KITTI上的最先进的算法相比较,性能得到了改进。

论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第七章)相关推荐

  1. 论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第一、二章)

      本文是翻译自CVPR2017上的一篇论文<Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-th ...

  2. 综述自动驾驶中的计算机视觉Computer Vision for Autonomous Vehicles: Problems, Datasets and State-of-the-Art(上)

    综述原文链接https://arxiv.org/pdf/1704.05519.pdf 17年CVPR上的一篇关于自动驾驶和计算机视觉的综述,比较全面,大体整理一个提纲,重点关注比较新的研究成果,侧重于 ...

  3. 【VINS论文翻译】VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator

    回到目录 写在前面 港科大的VINS-Mono作为目前state of the art的开源VIO项目,是研究视觉与IMU紧耦合的必读算法,网上的论文解读与代码实现也非常丰富(感谢!).为更好地进行学 ...

  4. 【论文翻译】Generation of Non-Deterministic Synthetic Face Datasets Guided by Identity Priors(21.12)

    文章目录 读后感 Abstract 1 Introduction 1.1 Our contributions 2 Related Works 2.1 Synthetic Image Generatio ...

  5. 论文翻译七:Adversarial Transfer Learning for Deep Learning Based Automatic Modulation Classification

    30天挑战翻译100篇论文 坚持不懈,努力改变,在翻译中学习,在学习中改变,在改变中成长- Adversarial Transfer Learning for Deep Learning Based ...

  6. 【论文翻译】nuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles

    论文链接:https://arxiv.org/pdf/2106.11810.pdf 标题 nuPlan: A closed-loop ML-based planning benchmark for a ...

  7. 深度学习论文: Computer Vision for Road Imaging and Pothole Detection: A State-of-the-Art Review

    深度学习论文: Computer Vision for Road Imaging and Pothole Detection: A State-of-the-Art Review of Systems ...

  8. [论文笔记]Vision-Based Trajectory Planning via Imitation Learning for Autonomous Vehicles

    Vision-Based Trajectory Planning via Imitation Learning for Autonomous Vehicles 基于视觉的模仿学习路径规划器.由三个子网 ...

  9. Transformers in Vision: A Survey论文翻译

    Transformers in Vision: A Survey 论文翻译 原文 翻译链接 摘要 摘要--Transformer模型在自然语言任务上的惊人结果引起了视觉界的兴趣,而致力于研究它们在计算 ...

最新文章

  1. RAC 修改 DB 实例名 步骤
  2. R语言ggplot2可视化散点图并使用scale_y_log10函数配置Y轴对数坐标、使用ggforce包的facet_zoom函数将可视化结果中需要突出放大的区域进行放大(Zoom in)
  3. LoRDEC:hybrid correction of long reads 长读的混合校正
  4. 蚂蚁金服付志嵩:数据膨胀?关系复杂?如何升级图数据库?
  5. Jquery Ajax自定义无刷新提交表单Form
  6. c++ 指针常量,常量指针
  7. 【网址收藏】rancher镜像源仓库
  8. mongodb命令基础知识点
  9. Linux下V4L2编程小结
  10. 一些图像处理函数用法
  11. ORACLE 常用函数——字符函数
  12. 上海富勒wms_国内WMS前三名是哪几家
  13. 关闭计算机主机还亮着,Win10系统电脑关机后主机电源灯依然亮着的解决方法
  14. NPDP是什么考试?产品经理必知
  15. androidStudio开发安卓APP的五种框架布局界面设计
  16. 重庆封闭式计算机学校有哪些,重庆市十佳高三学校排名榜
  17. WPF将点列连接成光滑曲线——贝塞尔曲线
  18. Kafka Broker
  19. linux运行java程序内存过大_排查java应用linux环境内存占用过高的问题
  20. canvas画地图运动轨迹【自己定位】

热门文章

  1. 谁是卧底线下发牌器微信小程序源码下载
  2. [exceltolist] - 一个excel转list的工具
  3. Linux中将tab与空格互换
  4. python绘图查看支持的字体,解决中文空格现象
  5. matlab音乐键盘模拟,Matlab课程设计报告--MATLAB GUI的音乐键盘仿真
  6. RNN和CNN(循环神经网络和卷积神经网络)
  7. 2021最新微信影视免授权小程序源码+自主搭建配置详细教程
  8. Word里mathtype公式显示不全的三种解决办法
  9. java生成随机数字和字母组合
  10. python生成随机数字