KITTI结果领先地位！Progressive LiDAR Adaptation for Road Detection—

描述
详解一篇基于激光视觉融合的道路检测文章，发表在2019年自动化学报英文版（我所主编的业界顶刊）中，第三作者是陶大程，业界大佬，可自行进行百度。

为什么选择这篇文章进行分析呢。查看KITTI数据集的分数榜单leader-board你会发现，这篇文章的结果非常领先。

Abstract
尽管基于视觉图像的道路检测技术发展迅速，但由于光照变化和图像模糊等问题，在视觉图像中鲁棒的识别出道路区域仍然具有挑战性。为此，合并激光雷达的数据可以改进基于视觉图像的道路检测，因为激光雷达数据不太容易受到视觉噪声的影响。然而，将激光雷达信息引入基于视觉图像的道路检测的主要困难是，激光雷达数据及其提取的特征与视觉数据和视觉特征不共享同一空间。空间中的这种间隙可能会限制激光雷达信息用于道路检测的优势。为了克服这个问题，我们引入了一种新的渐进式激光雷达自适应辅助道路检测（PLARD）方法，将激光雷达信息适应到基于视觉图像的道路检测中，并提高检测性能。在PLARD中，渐进式激光雷达自适应包括两个后续模块：1）数据空间自适应，通过应用基于高度差的变换方法，将激光雷达数据转换到视觉数据空间，以与透视图对齐；2）特征空间自适应，通过级联融合结构使激光雷达特征适应视觉特征。对著名的KITTI道路检测基准进行的综合实证研究表明，PLARD利用了视觉和激光雷达信息，即使在具有挑战性的城市场景中也能实现更稳健的道路检测。特别是，PLARD的性能优于其他最先进的道路检测模型，目前在公众可访问的leader-board（KITTI实验结果排名的一个看板）中处于领先地位。

关键词：道路检测、激光雷达处理、计算机视觉、深度学习、自动驾驶

I. INTRODUCTION
鲁棒的城市道路检测对于自动驾驶系统至关重要。如果没有对道路区域的充分认识，自动驾驶车辆就无法做出安全的决定来实现可靠的导航。多年来，分割技术已用于识别单目图像中的道路区域，最近，基于深度卷积神经网络（DCNN）的图像分割方法（如FCN[1]和DeepLab[2]）的引入显著提高了基于视觉图像的道路检测的性能。

尽管取得了进展（例如[3-10]），但当存在视觉噪声（如可变照明、过度曝光、模糊外观和模糊图像）时，DCNN可能仍然表现不佳。为了克服这些问题并提高道路检测性能，许多研究[11-13]引入了激光雷达信息以改进道路检测。“激光雷达”是指通过用脉冲激光照射目标来测量到目标的距离而获得的数据[14]。许多研究证明，激光雷达对各种视觉噪声具有鲁棒性，可以补充单目图像数据。例如，Caltagirone等人[12]报告称，3D激光雷达点云提供了足够的信息来检测道路，相对视觉噪声来说具有鲁棒性，因此可以仅使用激光雷达数据来鲁棒检测道路。此外，[15]的作者试图将激光雷达和视觉信息融合用于道路检测。然而，现有的利用激光雷达数据进行道路检测的方法仍然很不有效，与基于视觉图像的道路检测方法相比，仅提供了有限的改进。在此，我们研究了利用激光雷达数据进行道路检测时遇到的困难，并提出了一种新的更有效的方法，将激光雷达信息纳入基于视觉图像的道路检测系统。

通过查询用于道路检测的激光雷达信息和视觉信息，我们得出结论，两个主要因素将给这两种信息之间的有效融合带来困难。首先，由于原始激光雷达数据和原始视觉图像数据位于不同的空间，因此很难定义适当的空间来集成这两种数据类型。例如，在KITTI道路检测数据集[16，17]中，提供的激光雷达数据在三维真实空间中定义，而视觉图像在二维图像平面上定义。虽然研究人员可以使用校准参数将激光雷达数据投影到2D图像平面上，但这可能同时改变了激光雷达数据中的道路表现，使道路区域在激光雷达数据空间中的可辨性降低。因此，对于基于DCNN的道路检测模型来说，依靠激光雷达数据很难学习到可靠的道路检测能力，更不用说改进基于视觉图像的道路检测模型了。此外，还难以将从激光雷达数据中提取的特征与从视觉图像中提取的视觉特征进行适当集成。更具体地说，由于激光雷达数据中的道路外观由离散点描述，而视觉数据中的道路外观由二维图像平面上像素的RGB值描述，因此从两个数据源提取的特征也很可能位于不同的空间中。特征空间中的这种差距可能会对特征融合性能和最终检测精度产生不利影响，因此现有的道路检测特征融合方法很难优于最先进的基于视觉图像的道路检测算法。

为了克服这些问题，我们提出了一种新的渐进式激光雷达自适应技术，使激光雷达信息与视觉信息更兼容，并更有效地改进基于视觉图像的道路检测。为此，在渐进式激光雷达自适应中，我们引入适当的变换函数，将激光雷达数据空间自适应到视觉数据空间，并将激光雷达特征空间自适应到视觉特征空间。因此，渐进式激光雷达自适应过程包括数据空间自适应步骤和特征空间自适应步骤。数据空间自适应步骤将激光雷达数据空间转换并与视觉数据空间对齐，同时仍使道路区域在激光雷达数据中易于区分。然后，通过级联融合结构，特征空间自适应步骤将激光雷达特征空间转换为更好地补充和改善视觉特征的空间。通过将视觉信息与自适应激光雷达信息相结合，我们获得了一个更稳健的道路检测模型：渐进式激光雷达自适应辅助道路检测（Progressive LiDAR Adaptation-aided Road Detection，PLARD）模型。图1显示了我们提出的系统的概述。

图1.渐进式激光雷达自适应辅助道路检测（PLARD）方法概述。我们克服了在城市场景中检测道路区域时，激光雷达信息和视觉信息位于不同空间的问题。特别是，提出的渐进式激光雷达自适应包括数据空间自适应步骤，该步骤调整原始激光雷达数据的视图以对齐视觉图像的视图，以及特征空间自适应步骤，该步骤使激光雷达特征适应视觉特征。通过融合自适应激光雷达信息和视觉信息，PLARD实现了稳健的道路检测。

使用著名的KITTI道路检测基准[16]，我们对提出的PLARD系统进行了全面的实验，以评估提出技术不同部分的有效性，以及相对于基于视觉图像的道路检测系统的整体性能增益。实验结果表明，通过我们提出的渐进式激光雷达自适应技术，激光雷达信息为道路检测提供了更多益处。此外，在KITTI道路检测基准测试集上，PLARD显著提高了道路检测精度，优于其他基于视觉图像的道路检测算法、基于激光雷达的道路检测算法以及融合这两种信息的算法。特别是，PLARD在可公开访问的leader-board上实现了最先进的性能。事实上，在撰写本文时，我们的PLARD模型在leader-board中三个子项排名第一。

II. RELATED WORK
道路检测有利于各种其他自主任务[18-23]。多年来，已经开发了各种算法来解决道路检测问题[24-27]。例如，基于模型的方法建立形状[28，29]或外观模型[30]来描述道路结构，然后在输入图像中识别道路区域。然后，基于学习的方法尝试使用分类器（例如支持向量机[31]和随机森林[32]）来区分道路和非道路区域。在实践中，基于学习的方法通常比基于模型的方法表现更好。

近年来，通过将道路检测任务视为语义分割任务，DCNN被证明在道路检测中特别有用。特别是，一些典型的算法已被证明是有效的语义分割。例如，Long等人[1]提出了全卷积和上采样层来解决像素级语义分割问题。此外，[33，34]的作者通过引入扩展卷积运算实现了引人注目的语义分割性能，该运算可以在不降低特征图分辨率的情况下大大扩大卷积核的感受域。通过利用完全卷积层和扩展卷积运算，一些研究[35-37]在语义分割基准上取得了令人印象深刻的性能。这些技术已广泛用于检测城市场景中的道路[7-9，38]。

为了提高基于DCNN的道路检测的有效性，提出了几种有前景的算法。例如，Mendes等人[8]引入了一个大的上下文窗口和网络结构中的网络以提高准确性，而研究[39]引入了一个高效的深度网络，遵循“U-net”[40]中讨论的“编码器-解码器”原则。然而，DCNN仍然容易受到视觉噪声的影响，通常需要过长的处理时间才能保证更好的性能。例如，[7]中的算法处理图像需要1s左右的时间，[9]中的算法需要2s的时间，两种算法都无法达到最先进的性能，这使得它们不适用于自动车辆等移动平台。

尽管在基于视觉图像的道路检测方面取得了这一进展，但其他人提出，激光雷达对视觉噪声具有鲁棒性，他们尝试使用激光雷达信息检测道路。在[4]中，视觉图像从透视图转换为用于道路检测的鸟瞰图。另一项研究[12]将激光雷达点云作为输入而不是视觉图像，可以在三维真实空间中执行有前景的道路检测。然而，这些研究并没有有效地利用这两种类型的信息，限制了它们的最终检测性能。也有研究[5，15]试图融合视觉和激光雷达信息进行道路检测，但现有的基于融合的算法要么耗时，要么不如其他最先进的算法有效。在本研究中，我们假设使用激光雷达改善道路检测的困难是由于激光雷达信息和视觉信息的数据空间和特征空间之间存在差距。为了克服这个问题，我们引入了一种渐进式激光雷达自适应技术，该技术可以有效地将激光雷达信息适应并集成到基于视觉图像的道路检测通道中，以提高道路检测的鲁棒性和准确性。

III. PLARD SYSTEM

图2是提出的PLARD系统的总体pipeline。在数据空间适配步骤中，我们引入了基于高度差的变换（表示为“ADT”）来适配原始激光雷达数据，从而获得更好的校准过的激光雷达数据空间，其中道路更容易与其他物体区分。在特征空间自适应步骤中，首先使用DCNN分别在视觉和激光雷达数据上检测道路。然后，引入特征空间变换（表示为“FST”）模块来变换激光雷达特征，使其更好地补充和改善视觉特征。在每个“FST”模块中，使用变换网络（表示为“TN”）来学习变换参数。特征变换后，视觉特征和自适应激光雷达特征通过级联结构融合。级联融合集成了除第一阶段外的所有卷积阶段（表示为“S1-S5”）的特征。最后，在解析阶段，PLARD对集成特征进行分类，提供稳健的道路检测结果。