KITTI结果领先地位!Progressive LiDAR Adaptation for Road Detection——PLARD算法

描述
详解一篇基于激光视觉融合的道路检测文章,发表在2019年自动化学报英文版(我所主编的业界顶刊)中,第三作者是陶大程,业界大佬,可自行进行百度。

为什么选择这篇文章进行分析呢。查看KITTI数据集的分数榜单leader-board你会发现,这篇文章的结果非常领先。

Abstract
尽管基于视觉图像的道路检测技术发展迅速,但由于光照变化和图像模糊等问题,在视觉图像中鲁棒的识别出道路区域仍然具有挑战性。为此,合并激光雷达的数据可以改进基于视觉图像的道路检测,因为激光雷达数据不太容易受到视觉噪声的影响。然而,将激光雷达信息引入基于视觉图像的道路检测的主要困难是,激光雷达数据及其提取的特征与视觉数据和视觉特征不共享同一空间。空间中的这种间隙可能会限制激光雷达信息用于道路检测的优势。为了克服这个问题,我们引入了一种新的渐进式激光雷达自适应辅助道路检测(PLARD)方法,将激光雷达信息适应到基于视觉图像的道路检测中,并提高检测性能。在PLARD中,渐进式激光雷达自适应包括两个后续模块:1)数据空间自适应,通过应用基于高度差的变换方法,将激光雷达数据转换到视觉数据空间,以与透视图对齐;2)特征空间自适应,通过级联融合结构使激光雷达特征适应视觉特征。对著名的KITTI道路检测基准进行的综合实证研究表明,PLARD利用了视觉和激光雷达信息,即使在具有挑战性的城市场景中也能实现更稳健的道路检测。特别是,PLARD的性能优于其他最先进的道路检测模型,目前在公众可访问的leader-board(KITTI实验结果排名的一个看板)中处于领先地位。

关键词:道路检测、激光雷达处理、计算机视觉、深度学习、自动驾驶

I. INTRODUCTION
鲁棒的城市道路检测对于自动驾驶系统至关重要。如果没有对道路区域的充分认识,自动驾驶车辆就无法做出安全的决定来实现可靠的导航。多年来,分割技术已用于识别单目图像中的道路区域,最近,基于深度卷积神经网络(DCNN)的图像分割方法(如FCN[1]和DeepLab[2])的引入显著提高了基于视觉图像的道路检测的性能。

尽管取得了进展(例如[3-10]),但当存在视觉噪声(如可变照明、过度曝光、模糊外观和模糊图像)时,DCNN可能仍然表现不佳。为了克服这些问题并提高道路检测性能,许多研究[11-13]引入了激光雷达信息以改进道路检测。“激光雷达”是指通过用脉冲激光照射目标来测量到目标的距离而获得的数据[14]。许多研究证明,激光雷达对各种视觉噪声具有鲁棒性,可以补充单目图像数据。例如,Caltagirone等人[12]报告称,3D激光雷达点云提供了足够的信息来检测道路,相对视觉噪声来说具有鲁棒性,因此可以仅使用激光雷达数据来鲁棒检测道路。此外,[15]的作者试图将激光雷达和视觉信息融合用于道路检测。然而,现有的利用激光雷达数据进行道路检测的方法仍然很不有效,与基于视觉图像的道路检测方法相比,仅提供了有限的改进。在此,我们研究了利用激光雷达数据进行道路检测时遇到的困难,并提出了一种新的更有效的方法,将激光雷达信息纳入基于视觉图像的道路检测系统。

通过查询用于道路检测的激光雷达信息和视觉信息,我们得出结论,两个主要因素将给这两种信息之间的有效融合带来困难。首先,由于原始激光雷达数据和原始视觉图像数据位于不同的空间,因此很难定义适当的空间来集成这两种数据类型。例如,在KITTI道路检测数据集[16,17]中,提供的激光雷达数据在三维真实空间中定义,而视觉图像在二维图像平面上定义。虽然研究人员可以使用校准参数将激光雷达数据投影到2D图像平面上,但这可能同时改变了激光雷达数据中的道路表现,使道路区域在激光雷达数据空间中的可辨性降低。因此,对于基于DCNN的道路检测模型来说,依靠激光雷达数据很难学习到可靠的道路检测能力,更不用说改进基于视觉图像的道路检测模型了。此外,还难以将从激光雷达数据中提取的特征与从视觉图像中提取的视觉特征进行适当集成。更具体地说,由于激光雷达数据中的道路外观由离散点描述,而视觉数据中的道路外观由二维图像平面上像素的RGB值描述,因此从两个数据源提取的特征也很可能位于不同的空间中。特征空间中的这种差距可能会对特征融合性能和最终检测精度产生不利影响,因此现有的道路检测特征融合方法很难优于最先进的基于视觉图像的道路检测算法。

为了克服这些问题,我们提出了一种新的渐进式激光雷达自适应技术,使激光雷达信息与视觉信息更兼容,并更有效地改进基于视觉图像的道路检测。为此,在渐进式激光雷达自适应中,我们引入适当的变换函数,将激光雷达数据空间自适应到视觉数据空间,并将激光雷达特征空间自适应到视觉特征空间。因此,渐进式激光雷达自适应过程包括数据空间自适应步骤和特征空间自适应步骤。数据空间自适应步骤将激光雷达数据空间转换并与视觉数据空间对齐,同时仍使道路区域在激光雷达数据中易于区分。然后,通过级联融合结构,特征空间自适应步骤将激光雷达特征空间转换为更好地补充和改善视觉特征的空间。通过将视觉信息与自适应激光雷达信息相结合,我们获得了一个更稳健的道路检测模型:渐进式激光雷达自适应辅助道路检测(Progressive LiDAR Adaptation-aided Road Detection,PLARD)模型。图1显示了我们提出的系统的概述。

图1.渐进式激光雷达自适应辅助道路检测(PLARD)方法概述。我们克服了在城市场景中检测道路区域时,激光雷达信息和视觉信息位于不同空间的问题。特别是,提出的渐进式激光雷达自适应包括数据空间自适应步骤,该步骤调整原始激光雷达数据的视图以对齐视觉图像的视图,以及特征空间自适应步骤,该步骤使激光雷达特征适应视觉特征。通过融合自适应激光雷达信息和视觉信息,PLARD实现了稳健的道路检测。

使用著名的KITTI道路检测基准[16],我们对提出的PLARD系统进行了全面的实验,以评估提出技术不同部分的有效性,以及相对于基于视觉图像的道路检测系统的整体性能增益。实验结果表明,通过我们提出的渐进式激光雷达自适应技术,激光雷达信息为道路检测提供了更多益处。此外,在KITTI道路检测基准测试集上,PLARD显著提高了道路检测精度,优于其他基于视觉图像的道路检测算法、基于激光雷达的道路检测算法以及融合这两种信息的算法。特别是,PLARD在可公开访问的leader-board上实现了最先进的性能。事实上,在撰写本文时,我们的PLARD模型在leader-board中三个子项排名第一。

II. RELATED WORK
道路检测有利于各种其他自主任务[18-23]。多年来,已经开发了各种算法来解决道路检测问题[24-27]。例如,基于模型的方法建立形状[28,29]或外观模型[30]来描述道路结构,然后在输入图像中识别道路区域。然后,基于学习的方法尝试使用分类器(例如支持向量机[31]和随机森林[32])来区分道路和非道路区域。在实践中,基于学习的方法通常比基于模型的方法表现更好。

近年来,通过将道路检测任务视为语义分割任务,DCNN被证明在道路检测中特别有用。特别是,一些典型的算法已被证明是有效的语义分割。例如,Long等人[1]提出了全卷积和上采样层来解决像素级语义分割问题。此外,[33,34]的作者通过引入扩展卷积运算实现了引人注目的语义分割性能,该运算可以在不降低特征图分辨率的情况下大大扩大卷积核的感受域。通过利用完全卷积层和扩展卷积运算,一些研究[35-37]在语义分割基准上取得了令人印象深刻的性能。这些技术已广泛用于检测城市场景中的道路[7-9,38]。

为了提高基于DCNN的道路检测的有效性,提出了几种有前景的算法。例如,Mendes等人[8]引入了一个大的上下文窗口和网络结构中的网络以提高准确性,而研究[39]引入了一个高效的深度网络,遵循“U-net”[40]中讨论的“编码器-解码器”原则。然而,DCNN仍然容易受到视觉噪声的影响,通常需要过长的处理时间才能保证更好的性能。例如,[7]中的算法处理图像需要1s左右的时间,[9]中的算法需要2s的时间,两种算法都无法达到最先进的性能,这使得它们不适用于自动车辆等移动平台。

尽管在基于视觉图像的道路检测方面取得了这一进展,但其他人提出,激光雷达对视觉噪声具有鲁棒性,他们尝试使用激光雷达信息检测道路。在[4]中,视觉图像从透视图转换为用于道路检测的鸟瞰图。另一项研究[12]将激光雷达点云作为输入而不是视觉图像,可以在三维真实空间中执行有前景的道路检测。然而,这些研究并没有有效地利用这两种类型的信息,限制了它们的最终检测性能。也有研究[5,15]试图融合视觉和激光雷达信息进行道路检测,但现有的基于融合的算法要么耗时,要么不如其他最先进的算法有效。在本研究中,我们假设使用激光雷达改善道路检测的困难是由于激光雷达信息和视觉信息的数据空间和特征空间之间存在差距。为了克服这个问题,我们引入了一种渐进式激光雷达自适应技术,该技术可以有效地将激光雷达信息适应并集成到基于视觉图像的道路检测通道中,以提高道路检测的鲁棒性和准确性。

III. PLARD SYSTEM


图2是提出的PLARD系统的总体pipeline。在数据空间适配步骤中,我们引入了基于高度差的变换(表示为“ADT”)来适配原始激光雷达数据,从而获得更好的校准过的激光雷达数据空间,其中道路更容易与其他物体区分。在特征空间自适应步骤中,首先使用DCNN分别在视觉和激光雷达数据上检测道路。然后,引入特征空间变换(表示为“FST”)模块来变换激光雷达特征,使其更好地补充和改善视觉特征。在每个“FST”模块中,使用变换网络(表示为“TN”)来学习变换参数。特征变换后,视觉特征和自适应激光雷达特征通过级联结构融合。级联融合集成了除第一阶段外的所有卷积阶段(表示为“S1-S5”)的特征。最后,在解析阶段,PLARD对集成特征进行分类,提供稳健的道路检测结果。

点击KITTI结果领先地位!点云视觉融合道路检测算法——PLARD - 古月居可查看全文

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/548455.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

分布式数据库Polardb-X架构及特点

PolarDB-X架构 计算节点(Compute Node,CN)是系统的入口,采用无状态设计的sql引擎提供分布式路由和计算,包括SQL解析器、优化器、执行器等模块。负责数据分布式路由、计算及动态调度,负责分布式事务2PC协调…

CFDPro雾化仿真 | 专为雾化过程与液滴属性研究设计的仿真模块

雾化是一种将液体转化为微小液滴的技术,通过不同的雾化方法实现液体的高效分散、蒸发、燃烧、吸附或沉积等目的。 雾化仿真在多个工业领域中具有极其重要的地位。无论是内燃机中燃油的高效燃烧,还是化工生产中的喷雾干燥,以及农业喷雾中农药…

[linux]进程控制——进程终止

一、main函数的返回值 我们在编写C语言的程序时,通常会这样写: int main() {return 0; } 那么我们为什么要返回(return)0 呢? 其实,main函数也是一个函数,它也会被调用,所以谁调…

【力扣 Hot100 | 第四天】4.15(括号生成)

文章目录 4.括号生成4.1题目4.2解法:回溯4.2.1回溯思路(1)函数返回值以及参数(2)终止条件(3)遍历过程 4.2.2代码 4.括号生成 4.1题目 数字 n 代表生成括号的对数,请你设计一个函数…

计算机笔记(11)续20个

180.时钟频率2.0GHz表示一秒有2*10的9次方个时钟周期,若执行一条指令需要2个时钟周期,则每秒执行的指令数为2*10的9次方/21*10的9次方 181.同轴电缆粗缆采用AUI头作为连接器件 182. 183.win7中的回收站,存放的是硬盘上被删除的…

C语言:文件操作(三)

目录 前言 5、文章的随机读写 5.1 fseek 5.2 ftell 5.3 rewind 结语 前言 本篇文章继续讲解文件操作,讲解文件的随机读写,主要有三个函数:fseek;ftell;rewind。 前面讲解的函数都是对文件内容进行顺序读写&#x…

MySQL 8.0.19安装教程(windows 64位)

在c盘目录下的Program Files目录下创建MySQL目录,将下载好的mysql解压到里面 解压完是这个样子 配置初始化的my.ini文件的文件 [mysqld] # 设置3306端口 port3306 # 设置mysql的安装目录 basedirC:\Program Files\MySQL # 设置mysql数据库的数据的存放目录 datad…

Trl SFT: llama2-7b-hf使用QLora 4bit量化后ds zero3加上flash atten v2单机多卡训练(笔记)

目录 一、环境 1.1、环境安装 1.2、安装flash atten 二、代码 2.1、bash脚本 2.2、utils.py 注释与优化 2.3、train.py 注释与优化 2.4、模型/参数相关 2.4.1、量化后的模型 2.4.1.1 量化后模型结构 2.4.1.2 量化后模型layers 2.4.2、参数 2.4.2.1 training args 2.4.2.2 pe…

【随笔】Git 基础篇 -- 拉取数据 git pull(二十八)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

GPT的使用

个人笔记(整理不易,有帮助点个赞) 笔记目录:学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 个人随笔:工作总结随笔_8、以前工作中都接触过哪些类型的测试文档-CSDN博客 网站sms-activate.or…

详解电源测试系统自定义报告模板功能:如何轻松实现数据导出

在NSAT-8000电源测试系统内,数据一般分为三级架构:原始数据、数据报告和数据分析。数据报告可以直接展示出电源模块的各项测试数据和测试结果,帮助用户评估电源性能,为电源的优化提升提供数据支持。 系统的记录报告板块展示着历史…

RocketMQ 10 面试题FAQ

RocketMQ 面试FAQ 说说你们公司线上生产环境用的是什么消息中间件? 为什么要使用MQ? 因为项目比较大,做了分布式系统,所有远程服务调用请求都是同步执行经常出问题,所以引入了mq 解耦 系统耦合度降低,没有强依赖…

DeiT:训练ImageNet仅用4卡不到3天的平民ViT | ICML 2021

论文基于改进训练配置以及一种新颖的蒸馏方式,提出了仅用ImageNet就能训练出来的Transformer网络DeiT。在蒸馏学习时,DeiT以卷积网络作为teacher,能够结合当前主流的数据增强和训练策略来进一步提高性能。从实验结果来看,效果很不…

基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡

基于FMC接口的Kintex-7 XC7K325T PCIeX4 3U PXIe接口卡 一、板卡概述 本板卡基于Xilinx公司的FPGAXC7K325T-2FFG900 芯片,pin_to_pin兼容FPGAXC7K410T-2FFG900 ,支持PCIeX8、64bit DDR3容量2GByte,HPC的FMC连接器,板卡支持PXI…

html基础——CSS

在HTML中,CSS的作用是用于控制网页的样式,包括字体、颜色、背景、布局等方面的设计。通过一个样例来说明CSS的作用: 如下是一个名为global.css的CSS文件: .C1{font-size: 10px;color: blue;border:1px solid red;height: 200px;…

【Redis 神秘大陆】009 案例实践进阶

九、案例实践&进阶方案 9.1 本地缓存组件选型 使用缓存组件时需要重点关注集群方式、集群、缓存命中率。 需要关注集群组建方式、缓存统计;还需要考虑缓存开发语言对缓存的影响,如对于JAVA开发的缓存需要考虑GC的影响;最后还要特别关注…

vue快速入门(二十六)生命周期钩子函数

注释很详细&#xff0c;直接上代码 上一篇 新增内容 生命周期钩子函数的解析生命周期函数效果演示 源码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevic…

【原创教程】海为PLC与RS-WS-ETH-6传感器的MUDBUS_TCP通讯

一、关于RS-WS-ETH-6传感器的准备工作 要完成MODBUS_TCP通讯,我们必须要知道设备的IP地址如何分配,只有PLC和设备的IP在同一网段上,才能建立通讯。然后还要选择TCP的工作模式,来建立设备端和PC端的端口号。接下来了解设备的报文格式,方便之后发送报文完成数据交互。 1、…

【Altium Designer 20 笔记】PCB层

Top Overlay & Bottom Overlay (顶部丝印层和底部丝印层)&#xff1a; 用于标记元件、连接和其他重要信息。丝印层是 PCB 表面的一层&#xff0c;上面印上文字、图标或标记。 Top Solder & Bottom Solder (顶部阻焊层和底部阻焊层)&#xff1a; 阻焊层、开窗层、绿油层…

【电控笔记2.3】速度回路+系统延迟

2.3.1速度回路pi控制器设计 pi伯德图近似设计(不考虑延时理想情况下) Tl:负载转矩 PI控制器的转折频率:Ki/Kp
最新文章