1、前言
在自动驾驶中使用HD Map的优点显而易见:超视距感知能力、高精度、高丰富度。其局限性同样很明显:高成本、高覆盖度、低鲜度、受限法规等。比如,2022年,在地图法规收紧,和感知能力增强的双重背景下,轻地图重感知路线又成为大家竞相追逐的香饽饽。
在探索实现真正的自动驾驶目标前,有的车企选择纯感知(视觉+雷达)路线,有的车企则坚持结合高精地图和车端感知的方向。看似完全不同的两个方向,实则反映出行业相似的趋势:那就是重车端感知轻地图。该技术简单的说就是尽量地相信实时感知,对地图主要是利用拓扑关系、从感知里较难获得的信息,以及地图里面不会改变的信息。
从视觉感知算法角度上说需要把来自每一个相机的视频流,直接注入到一个大模型的深度学习网络里,再让它直接输出BEV视角下的静态和动态信息,比如动态目标物的4D信息(如车辆,二轮车等的大小、距离、位置及速度、行为预测等),以及静态目标物的3D信息(如车道线和马路边缘的位置)。
图商和车企都苦于高精地图的成本和鲜度,而随着城市 NOA 的交付成了头部玩家们角逐的重点,主机厂们已经形成共识,仅靠传统测绘的采集车队不可能完成对高精地图的高频更新,因此各家厂商纷纷走向“重感知轻地图”,或是“无图”路线。
需要指出的是,厂商所提的“无图”路线并非完全不用地图,而只是舍弃高精度地图。在最近的一次媒体沟通会上,大有时空 CTO 李庆建也指出,“重感知轻地图是不使用预先采集的高精地图,而是使用一个实时采集更新的地图。”无图其实各家理解的含义不同,有的是无高精地图,只用普通导航地图;有的是只用高精地图中的拓扑信息+导航地图,所以无图用轻地图来定义会更合适些。
高精地图和激光雷达一向被喻为“自动驾驶的两根拐杖”——前者负责开路,提高规划能力;后者负责避障,用来增强感知能力。为此,高精地图一直被视作自动驾驶汽车基础设施的一部分,是“兵家必争之地”。
2、去高精地图情况
等到2023年上半年,“去高精地图”运动更加热闹。华为4月上市的问界M5和问界M5 EV,新增的高阶智能驾驶版本不依赖高精地图,主要通过车端融合感知来进行环境识别。按照规划,至2023年三季度,问界 M5 智驾版 HUAWEI ADS 2.0 将在 15 城实现不依赖高精地图落地,至四季度,这一数字还将进一步扩展至45城。
何小鹏在1月的小鹏汽车全员会上提出,小鹏2023年的X-NGP辅助驾驶要抛掉高精地图。李想在内部表态,理想汽车不依赖高精地图的端到端训练城市NOA导航辅助驾驶,将会在2023年底开始落地。而元戎启行、智行者、地平线等多家自动驾驶公司也都顺势发布了不依赖高精地图的自动驾驶方案和产品。
至于百度,虽没有完全放弃高精地图,但也在尝试减少对高精地图的依赖,于近期推出了城市域领航辅助驾驶Apollo City Driving Max,搭载“轻量级高精地图”,据称比起行业通用的传统高精地图要“轻”近80%。
3、特斯拉路线
特斯拉坚持探索起自己的纯视觉路线,其余绝大部分玩家则朝着激光雷达的方向一路前行。尤其是在发现高精地图可为自动驾驶提供超视距信息后,“激光雷达等多传感器融合+高精地图”的技术路线更是成为大部分企业的普遍选择,以寻求兼顾成本和安全的最优解。从技术角度看,本质上是AI算法+硬件逼近人脑能力的速度,与激光雷达等可选硬件对数据量、算法弥补程度及其降价速度之间的竞争。与此同时,一种全新的感知范式——BEV+Transformer,已经从特斯拉迅速扩延到更多自动驾驶企业的蓝图规划中。
特斯拉早期的自动驾驶方案提供商是Mobileye,但是Mobileye的芯片和自动驾驶软硬件解决方案是业内公认的“黑盒子”,对整车厂来说并不够友好。直到2015年,英伟达入场自动驾驶,特斯拉短暂牵手英伟达的同时,特斯拉的自研之路也在紧锣密鼓地进行,感知数据、算法、芯片、计算平台等都是它在布局的。
特斯拉的FSD(Full Self-Driving,完全自动驾驶)功能真正迎来脱胎换骨的变化是2021年7月10日,特斯拉正式向约2000名美国用户推送“完全自动驾驶”FSD Beta V9.0版本。该版本的核心变化在于,其摒弃了毫米波雷达、超声波雷达等传感器,采用纯视觉的自动驾驶方案,仅用8个摄像头来实现城市级别的完全自动驾驶能力。而达成这一结果的基础来自于特斯拉此前一场声势浩荡的算法重写,尤其是感知算法的重写。
马斯克认为Autopilot过去被困在一个局部最大值(Local Maximum)里,原有软件架构下,其处理的数据都是不含有时间坐标的 2D 图像数据。但行车是在三维空间中进行的,甚至更好的自动驾驶效果还需要对被遮挡的部分做一定预测,而这给特斯拉的自动驾驶系统提出了新的要求——需要能够处理3D甚至4D的数据,实现从图像级处理到视频级处理的跃迁,并最终倒逼其对基础代码及训练深度神经网络的基础设施进行重构。
2021年8月召开的特斯拉AI DAY上,向外展示了一项全新技术——基于Transformer的BEV感知方案。这是大模型技术首次被应用到自动驾驶行业,也是特斯拉实现纯视觉的关键所在。
在此之前,特斯拉是通过每个摄像头单独进行感知,再将不同摄像头感知到的结果进行融合。但这种方式存在不少问题,比如不同摄像头之间的信息融合困难,难以预测被大面积遮挡的物体,以及因深度估计的误差导致最终输出结果相互冲突等。
为此,特斯拉开始尝试用神经网络将图像空间映射到 BEV 空间。BEV 的全称是 Bird's Eye View,也就是鸟瞰图的意思,是一种用于描述感知到的现实世界的视角或坐标系,相当于在车辆正上方10-20米的位置有一个直升机俯视车辆及周围环境的视角,也即所谓的“上帝视角”。
但如何将摄像头采集的2D图像提取特征后,准确投射到向量空间中去,拼接转化成BEV空间中的3D立体图景,最后生成汽车周围道路环境的鸟瞰图,依然是一个复杂问题。
Transformer的出现解决了这一难题。2017年,Transformer作为一种新型神经网络结构被谷歌所提出,并迅速演化出谷歌的BERT模型和OpenAI的GPT模型两条路线,后来大火的ChatGPT中的“T”,正是指Transformer大模型。2020年谷歌又提出ViT( Vision Transformer),其也开始广泛应用于计算机视觉领域。特斯拉也是在这个时候,将Transformer引入自动驾驶领域。
Transformer的交叉注意力机制可以将一个序列中的不同位置联系起来,计算出序列的表示形式。这意味着它可以直接进行不同序列(指2D特征图和3D的BEV视图)之间的转换,对于BEV空间转换任务适配性较高。而成功转换后的BEV空间内,由于坐标系相同,来自摄像头的各种图像数据,以及激光雷达、毫米波雷达等的感知数据将可以很方便地进行融合,同时还能引入过去时间片段中的数据,进行时序融合,形成 4D 空间,让感知效果更准确和稳定。
简单来说,基于Transformer的BEV感知技术,可以将车道线等道路几何信息以及人、车等动态目标全都统一到一个坐标系下,便于车辆更加准确地对道路情况进行判断。且由于BEV空间下的感知结果与决策规划所在坐标系也是统一的,因此感知与后续模块通过BEV变换也可以紧密联系到一起。这一技术路径可以通过实时感知,将不同视角的摄像头采集到的图片统一转换到上帝视角,相当于车辆实时生成“活地图”,补足了自动驾驶后续决策所需要的道路拓扑信息,可以实现去高精地图化。
而这种能力还在2022年底的AI DAY上进一步得到了强化,特斯拉将BEV升级到了占用网络(occupancy network),进一步提升了泛化能力。这一技术虽也是BEV技术的延伸,但最大的区别就在于系统的感知从2D变为了3D,让车辆自身置身于一个3D世界中,并在 10 毫秒内向车载计算机输出车辆周围每个 3D 位置的占用概率,并能够预测被瞬时遮挡的障碍物。这意味着,特斯拉可以无需再纠结物体具体是什么,而只考虑体素是否被占用,就可以判断到底要不要躲避,有助于更好化解一些辅助驾驶中的Corner case(极端事件)。
在去高精地图化需求明显的当下,基于Transformer的BEV感知模型更是被认为是解决城市辅助导航驾驶对高精地图过度依赖的关键技术和底气所在。
特斯拉:基于大模型勾勒道路拓扑关系,摆脱对“高精度地图”的依赖
最初 特斯拉的autopilot使用的传统 link prediction,只能预测比较简单的道路,比如高速公路。要实现更加复杂的“城市道路”的拓扑关系预测,需要基于:高精度地图。但是,特斯拉的创新在于,他基于基础的硬件配置(摄像头+普通导航地图)+自创的languageof lanes 模型,来通用化地勾勒整个世界的道路信息。
车道线网络模型:通过车道语言(Luange of Lanes)可以在车载摄像头及地图数据所形成的图像上,将道路数据标注成一系列节点,并赋予不同语义(起始点、延续点、交叉点、终点等),并通过组合不同语义的“单词”形成“句子”,自动勾绘出一条条车道线。
这套“车道语言”,可以在小于10毫秒内,思考超过7500万个可能影响车辆决策的因素,从而提升了特斯拉自动驾驶系统对车辆行驶路径的预判能力,实现城市路况的自动驾驶能力。对于国内公司来讲,大多也都是采取和特斯拉一样的方法,提出自己的“大模型”算法,并加以训练,可以说,现在无图智驾已经成为一大趋势。
4、众包建图
李庆建所指的实时采集更新的地图,正是业内近年来主流的众包建图路线,即通过收集大量车流轨迹信息或单车 SLAM 建图结果,在云端融合为准确的语义地图,并用众包建图的结果更新、修补已有的 HDMap,最后语义地图被压缩并分发到生产汽车上。
这一路线可以说是时代的产物,既只需利用量产车上低成本的自动驾驶设备,用数量弥补质量,某种程度上减轻了对图商的依赖。在海外市场,特斯拉和 Mobileye 都是采用这一技术路线。
众包采集这种自由测绘的行为目前在国内仍属于政策法规的“灰色地带”,其次是数据质量和安全性也得不到充分的保证。
对于众包建图,有人认为这是一种过渡形态,随着智能驾驶等级提升,高精度地图依旧是不可或缺;也有人认为众包会是高精地图的终极形态,革新过去的制图流程。从目前的发展来看,众包地图的路线是相对具备性价比且可行的路线。
5、实时建图
在众包建图之后,也开始走上实时建图的路线。小鹏 XNGP 利用深度视觉神经网络 XNet 实时建图;理想通过“BEV+Transformer”组合将传感器收集到的数据实际构建在线矢量地图等,可以看到,车企们在扔掉高精地图这根“拐杖”后,开始寻求从感知层面去构建一张实时地图作为替代方案。
在 2022 年的 GTC 大会主题演讲中,NVIDIA 就发布了多模式地图平台 NVIDIA DRIVE Map,预计到 2024 年,DRIVE Map 将为北美、欧洲和亚洲的 50 万公里道路,提供实地测量的真值地图。
6、总结
无论是众包地图,还是实时建图,问题的难点依旧在于数据,一方面是地理数据采集的合规性、数据审核的时效性以及数据的归属和利用。
虽然目前在处于政策空白期,但行业各方已经在着力推动时空数据的共享、管理和规范。今年两会期间,何小鹏也在提案中建议“允许和鼓励众源方式更新地图,既鼓励智能网联汽车作为高精地图产品的使用者,也允许其成为高精地图数据的采集者。”今年 7 月,在中国汽车工程学会、中国测绘学会、国家智能网联汽车创新中心、中国地图出版社集团有限公司等单位发起下,已正式成立智能网联汽车自动驾驶地图基础平台产业联盟,包括蔚小理、上汽、长安、比亚迪、长城等 30 余家企业单位均确认加入。