Bird's Eye View:将车辆周围的场景从车辆俯视图的角度呈现出来
优势
帮助理解周围环境并进行决策。
原理
传感器数据获取
数据预处理
雷达点云
去噪:去除点云数据中的噪声点,例如使用统计滤波器、体素滤波器等方法。
下采样:为减小计算量和内存需求,可以对点云数据进行下采样,例如使用体素栅格滤波器等方法。
坐标变换:将点云数据从激光雷达坐标系转换到全局坐标系或车辆坐标系
生成BEV表示:将三维点云数据投影到二维平面上,生成高度、强度等特征图。可以使用不同的策略,如最大高度、平均高度等。
相机图像数据
裁剪尺寸
颜色空间变换
透视变换
数据融合,不同传感器的
数据增强:旋转、平移、缩放、噪声添加
最后得到二维特征图或多通道图输入到bev网络中
生成BEV表示:将预处理后的数据投影到一个二维平面上
雷达点云
三维点云数据中提取所需特征,如点的X、Y、Z坐标、强度等
将三维坐标(X, Y, Z)投影到一个二维平面上,通常保留X和Y坐标。这样,每个点云数据点都可以映射到二维平面上的一个像素
根据需要选择的特征(如高度、强度等),为每个像素分配一个或多个值。
将生成的二维特征图进行必要的缩放和裁剪,以满足网络输入要求
相机图像数据
需要校准相机参数,包括内参(焦距、主点等)和外参(相机与全局坐标系之间的旋转和平移关系)
使用透视变换将相机图像转换为BEV表示。透视变换通常涉及计算一个投影矩阵,该矩阵将原始图像中的像素坐标映射到二维平面上的坐标
应用投影矩阵到原始图像,生成BEV表示。这可能需要插值操作以填充新生成的图像中的空白像素
最后:将其输入到卷积神经网络(CNN)或其他深度学习模型中进行特征提取和任务相关处理
特征提取
选择网络结构
网络结构包括VGG、ResNet、U-Net、EfficientNet
输入到bev
卷积
利用卷积核对输入数据进行局部相关操作,以提取局部特征
激活
使用激活函数(如ReLU、Leaky ReLU等)对卷积层的输出进行非线性变换
池化操作
使用池化层(如最大池化、平均池化等)对特征图进行下采样,以减少计算量和内存需求
使用全连接层和输出层将提取的特征用于具体任务。例如,对于目标检测任务,可以使用Faster R-CNN、YOLO等网络结构;对于语义分割任务,可以使用U-Net、Deeplab等网络结构。
总结:特征提取过程的关键是选择合适的网络结构和参数,以便在保持计算效率的同时获得良好的性能。根据具体应用需求,可以对网络结构和训练策略进行调整和优化。
任务相关处理
目标检测
使用特定于目标检测的网络结构,如Faster R-CNN、YOLO、SSD等。
将提取的特征图输入到目标检测网络中,以预测目标的边界框和类别
使用非极大值抑制(NMS)等后处理技术,筛选和优化检测结果
语义分割
使用特定于语义分割的网络结构,如U-Net、DeepLab、SegNet等
将提取的特征图输入到语义分割网络中,以预测每个像素的类别标签
使用阈值、形态学操作等后处理技术,优化分割结果。
实例分割
使用特定于实例分割的网络结构,如Mask R-CNN、YOLACT、SOLO等
将提取的特征图输入到实例分割网络中,以预测目标的边界框、类别和像素级掩码
使用后处理技术,如NMS、掩码合并等,优化分割结果
后处理:将任务相关处理的结果转换为可解释的输出,如边界框、掩膜等
应用
自动驾驶:检测障碍物、路径规划、预测轨迹,感知
无人机:环境感知规划
机器人
智能系统