UniAD大模型开路,智能车驶入AGI时代

作者 |老缅

编辑 |德新

f1b41808e81ca0742228d95af56ed8d1.jpeg

在刚刚结束不久的北京车展上,除一众明星车型亮相,供应链企业也开始大秀肌肉,其中尤其以端到端大模型为代表,焕新一代的智驾技术栈掀起了新一轮热潮。

作为首个提出感知决策一体化自动驾驶通用模型的公司,商汤绝影也在这次车展上第一次向公众展示了面向量产的端到端自动驾驶解决方案UniAD(Unified Autonomous Driving)的道路测试表现

一、UniAD,让智能驾驶「像人一样」

相信不少用户已经关注到,今年以来,几乎所有车企或产业链公司在宣传智驾时,最常用的形容词之一,就是「媲美真人驾驶」。

端到端大模型的出现,其重要方向之一就是解决「驾驶拟人化」的问题。

dd994d86be4b7fe893864dab00bccea5.jpeg

商汤绝影在这次北京车展上,展示出了在无高精地图、仅靠视觉感知的实际道路测试成果

无论是城市道路还是无线的乡村道路上,搭载UniAD的车辆都能准确地完成大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作。

通常城市道路错综复杂,乡村道路更是路况难测,比如永远不知道什么时候会有慢行车挡路;什么时候会有电动小三轮突然从侧方出现;什么时候前方会有占道施工或临时堵塞等等。

这种无固定性、遇到情况需要依靠车主自身经验解决的行驶场景,在自动驾驶领域被称之为Corner Case。

尽管类似场景和挑战,在整个驾驶过程中的占比可能不到10%,能否解决这样的场景,却是智驾从定位「小众科技」赢得大众信任的关键,也是智驾系统安全性的关键。

随着城区智驾成为高阶智驾竞争的主战场,场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况。

基于此,端到端技术的出现开辟了一条新路径,将智驾的开发范式从铺设大量人力,转变为持续算力投入和高质量数据输入。

今年年初,特斯拉开始向部分用户推送FSD V12版本的端到端自动驾驶方案,业内也出现了越来越多的端到端智驾方案,不过大部分端到端方案采用的是更容易落地的由感知和决策两个模型组成的「两段式」架构,两个模型之间依然存在信息传递过滤或丢失的问题。

而UniAD将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型,也就是一个完全感知决策一体化的「端到端」技术栈。

8aa0cd4d5c6909f9f81720a40cd12c70.jpeg

借助商汤科技大装置的算力、高质量仿真数据以及模型性能,UniAD端到端方案有更高的能力上限,以及强大的学习和思考能力;数据驱动的端到端模型泛化能力强、迭代效率快,可以帮助车企低成本快速开城;纯视觉感知的无图方案,进一步降低系统的软硬件成本,助力智驾普及,实现全国都能开。

在端到端系统基础上,商汤绝影在这次车展期间还介绍了新一代自动驾驶大模型DriveAGI,推动自动驾驶从数据驱动向认知驱动的跃迁。

e8829fbed352fc6131526c7cb44dd786.jpeg

二、大模型登陆小米SU7,智能座舱升维开卷

在此之前的4月23日,商汤科技发布全新升级的「日日新SenseNova 5.0」大模型。

据悉,6000亿参数的「日日新5.0」采用混合专家架构(MOE),具备更强的知识、数学、推理及代码能力,成为国内首个全面对标甚至超越GPT-4 Turbo的大模型,多模态能力领先GPT-4V

基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩7B、13B大模型,更适合车端部署。

据官方透露,前不久上市的小米SU7将AI大模型带进座舱,而商汤日日新大模型也全面助力小爱同学车载语音场景应用。

但这不是商汤绝影发力座舱体验升维的全部。

据悉,商汤绝影从去年发售的Apple Vision Pro汲取灵感,凭借感知技术和高效的迭代效率,将3D Gaze高精视线交互和3D动态手势交互这两大全新座舱3D交互演示带到现场,让观众体验到更符合人类直觉的舱内交互方式,推动座舱交互向更安全、更便利的3D交互升维进化。

据现场演示,操作人员坐在模仿座舱的屏幕前,通过3D Gaze高精视线交互和3D动态手势交互,方法与Apple Vision Pro相类似。据说,这是全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术

目前,采用「非接触式」交互已经成为智能座舱交互革命的必然趋势,而视线交互是最为直接和便捷的方案之一。但过去,受限于精度等原因,DMS通常只能做到分心监测等舱内大面积区域的识别,很难通过它进行具体的交互动作。

商汤绝影全球首创3D Gaze高精视线交互,通过提升视线的精度,能精准识别到驾驶员注视中控屏或者后排用户看向后排屏幕的具体的某个图标并进行交互,实现「所见即所选」。

这背后,是一套「千人千眼」的高精度三维眼球模型

商汤绝影使用先进的眼动追踪技术和高精度的眼部成像设备,收集并分析驾驶员的眼部数据,精准为每个人的定制个性化的眼球模型,再以「千人千眼」的高精度三维眼球模型为基础,结合创新的亚像素级细节定位和信息融合技术,突破了座舱场景下的视线精度难题,配合手势、语音甚至是眨眼等方式,将给用户带来更智能、更个性化的舱内视觉交互体验。

3D动态手势交互则是以超高精的三维手部重建为基础,实时捕捉、识别与分析用户的三维手势动作,实现对车辆功能控制的技术,能让用户通过手势隔空进行各类座舱交互。

商汤绝影表示,已经实现这两大舱内3D交互功能相互配合,如同Vision Pro裸眼上车,革命性改变了座舱交互的方式,让用户从传统的物理按键和屏幕触控方式中解脱出来,打造更符合人类直觉的自然交互体验。

三、绝影寻找自己的「问界」

未来汽车智能化的竞争,本质上是通用人工智能技术融合应用的比拼。」这是商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚的观点。

而在智能汽车的浪潮里,商汤绝影给自己的定位是:加速智能汽车驶入AGI时代的核心技术伙伴,将人工智能技术与汽车产业深度融合,构建了驾 - 舱 - 云三位一体的通用人工智能 (AGI) 技术架构,打造了智能驾驶、智能座舱和AI云的多元产品体系。

从技术实力上来看,背靠商汤的商汤绝影,有毋庸置疑的技术底蕴和研发实力,但再好的技术也需要强力的产品来推动落地和背书。

在这一方面,商汤绝影还需要更多强有力的合作伙伴。

截至2023年12月,商汤绝影已与本田、比亚迪、长城、广汽、红旗、极氪、哪吒、奇瑞、蔚来等超过30家国内外车企携手合作,覆盖超90款车型,累计交付195万辆智能汽车。

其中不乏广汽埃安旗下高端豪华品牌昊铂王牌车型GT这样的高端车型,也有极氪X、奇瑞捷途旅行者等中端定位的车型,但商汤绝影还需要更加强有力的爆款车型,让真正的消费级市场有所感知。

智能车时代,商汤绝影也在找寻自己的那个「问界」。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/621477.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++学习笔记3

A. 求出那个数 题目描述 喵喵是一个爱睡懒觉的姑娘,所以每天早上喵喵的妈妈都花费很大的力气才能把喵喵叫起来去上学。 在放学的路上,喵喵看到有一家店在打折卖闹钟,她就准备买个闹钟回家叫自己早晨起床,以便不让妈妈这么的辛苦…

创新点!CNN与LSTM结合,实现更准预测、更快效率、更高性能!

推荐一个能发表高质量论文的好方向:LSTM结合CNN。 LSTM擅长捕捉序列数据中的长期依赖关系,而CNN则擅长提取图像数据的局部特征。通过结合两者的优势,我们可以让模型同时考虑到数据的时序信息和空间信息,减少参数降低过拟合风险&a…

STM32_HAL_RTC_解决恢复电源时再一次初始化

1问题 板子再次恢复电源时直接初始化了时间 2解决思路 在初始化函数(MX_RTC_Init();)中增加判断,判断是否是二次初始化 将值放入备份存储其中 3问题图 4解决后的源码 /* RTC init function */ void MX_RTC_Init(void) {/* USER CODE BE…

C++青少年简明教程:C++数据类型

C青少年简明教程:C数据类型 数据类型定义了变量可以存储哪些类型的数据,以及对这些数据可以进行哪些操作。C提供了丰富的数据类型供开发者使用。 下面是 C 中常见的数据类型: ★整型(int):整数类型的数据…

零一万物发布千亿参数模型Yi-Large,李开复呼吁关注TC-PMF,拒绝Ofo式烧钱打法

5月13日,在零一万物成立一周年之际,零一万物 CEO 李开复博士携带千亿参数 Yi-Large 闭源模型正式亮相,正式进军全球 SOTA 顶级大模型之首,在斯坦福最新的 AlpacaEval 2.0 达到全球大模型 Win Rate 第一。除此之外,零一…

【代码随想录】【动态规划】背包问题 - 完全背包

完全背包 模板:完全背包问题 问题描述 完全背包问题与01背包问题唯一的区别在于: 在01背包中:每个物品只有一个,要么放入背包,要么不放入背包在完全背包中:每个物品有无限多个,可以不放入背…

迪安诊断数智中心战略与PMO负责人徐黎明受邀为第十三届中国PMO大会演讲嘉宾

全国PMO专业人士年度盛会 迪安诊断技术集团股份有限公司数智中心战略与PMO负责人徐黎明先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“软件研发项目管理指标体系建设实践”。大会将于6月29-30日在北京举办,敬请关注! …

Rx(Reactive Extensions)的由来

既然我们已经介绍了响应式编程,现在是时候了解我们的明星了:响应式扩展,通常简称为Rx。微软开发了Reactive扩展库,使其易于处理事件流和数据流。在某种程度上,时变值本身就是一个事件流;每个值更改都是一种类型的事件它会更新依赖…

电流反馈型运放设计要点总结

目录 前言 基本架构 CFB和VFB运算放大器的差异 总结:电流反馈(CFB)与电压反馈(VFB) 前言 最近一个项目用到THS3491,发生了震荡,这是一个电流型反馈运放,借此机会,温故一下,电流运放的相关设计知识 基本架…

JAVA远程调试步骤

1.生成参数 2.复制到启动命令中 3.打jar包运行到远程服务器中 4.开始远程调试

【数据结构与算法 刷题系列】环形链表的约瑟夫问题

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:数据结构与算法刷题系列(C语言) 目录 一、问题描述 二、解题思路详解 解题思路 解题步骤 三、C语言代码…

NSSCTF | [LitCTF 2023]我Flag呢?

这道题没啥好说的,题目标签为源码泄露,我们直接CtrlU查看网页源码就能在最后找到flag 本题完

Linux---windows 机器和远端的 Linux 机器如何通过 XShell 传输文件

一、关于rzsz 这个工具用于 windows 机器和远端的 Linux 机器通过 Xshell 传输文件. 二、下载rzsz软件 用root输入命令: sudo yum install -y lrzsz下载完成: 三、如何传输 有图形化界面 1、从Windows机器传输给远端Linux机器 ① 直接拖拽 直接将…

从编辑器角度来理解定义和声明

报错,在函数里面(包括int main函数)extern声明会和定义冲突 下面这种写法就很ok 静态变量的反汇编 #include<iostream> using namespace std; extern int c; int ma

Mysql与Java连接----JDBC

前言: 当将Java与MySQL数据库连接时&#xff0c;JDBC&#xff08;Java Database Connectivity&#xff09;是一种重要的技术。JDBC允许Java应用程序通过标准的数据库访问方式与不同的关系型数据库进行通信&#xff0c;其中包括MySQL。通过使用JDBC&#xff0c;Java开发人员可以…

ICode国际青少年编程竞赛- Python-5级训练场-多参数函数

ICode国际青少年编程竞赛- Python-5级训练场-多参数函数 1、 def go(a, b):Spaceship.step(2)Dev.step(a)Spaceship.step(b)Dev.turnRight()Dev.step(b)Dev.turnLeft()Dev.step(-a) Dev.turnLeft() Dev.step(3) Dev.step(-3) go(3, 2) go(6, 1) go(5, 2) go(4, 3)2、 def go(…

processing完整教程

概述&#xff1a;processing在我眼里就是libgdx的高度封装&#xff0c;如果各位会libgdx&#xff0c;学processing应该可以说是无师自通&#xff0c;当然processing是java语言那边的。 processing是什么&#xff1f; 官网是这样解释的&#xff1a;Processing 是一本灵活的软件…

快速判断出485从站设备是否支持MODBUS RTU无线通讯

对于变频器和仪表设备&#xff0c;都支持485串口通讯&#xff0c;那么怎么判断从站设备支持那种协议呢&#xff1f;通常分为两种方式去判断&#xff1a;1.从设备参数参看2.从设备通讯报文查看。本次文章以以台达MH300系列变频器为例。 1.从设备通讯参数查看 使用设备之前一定…

C语言 文件操作

目录 1. 什么是文件&#xff1f;2. 二进制文件和文本文件3. 文件的打开和关闭3.1 流和标准流3.1.1 流3.1.2 标准流 3.2 文件指针3.3 打开、关闭文件3.3.1 fopen - 打开文件3.3.2 fclose - 关闭文件 4. 文件的顺序读写4.1 fgetc - 从文件流获取一个字符4.2 fputc - 将一个字符写…

金融业开源软件应用 评估规范

金融业开源软件应用 评估规范 1 范围 本文件规定了金融机构在应用开源软件时的评估要求&#xff0c;对开源软件的引入、维护和退出提出了实现 要求、评估方法和判定准则。 本文件适用于金融机构对应用的开源软件进行评估。 2 规范性引用文件 下列文件中的内容通过文中的规范…