YD/T 6770—2026《人工智能 关键基础技术 具身智能基准测试方法》

📅 2026/7/5 15:07:22 👁️ 阅读次数 📝 编程学习
YD/T 6770—2026《人工智能 关键基础技术 具身智能基准测试方法》

一、标准基础档案

  1. 发布单位:工业和信息化部(2026 年第 3 号公告批准)

  2. 发布日期:2026-02-13

  3. 实施日期:2026-06-01

  4. 属性:通信行业推荐性标准(YD/T),国内首份具身智能统一评测标准,项目代号 EAI Bench

  5. 牵头编制:中国信息通信研究院,联合 40 余家机器人、AI 企业共同制定

官网地址:工业和信息化标准信息服务平台

二、内容

范围

适用于人形机器人、双臂服务机器人、四足巡检机器人等全部具身智能系统,覆盖“感知 - 决策 - 执行”全链路性能评测;支持两类测试环境:计算机仿真虚拟场景、线下实景实训场地。

具身智能 embodied artificial intelligence

研究、开发、实现AI 算法 + 物理实体硬件融合,让机器能自主和真实物理世界互动、适应环境变化。

注释补充

“物理实体” 不只是人形机器人,覆盖所有带感知、执行能力的硬件: 人形机器人、机械臂服务机器人、无人车、无人机、巡检四足机器人、智能移动设备全都算。它不是只跑在电脑里的纯 AI 大模型,是有身体、能动手动脚、能感知真实世界的人工智能。

具身智能系统 embodied artificial intelligence system

一套完整闭环智能系统,完整链路: 感知环境 → 识别理解信息 → 自主做决策 → 执行动作 → 从过往操作经验里自我学习、适应新环境。

注释拆解系统两大核心模块

  1. 传感模块:摄像头、雷达、力传感器、麦克风等,接收图像、距离、声音、触觉等多类外界信息;

  2. 动作执行模块:电机、减速器、机械臂、行走底盘等,输出控制指令完成移动、抓取、开关门等动作。

通俗理解

一套完整可落地的机器人整机软硬件,是实现 “具身智能” 的载体。

具身智能系统通过传感器模块处理多模态输入,并通过动作模块输出控制指令,使得物理实体在物理世界中自主完成任务。

具身智能系统任务 embodied artificial intelligence system task

给定场景、限制条件后,系统把一个大目标自动拆成一连串分步动作,一步步执行,最终完成目标的完整流程。

举例

高层目标:把货架上纸箱搬到工作台 系统自动拆解任务:

  1. 导航至货架 → 2. 视觉定位纸箱 → 3. 机械臂抓取 → 4. 移动到工作台 → 5. 平稳放置 这一整套完整流程,就叫具身智能系统任务

缩略语

(1)3D

全称 Three Dimensional,中文释义三维,在这份具身智能标准里,一般指代三维空间感知、三维建模、三维重建这类机器人视觉相关技术。

(2)lx 勒克斯

全称 lux,中文释义勒克斯,是光照度的国际标准单位,用来规定测试场景里的环境光照条件,保障不同厂商的测试环境参数统一、结果可横向对比。

(3)RGB

全称 Red Green Blue,中文释义红绿蓝,是工业视觉、机器人摄像头通用的色彩模式,用来规范视觉采集、图像识别环节的色彩参数标准。

三、具身智能基准测试框架

YD/T 6770—2026 具身智能基准测试标准的核心总框架,完整定义了一套标准化机器人评测流水线,分为四大模块,流程逻辑:

环境设置 → 测试任务库(输入) → 测试过程(核心执行) → 指标计算(输出评测结果)所有企业、实验室、政企采购评测人形 / 四足 / 双臂机器人,都必须遵循这套统一流程,保证不同厂商机器人性能可以公平横向对比。

1. 环境设置(测试前置准备,分两大场景)

测试前必须先搭建标准化环境,分为仿真虚拟、真实实景两类:

① 3D 交互式仿真测试环境(电脑虚拟场景,低成本初测)

包含三类基础素材:

  • 3D 物体资产:箱子、工具、桌椅、障碍物等测试道具三维模型

  • 本体仿真模型:被测机器人数字仿真模型

  • 环境属性:光照 (lx 勒克斯)、空间尺寸、地面摩擦力、RGB 色彩参数等统一环境条件

② 真实场景部署验证评估(线下实体场地,最终落地实测)

覆盖五大主流商用落地赛道:工业制造、商业零售、应急安全、家庭服务、医疗健康

2. 测试任务库(统一标准化考题,作为测试输入)

相当于机器人的标准化试卷,统一所有被测机器人的考核内容:

  1. 构建方法:规定怎么设计导航、抓取、开门、分拣等标准任务;

  2. 泛化评估协议设置:规定如何测试机器人在陌生新场景的适应能力,防止机器人只在固定演示场景表现好。

3. 测试过程(框架核心,执行评测)

(1)测试对象

两类被测主体全覆盖:

  • 算法模型:单纯具身智能大模型、感知决策算法

  • 整机系统:装好算法、带机械结构的完整实体机器人

(2)四种标准化测试方法(可单独用,也可组合)
  1. 静态仿真测试:虚拟环境、无动态障碍物,基础能力摸底

  2. 动态仿真测试:虚拟环境加入移动行人、滑动障碍物,测动态避障

  3. 真实环境测试:线下实体场地实景跑任务,最贴近真实工作工况

  4. 组合式测试:仿真 + 实景交叉测试,综合验证虚实一致性

4. 指标计算

跑完测试后,统一计算 5 项硬性量化指标,作为机器人性能唯一评判标准:

  1. 任务成功率:给定任务能完整做完的次数占比(核心指标)

  2. 任务执行效率:完成单次任务平均耗时,衡量运行速度

  3. 人工干预率:机器人卡住、出错时需要人类介入协助的频率,数值越低自主能力越强

  4. 场景扰动衰减率:环境出现障碍物、光线变化后,任务成功率下降幅度,数值越小鲁棒性越好

  5. 平均任务能耗:完成单次任务消耗电量,直接关系续航、运营成本

四、具身智能基准测试方法

1. 环境设置

3D 交互式仿真测试环境4条强制要求

(1)3D 物体资产要求

仿真平台必须能导入、自定义各类测试道具模型; 物体可修改的属性包含:RGB 颜色、表面纹理、长宽尺寸、物理材质(金属 / 塑料 / 布料等)。 作用:用来模拟不同外观、重量、摩擦力的工件,测试机器人视觉识别、抓取适配能力。

(2)本体仿真模型(机器人数字模型)

文件格式兼容:支持机器人行业通用的URDF、MJCF(MuJoCo)两种主流模型文件;

精度硬性规定:必须使用机器人原厂官方模型文件,仿真模型的外形尺寸、重量、关节力矩、摩擦、动力学参数,必须和实体真机完全一致。 核心意义:避免 “仿真里性能很好,真机落地翻车” 的虚实不一致问题。

(3)环境可调功能

仿真工具必须具备三类编辑能力:

  • 模拟光照强弱、明暗切换(对应标准里光照单位 lx 勒克斯);

  • 自由切换、调整摄像头视角(模拟机器人机载 RGB 相机视角);

  • 自由摆放、移动场景内物体,搭建不同测试任务布局。

(4)仿真还原标准

3D 仿真场景必须做到真实世界 1:1 等比例复刻,空间尺寸、物体距离、障碍物位置和实景完全对应,保证仿真测试数据具备参考价值。

2. 测试任务库

任务库必须包含「原子技能→基础任务→长线程任务」三级,逐层验证机器人能力上限

构建方法:

1)原子技能(最基础单项动作)
  • 定义:机器人最小、不可拆分的单一基础动作;

  • 考核目的:单独验证机械、感知底层动作稳不稳定;

  • 举例(附录 A.1 标准示例):前进、转向、抓取、松开、视觉识别单个物体、避障、升降机械臂等;

  • 作用:先筛底层硬件 / 基础感知有没有故障。

2)基础任务(多个原子技能简单组合)
  • 规则:由多个原子技能拼接,场景里目标物体不超过 2 种

  • 举例:识别纸箱(原子识别)+ 抓取纸箱(原子抓取),全程只涉及「纸箱」1 种物体;开门(原子识别门把手 + 原子旋转抓取),仅门把手 1 个对象;

  • 特点:短流程、低复杂度,测简单组合动作。

3)长线程任务(多段基础任务串联,贴近真实工作)
  • 规则:2 个及以上基础任务拼接,完整模拟真实工作流程;

  • 举例:导航到货架(基础任务 1)→抓取货物(基础任务 2)→导航到工作台(基础任务 3)→放置货物(基础任务 4);

  • 作用:模拟工厂、商超完整作业流程,测机器人连续自主工作能力。

泛化能力的标准化测试方法

核心目的:给机器人制造各类环境干扰、任务变量,测试它在【非完美演示环境】下能不能稳定完成任务,避免厂商只在固定样板场景刷高分。

a)感知能力(只测视觉 / 传感识别,不涉及决策、动作)

(1)测试任务:视觉理解类任务

标准规定的干扰变量(模拟真实环境变化)

光照强弱(lx 勒克斯)、物体纹理、物体颜色、动态移动物体干扰、相机倾斜偏移、物体被遮挡、场景混入无关杂物。

(2)通俗举例

原本识别白色纸箱;换成昏暗灯光、纸箱贴花纹贴纸、一半被塑料桶挡住、旁边来回走过人,看机器人还能不能精准识别目标箱子。

b)决策(推理)能力(只测逻辑判断、语义理解,不涉及抓取移动动作)

(1)测试任务:语义交互类任务

干扰变量

依靠颜色 / 重量 / 尺寸 / 材质区分物体、模糊口语指令、常识逻辑判断。

(2)原文示例

  1. 模糊指令:“拿一个水果放到盘子上”(无指定苹果 / 香蕉,机器人自行区分水果类物体)

  2. 多选项模糊需求:“从冰箱拿一罐能量饮料,可乐、苹果汁、红牛任选” 重点考核:机器人听懂模糊人类指令、自主区分物体属性做选择的逻辑推理能力。

c)行动能力(只测机械执行、运动适配,不涉及识别与思考)

(1)测试任务:动作执行类任务

干扰变量(改变物体 / 场地物理属性)

物体轻重变化、地面摩擦力、物品易碎程度、地面温度、斜坡凹凸等。

(2)通俗举例

抓取 1kg 纸箱稳定;换成 5kg 重物、光滑油面地面、易碎玻璃杯,测试机械臂力度、行走平衡会不会失控。

d)感知决策(认知)能力:视觉识别 + 逻辑推理联动

(1)测试任务:视觉语言类任务

核心规则(备注):仅改变物体外观,不会要求变更动作

(2)举例

指令 “拿起红色水杯”,水杯换成红色马克杯、红色塑料杯,外观变,但任务动作都是 “抓取水杯”。 考核:不管目标长什么样,只要语义匹配,机器人都能识别并执行同一套动作。

e)感知行动能力:视觉识别 + 机械动作联动

(1)测试任务:视觉动作类任务

核心规则(备注):物体视觉外观一变,对应的抓取 / 移动动作就要同步调整

(2)举例

抓取长方体盒子用侧夹;换成球形皮球,视觉识别后自动切换环抱抓取姿态。 考核:视觉感知到物体形态变化,能实时调整机械执行动作。

f)决策行动能力:语言指令推理 + 机械动作联动

(1)测试任务:语言动作类任务

核心规则(备注):不同语言指令,对应完全不同的空间动作流程

(2)举例

指令 1:“把杯子放到桌上”;指令 2:“把杯子放进抽屉” 两条指令语义不同,机器人规划的移动、放置动作完全不一样,考核听懂语言并匹配对应行动。

g)感知决策行动一体化能力(全链路终极考核)

(1)测试任务:视觉语言动作类任务

覆盖全部链路:视觉识别物体 → 理解模糊语言指令 → 自主规划全套抓取 / 移动动作

干扰:物体外观、尺寸、位置、环境光线全部随机变化

(2)通俗完整例子

场景里混杂苹果、矿泉水、纸巾,语音模糊指令 “拿一个解渴的东西放到托盘”; 光线昏暗、苹果被遮挡、瓶子大小不一,机器人要自主识别、推理、抓取、转运整套流程无人工干预。

3. 测试过程

测试对象具体包括:

(1)模型:包括模块化和端到端等不同的算法模型实现方式

(2)已部署模型的整机系统:本体形态包括不限于人形、轮臂式、四足、自主移动机器人(AMR)等。

测试方式:

可采用静态仿真、动态仿真测试和真实环境测试三种方式,具体如下:

指标计算

附录A

原子技能是具身智能不可进一步分解的最小单元,可组合用于构建复杂动作。通过构建原子技能库,可以检验具身智能的基础行动能力。