YD/T 6770—2026《人工智能关键基础技术具身智能基准测试方法》

📅 2026/7/5 15:07:22 👁️ 阅读次数 📝 编程学习

一、标准基础档案

发布单位：工业和信息化部（2026 年第 3 号公告批准）
发布日期：2026-02-13
实施日期：2026-06-01
属性：通信行业推荐性标准（YD/T），国内首份具身智能统一评测标准，项目代号 EAI Bench
牵头编制：中国信息通信研究院，联合 40 余家机器人、AI 企业共同制定

官网地址：工业和信息化标准信息服务平台

二、内容

范围

适用于人形机器人、双臂服务机器人、四足巡检机器人等全部具身智能系统，覆盖“感知 - 决策 - 执行”全链路性能评测；支持两类测试环境：计算机仿真虚拟场景、线下实景实训场地。

具身智能 embodied artificial intelligence

研究、开发、实现AI 算法 + 物理实体硬件融合，让机器能自主和真实物理世界互动、适应环境变化。

注释补充

“物理实体” 不只是人形机器人，覆盖所有带感知、执行能力的硬件：人形机器人、机械臂服务机器人、无人车、无人机、巡检四足机器人、智能移动设备全都算。它不是只跑在电脑里的纯 AI 大模型，是有身体、能动手动脚、能感知真实世界的人工智能。

具身智能系统 embodied artificial intelligence system

一套完整闭环智能系统，完整链路：感知环境 → 识别理解信息 → 自主做决策 → 执行动作 → 从过往操作经验里自我学习、适应新环境。

注释拆解系统两大核心模块

传感模块：摄像头、雷达、力传感器、麦克风等，接收图像、距离、声音、触觉等多类外界信息；
动作执行模块：电机、减速器、机械臂、行走底盘等，输出控制指令完成移动、抓取、开关门等动作。

通俗理解

一套完整可落地的机器人整机软硬件，是实现 “具身智能” 的载体。

具身智能系统通过传感器模块处理多模态输入，并通过动作模块输出控制指令，使得物理实体在物理世界中自主完成任务。

具身智能系统任务 embodied artificial intelligence system task

给定场景、限制条件后，系统把一个大目标自动拆成一连串分步动作，一步步执行，最终完成目标的完整流程。

举例

高层目标：把货架上纸箱搬到工作台系统自动拆解任务：

导航至货架 → 2. 视觉定位纸箱 → 3. 机械臂抓取 → 4. 移动到工作台 → 5. 平稳放置这一整套完整流程，就叫具身智能系统任务。

缩略语

（1）3D

全称 Three Dimensional，中文释义三维，在这份具身智能标准里，一般指代三维空间感知、三维建模、三维重建这类机器人视觉相关技术。

（2）lx 勒克斯

全称 lux，中文释义勒克斯，是光照度的国际标准单位，用来规定测试场景里的环境光照条件，保障不同厂商的测试环境参数统一、结果可横向对比。

（3）RGB

全称 Red Green Blue，中文释义红绿蓝，是工业视觉、机器人摄像头通用的色彩模式，用来规范视觉采集、图像识别环节的色彩参数标准。

三、具身智能基准测试框架

YD/T 6770—2026 具身智能基准测试标准的核心总框架，完整定义了一套标准化机器人评测流水线，分为四大模块，流程逻辑：

环境设置 → 测试任务库（输入） → 测试过程（核心执行） → 指标计算（输出评测结果）所有企业、实验室、政企采购评测人形 / 四足 / 双臂机器人，都必须遵循这套统一流程，保证不同厂商机器人性能可以公平横向对比。

1. 环境设置（测试前置准备，分两大场景）

测试前必须先搭建标准化环境，分为仿真虚拟、真实实景两类：

① 3D 交互式仿真测试环境（电脑虚拟场景，低成本初测）

包含三类基础素材：

3D 物体资产：箱子、工具、桌椅、障碍物等测试道具三维模型
本体仿真模型：被测机器人数字仿真模型
环境属性：光照 (lx 勒克斯)、空间尺寸、地面摩擦力、RGB 色彩参数等统一环境条件

② 真实场景部署验证评估（线下实体场地，最终落地实测）

覆盖五大主流商用落地赛道：工业制造、商业零售、应急安全、家庭服务、医疗健康

2. 测试任务库（统一标准化考题，作为测试输入）

相当于机器人的标准化试卷，统一所有被测机器人的考核内容：

构建方法：规定怎么设计导航、抓取、开门、分拣等标准任务；
泛化评估协议设置：规定如何测试机器人在陌生新场景的适应能力，防止机器人只在固定演示场景表现好。

3. 测试过程（框架核心，执行评测）

（1）测试对象

两类被测主体全覆盖：

算法模型：单纯具身智能大模型、感知决策算法
整机系统：装好算法、带机械结构的完整实体机器人

（2）四种标准化测试方法（可单独用，也可组合）

静态仿真测试：虚拟环境、无动态障碍物，基础能力摸底
动态仿真测试：虚拟环境加入移动行人、滑动障碍物，测动态避障
真实环境测试：线下实体场地实景跑任务，最贴近真实工作工况
组合式测试：仿真 + 实景交叉测试，综合验证虚实一致性

4. 指标计算

跑完测试后，统一计算 5 项硬性量化指标，作为机器人性能唯一评判标准：

任务成功率：给定任务能完整做完的次数占比（核心指标）
任务执行效率：完成单次任务平均耗时，衡量运行速度
人工干预率：机器人卡住、出错时需要人类介入协助的频率，数值越低自主能力越强
场景扰动衰减率：环境出现障碍物、光线变化后，任务成功率下降幅度，数值越小鲁棒性越好
平均任务能耗：完成单次任务消耗电量，直接关系续航、运营成本

四、具身智能基准测试方法

1. 环境设置

3D 交互式仿真测试环境4条强制要求

（1）3D 物体资产要求

仿真平台必须能导入、自定义各类测试道具模型；物体可修改的属性包含：RGB 颜色、表面纹理、长宽尺寸、物理材质（金属 / 塑料 / 布料等）。作用：用来模拟不同外观、重量、摩擦力的工件，测试机器人视觉识别、抓取适配能力。

（2）本体仿真模型（机器人数字模型）

文件格式兼容：支持机器人行业通用的URDF、MJCF（MuJoCo）两种主流模型文件；

精度硬性规定：必须使用机器人原厂官方模型文件，仿真模型的外形尺寸、重量、关节力矩、摩擦、动力学参数，必须和实体真机完全一致。核心意义：避免 “仿真里性能很好，真机落地翻车” 的虚实不一致问题。

（3）环境可调功能

仿真工具必须具备三类编辑能力：

模拟光照强弱、明暗切换（对应标准里光照单位 lx 勒克斯）；
自由切换、调整摄像头视角（模拟机器人机载 RGB 相机视角）；
自由摆放、移动场景内物体，搭建不同测试任务布局。

（4）仿真还原标准

3D 仿真场景必须做到真实世界 1:1 等比例复刻，空间尺寸、物体距离、障碍物位置和实景完全对应，保证仿真测试数据具备参考价值。

2. 测试任务库

任务库必须包含「原子技能→基础任务→长线程任务」三级，逐层验证机器人能力上限

构建方法：

1）原子技能（最基础单项动作）

定义：机器人最小、不可拆分的单一基础动作；
考核目的：单独验证机械、感知底层动作稳不稳定；
举例（附录 A.1 标准示例）：前进、转向、抓取、松开、视觉识别单个物体、避障、升降机械臂等；
作用：先筛底层硬件 / 基础感知有没有故障。

2）基础任务（多个原子技能简单组合）

规则：由多个原子技能拼接，场景里目标物体不超过 2 种；
举例：识别纸箱（原子识别）+ 抓取纸箱（原子抓取），全程只涉及「纸箱」1 种物体；开门（原子识别门把手 + 原子旋转抓取），仅门把手 1 个对象；
特点：短流程、低复杂度，测简单组合动作。

3）长线程任务（多段基础任务串联，贴近真实工作）

规则：2 个及以上基础任务拼接，完整模拟真实工作流程；
举例：导航到货架（基础任务 1）→抓取货物（基础任务 2）→导航到工作台（基础任务 3）→放置货物（基础任务 4）；
作用：模拟工厂、商超完整作业流程，测机器人连续自主工作能力。

泛化能力的标准化测试方法

核心目的：给机器人制造各类环境干扰、任务变量，测试它在【非完美演示环境】下能不能稳定完成任务，避免厂商只在固定样板场景刷高分。

a）感知能力（只测视觉 / 传感识别，不涉及决策、动作）

（1）测试任务：视觉理解类任务

标准规定的干扰变量（模拟真实环境变化）

光照强弱（lx 勒克斯）、物体纹理、物体颜色、动态移动物体干扰、相机倾斜偏移、物体被遮挡、场景混入无关杂物。

（2）通俗举例

原本识别白色纸箱；换成昏暗灯光、纸箱贴花纹贴纸、一半被塑料桶挡住、旁边来回走过人，看机器人还能不能精准识别目标箱子。

b）决策（推理）能力（只测逻辑判断、语义理解，不涉及抓取移动动作）

（1）测试任务：语义交互类任务

干扰变量

依靠颜色 / 重量 / 尺寸 / 材质区分物体、模糊口语指令、常识逻辑判断。

（2）原文示例

模糊指令：“拿一个水果放到盘子上”（无指定苹果 / 香蕉，机器人自行区分水果类物体）
多选项模糊需求：“从冰箱拿一罐能量饮料，可乐、苹果汁、红牛任选” 重点考核：机器人听懂模糊人类指令、自主区分物体属性做选择的逻辑推理能力。

c）行动能力（只测机械执行、运动适配，不涉及识别与思考）

（1）测试任务：动作执行类任务

干扰变量（改变物体 / 场地物理属性）

物体轻重变化、地面摩擦力、物品易碎程度、地面温度、斜坡凹凸等。

（2）通俗举例

抓取 1kg 纸箱稳定；换成 5kg 重物、光滑油面地面、易碎玻璃杯，测试机械臂力度、行走平衡会不会失控。

d）感知决策（认知）能力：视觉识别 + 逻辑推理联动

（1）测试任务：视觉语言类任务

核心规则（备注）：仅改变物体外观，不会要求变更动作

（2）举例

指令 “拿起红色水杯”，水杯换成红色马克杯、红色塑料杯，外观变，但任务动作都是 “抓取水杯”。考核：不管目标长什么样，只要语义匹配，机器人都能识别并执行同一套动作。

e）感知行动能力：视觉识别 + 机械动作联动

（1）测试任务：视觉动作类任务

核心规则（备注）：物体视觉外观一变，对应的抓取 / 移动动作就要同步调整

（2）举例

抓取长方体盒子用侧夹；换成球形皮球，视觉识别后自动切换环抱抓取姿态。考核：视觉感知到物体形态变化，能实时调整机械执行动作。

f）决策行动能力：语言指令推理 + 机械动作联动

（1）测试任务：语言动作类任务

核心规则（备注）：不同语言指令，对应完全不同的空间动作流程

（2）举例

指令 1：“把杯子放到桌上”；指令 2：“把杯子放进抽屉” 两条指令语义不同，机器人规划的移动、放置动作完全不一样，考核听懂语言并匹配对应行动。

g）感知决策行动一体化能力（全链路终极考核）

（1）测试任务：视觉语言动作类任务

覆盖全部链路：视觉识别物体 → 理解模糊语言指令 → 自主规划全套抓取 / 移动动作

干扰：物体外观、尺寸、位置、环境光线全部随机变化

（2）通俗完整例子

场景里混杂苹果、矿泉水、纸巾，语音模糊指令 “拿一个解渴的东西放到托盘”；光线昏暗、苹果被遮挡、瓶子大小不一，机器人要自主识别、推理、抓取、转运整套流程无人工干预。

3. 测试过程

测试对象具体包括：

（1）模型：包括模块化和端到端等不同的算法模型实现方式

（2）已部署模型的整机系统：本体形态包括不限于人形、轮臂式、四足、自主移动机器人（AMR）等。

测试方式：

可采用静态仿真、动态仿真测试和真实环境测试三种方式，具体如下：

指标计算

附录A

原子技能是具身智能不可进一步分解的最小单元，可组合用于构建复杂动作。通过构建原子技能库，可以检验具身智能的基础行动能力。

编程学习技术分享实战经验

资讯详情

YD/T 6770—2026《人工智能 关键基础技术 具身智能基准测试方法》

一、标准基础档案

二、内容

范围

具身智能 embodied artificial intelligence

具身智能系统 embodied artificial intelligence system

具身智能系统任务 embodied artificial intelligence system task

缩略语

三、具身智能基准测试框架

1. 环境设置（测试前置准备，分两大场景）

2. 测试任务库（统一标准化考题，作为测试输入）

3. 测试过程（框架核心，执行评测）

（1）测试对象

（2）四种标准化测试方法（可单独用，也可组合）

4. 指标计算

四、具身智能基准测试方法

1. 环境设置

（1）3D 物体资产要求

（2）本体仿真模型（机器人数字模型）

（3）环境可调功能

（4）仿真还原标准

2. 测试任务库

构建方法：

1）原子技能（最基础单项动作）

2）基础任务（多个原子技能简单组合）

3）长线程任务（多段基础任务串联，贴近真实工作）

泛化能力的标准化测试方法

a）感知能力（只测视觉 / 传感识别，不涉及决策、动作）

b）决策（推理）能力（只测逻辑判断、语义理解，不涉及抓取移动动作）

c）行动能力（只测机械执行、运动适配，不涉及识别与思考）

d）感知决策（认知）能力：视觉识别 + 逻辑推理联动

e）感知行动能力：视觉识别 + 机械动作联动

f）决策行动能力：语言指令推理 + 机械动作联动

g）感知决策行动一体化能力（全链路终极考核）

3. 测试过程

测试对象具体包括：

测试方式：

指标计算

附录A

相关新闻

最新新闻

日新闻

周新闻

月新闻

YD/T 6770—2026《人工智能关键基础技术具身智能基准测试方法》