清华提出ViLa,揭秘 GPT-4V 在机器人视觉规划中的潜力

人类在面对简洁的语言指令时,可以根据上下文进行一连串的操作。对于“拿一罐可乐”的指令,若可乐近在眼前,下意识的反应会是迅速去拿;而当没看到可乐时,人们会主动去冰箱或储物柜中寻找。这种自适应的能力源于对场景的深刻理解和对广泛常识的运用,使人们能够根据上下文推断和解释指令

图片

举例来说,对于机器人系统,底层指令可能是精确的关节运动或轮速控制。相比之下,高级语言指令可能是描述一个任务或目标,比如“将蓝色的盘子放在桌子上”。会更接近人类日常语言、易于理解,而不需要详细规定每个具体的动作。因此使用高级语言指令有助于提高系统的可理解性和用户友好性。

当下对于视觉语言模型(VLM)如 GPT-4V 的研究如火如荼,那么如何借助这些模型让机器人更好地理解高级语言指令,对非专业领域的人们更加友好呢?

来自清华的团队提出了一种简单有效的方法——ViLa,利用 GPT-4V 进行机器人长期任务规划的方法,揭示了 GPT-4V 在机器人视觉语言规划中的潜力,改变了机器人理解和与环境互动的方式。我们将深入探讨如何构建机器人智能体,使其能理解并执行类似于人类的复杂任务,并在不同场景中展现出长期任务规划的强大能力。

论文题目:
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning

论文链接:
https://arxiv.org/abs/2311.17842

博客地址:
https://robot-vila.github.io/


在大型语言模型(LLM)为复杂的长期任务生成步骤计划时,存在的关键局限是缺乏世界基础,无法感知和推理机器人及其环境的物理状态。为此,有人提出使用外部的适应性模型,但这些模块总无法传达在复杂环境中重要的任务相关信息,使 LLM 仍像一个盲人,适应性模型充当其向导时:

  • 盲人仅依靠他们的想象力和向导有限的叙述来理解世界

  • 向导可能无法准确理解盲人的目的

为了解决这一问题,结合视觉和语言进行联合推理显然不可或缺。视觉语言模型(VLM)直接将感知信息融入语言模型的推理过程中,以此为基础,作者提出了 ViLa。

ViLa 通过将视觉信息直接整合到推理和规划过程中,显著提高了在现实世界和模拟环境中解决各种复杂而长期任务的能力。其独特之处在于以零样本方式展示了解决各类真实世界日常操纵任务的能力,能够高效地处理各种开放集指令和对象。ViLa 不仅能够在没有事先学习的情况下执行任务,而且在面对多样化的指令和对象时表现出卓越的适应性

图片

▲图1 ViLA 可以利用基于视觉世界的丰富常识。需要理解空间布局(第一行)、对象属性(中间行)和具有多模态目标的任务(最后一行)

方法

机器人系统通过获取环境的视觉观察  和高级语言指令  来执行操纵任务。生成一连串文本动作,每个动作  都是一个短期语言指令(例如“拿起蓝色容器”),并指定一个子任务或基本技能。

机器人视觉语言规划(ViLA)算法的核心思想是利用 VLM 的能力,通过联合运用视觉和语言,将复杂的高级任务拆解为更容易执行的低级任务序列,实现在动态环境中的闭环规划。

如算法 1 所描述:

图片

▲算法1

  1. 输入: 当前环境的视觉观察  和高级语言指令 。

  2. 使用 VLM 生成规划: ViLA 通过促使视觉语言模型(VLMs)生成一份步骤规划 。表示了从当前状态到达目标状态所需的一系列步骤。

  3. 选择第一个步骤作为文本动作: 为了实现闭环执行,从生成的规划中选择第一步,即文本动作 。

  4. 执行策略: 机器人执行与所选择文本动作相对应的策略 π。

  5. 更新 VLM 查询: 修改 VLM 查询,将执行的文本动作  加入查询中。

  6. 循环执行: 重复步骤 2 至步骤 5,直到终止 token。

完整的执行过程形成一个闭环规划,整个过程概览如图 2 所示。

图片

▲图2 ViLA 的概述

ViLA 的优势

  1. 对视觉常识的理解: ViLA 通过直接整合图像信息到推理和规划过程中,以零样本方式展现了对复杂的实际世界操纵任务的能力,尤其在空间布局理解物体属性理解方面具有独特优势。

  2. 多模态目标说明: ViLA 在复杂的长期任务中通过视觉观察和语言指令,同时整合目标图像,实现了多模态的目标说明。这使得系统在不同任务和领域中更加灵活和实用。

  3. 视觉反馈: ViLA 直接利用视觉反馈,将其融入规划过程,使机器人能更直观地理解环境变化,并在需要时进行实时调整或重新规划。这比将视觉反馈转换为语言的方法更自然和高效

实验

规划日常操作任务

作者计划用 16 个长期规划的操纵任务来评估 ViLA 在三个领域的性能:

  • 对视觉世界常识的理解

  • 目标说明的灵活性

  • 对视觉反馈的利用

作者严格遵守零示例,在提示中没有包含任何上下文示例,而只使用高级语言说明和机器人需要满足的一些简单约束。

理解视觉常识

如表 1 所示,对需要理解空间布局和物体属性的任务进行规划成功率的比较,ViLA 在 8 项任务中表现出色,能够在推理和规划的过程中融合图像,并深入理解视觉世界中的常识知识。ViLA 的出色表现不仅突显了其通用性,还展现了其作为开放世界任务通用规划器的潜力。

图片

▲表1 需要丰富视觉常识的任务比较

如图 3 的实验所示,在第一个任务中,ViLA 成功识别出在拿起蓝色盘子之前需要将苹果和香蕉从蓝色盘子中移开。相反,SayCan 虽然识别到了物品,但未能理解它们之间的空间关系,试图直接拿起蓝色盘子,这凸显了在视觉推理中理解复杂的几何配置和环境约束的重要性

图片

▲图3 ViLA(左)和 SayCan (右)的决策过程

在另一个场景中,要为儿童美术课准备安全区域,基于桌子上的剪纸的上下文线索,剪刀应该保留在桌子上,但 SayCan 错误地拿起剪刀并放入盒子中。这显示了全面的视觉理解对于准确评估物体属性的关键性

在图 4 中,作者进行了一项故障分析,主要关注了不同模型在执行规划任务时产生的错误类型。可以看到,通过利用根植于视觉世界的常识知识,ViLA 显著降低了理解错误

图片

▲图4 ViLA 和 baseline 的错误细分

ViLA 支持灵活的多模态目标说明

图片

▲表2 具有多模态目标的任务中实验结果

在一系列包含不同目标类型的 4 个任务中,实验结果如表 2 所示,ViLA 在所有任务中表现都很好,利用 GPT-4V 中蕴含的大量互联网知识,ViLA 展现了理解各种目标图像的卓越能力。这包括解释丰富儿童绘画以完成拼图、通过参考盘子的照片准备寿司盘(如图 5 顶部所示),甚至准确识别人指示的蔬菜布置(图 5 底部)。此外,作者通过图像和语言说明的组合探索目标说明,凭借其在视觉和语言推理中的双重能力,让 ViLA 获得不错的表现。

图片

▲图5 ViLA 在基于图像目标的任务上的执行示例

ViLA 可以自然地利用视觉反馈

作者设计了四个需要实时视觉反馈才能成功执行的任务,评估了 ViLA 在仅基于初始观察制定计划的开环(open-loop)变体中的性能。表 3 的结果显示,开环变体在这些需要持续重新规划的动态任务中表现不佳,而通过利用视觉反馈,闭环 ViLA 则明显较优

图片

▲表3 开环 ViLA 与闭环 ViLA

ViLA 不仅能够有效地从外部干扰中恢复,还能够根据实时视觉反馈调整其策略。比如图 6 的 ViLA 在顶层抽屉找不到订书机时,会继续检查底层抽屉,从而成功找到订书机完成任务。

图片

▲图6 ViLA 在 Find Stapler 任务中的执行示例

模拟桌面重排

在该任务中,机器人或自动化系统需要理解高级语言指令,重新排列桌面上的物体,来实现特定的目标配置或布局。这需要机器人进行视觉感知、语言理解、规划和执行一系列的操纵动作,以实现所要求的桌面布局。

这里有 3 种 baseline:

  1. CLIPort:一种语言条件的模仿学习智能体,直接接收高级语言说明而无需规划器。

  2. LLM-based Planner:一种基于 LLM 的规划器,不依赖任何将语言或符号与视觉感知或环境特征连接起来的可用性模型。

  3. Grounded Decoding(GD):将 LLM 与可用性模型结合,以增强规划能力。

在表 4 的比较中,基于 CLIPort 的方法在面对新颖未见任务的泛化表现有限。尽管 GD 通过外部的可用性模型取得了一定进展,但在各项任务中明显落后于 ViLA,这凸显了在高级机器人规划中整合视觉和语言推理的优势

图片

▲表4 在模拟环境中的平均成功率

总结

本文所提出的 ViLa 利用 VLM 将高层语言指令分解为可执行的步骤序列,这不仅是个规划工具,也是机器与人类交互的桥梁,它能够通过视觉和语言的完美协同,理解世界、规划动作,并在动态环境中实现自适应。这种融合视觉和语言的方法,突破了以往规划系统的局限,为机器人在真实世界中执行任务提供了更广阔的可能性。

任何科研探索在诞生之初都会面临挑战和限制,我们期待未来的 ViLa 能努力克服这些挑战,进一步提高其灵活性和智能水平。希望通过不断改进 VLM 的可解释性和输出的一致性,我们能更好地理解 ViLa 的决策过程,并进一步拓展其适用范围。

期待在未来,机器人不只是执行任务的工具,而是真正理解并融入我们生活的智能伙伴。

图片

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/257304.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vim命令大全(超详细,适合反复阅读学习)

Vim命令大全 Vim简介Vim中的模式光标移动命令滚屏与跳转文本插入操作文本删除操作文本复制、剪切与粘贴文本的修改与替换文本的查找与替换撤销修改、重做与保存编辑多个文件标签页与折叠栏多窗口操作总结 Vim是一款文本编辑器,是Vi编辑器的增强版。Vim的特点是快速、…

云仓酒庄的品牌雷盛红酒LEESON分享起泡酒要醒酒吗?

常喝葡萄酒的朋友知道,陈年酒、单宁含量重的红酒都需要在喝之前进行醒酒,有朋友问了,起泡酒需要醒酒吗?关于起泡酒醒酒有两种声音,有人反对,认为醒酒会让起泡酒失去细腻的泡泡。有人支持认为醒酒可以让起泡…

蜘点云原生之 KubeSphere 落地实践过程

作者:池晓东,蜘点商业网络服务有限公司技术总监,从事软件开发设计 10 多年,喜欢研究各类新技术,分享技术。 来源:本文由 11 月 25 日广州站 meetup 中讲师池晓东整理,整理于该活动中池老师所分享…

内网安全—Windows系统内核溢出漏洞提权

系统内核溢出漏洞提权 往缓冲区中写入超出限定长度的内容,造成缓冲区溢出,从而破坏程序的堆栈进而运行自己精心准备的指定代码,达到攻击的目的。 分类: 堆溢出 栈溢出 查找补丁的方法 1、手工查找补丁情况 systeminfo Wmic qfe…

福德植保无人机:让植保工作更轻松

亲爱的读者们,欢迎来到我们的公众号!今天,我想和大家分享一个我们生活中不可或缺的东西——福德植保无人机。它不仅改变了我们的植保工作,更提升了工作效率,减少了人工负担。福德植保无人机,一家在植保无人…

3ds max软件中的一些常用功能分享!

3ds max软件有很多小伙伴反馈说,明明有很多3ds max教程资料。却不知道如何入门3dmax。 掌握3dmax基本功能是开始使用3dmax的基础之一,所以,小编带大家盘点一下3dmax常用操作。 3dmax常用功能介绍如下,快快跟着小编一起看起来。 1…

回归预测 | MATLAB实现GA-LSSVM基于遗传算法优化最小二乘向量机的多输入单输出数据回归预测模型 (多指标,多图)

回归预测 | MATLAB实现GA-LSSVM基于遗传算法优化最小二乘向量机的多输入单输出数据回归预测模型 (多指标,多图) 目录 回归预测 | MATLAB实现GA-LSSVM基于遗传算法优化最小二乘向量机的多输入单输出数据回归预测模型 (多指标&#…

红外二极管发射电路图大全

红外二极管发射电路图(一) 传感器检测及声光报警电路 传感器模块由热释电传感器、烟雾传感器MQ211和红外传感器组成。 烟雾传感器的内部电阻是随着烟雾的浓度的变化而变化,因此要将其转化为变化的电压信号,在此通过电压比较器LM…

智能监控平台/视频共享融合系统EasyCVR如何做到不被其他软件强制终止?具体如下

视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。国标GB28181流媒体视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频…

linux 多路径multipath的安装

1. 什么是多路径 在计算机系统中,多路径是指在存储系统中使用多个物理路径来连接主机和存储设备,以增加系统的可用性和容错性。多路径技术的目标是提供冗余路径,以确保在某个路径发生故障时,数据仍然可以通过其他路径进行传输具体…

【UE5.1】M4自动地形材质+UltraDynamicSky+Oceanology插件的使用记录

目录 效果 步骤 一、项目准备 二、插件使用记录 准备过程 M4自动地形插件使用过程 超动态天空插件使用过程 运行时修改天空效果 运行时修改天气效果 海洋插件使用过程 在海洋中游泳 效果 步骤 一、项目准备 1. 创建一个第三人称游戏工程 2. 将M4文件夹和Ultr…

解决ZooKeeper中/rmstore无法删除问题

无法删除znode /rmstore的原因在于yarn在注册时候候自己添加上ACL,导致无法直接删除。解决办法:重新设置ACL。 首先,查看ACL:getAcl /rmstore/ZKRMStateRoot 之后,重新设置ACL:setAcl /rmstore/ZKRMState…

产品入门第六讲:Axure中继器

📚📚 🏅我是默,一个在CSDN分享笔记的博主。📚📚 ​​​​​​ 🌟在这里,我要推荐给大家我的专栏《Axure》。🎯🎯 🚀无论你是编程小白&#xff0c…

Python Pandas 的DataFrame修改列名 (第8讲)【columns属性与rename方法】

Python Pandas 的DataFrame修改列名 (第8讲)【columns属性与rename方法】         🍹博主 侯小啾 感谢您的支持与信赖。☀️ 🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ🌹꧔ꦿ�…

文字识别和阅读软件OmniReader Pro mac介绍

OmniReader Pro mac是一款文字识别和阅读软件,它可以将印刷体和手写体的文字转换为数字文本,并将其朗读出来。该软件适用于视力受损、阅读困难、语言障碍等用户,可以帮助他们更加轻松地获取信息和阅读文本。 OmniReader Pro mac具有简洁直观的…

【迁移学习论文四】Multi-Adversarial Domain Adaptation论文原理及复现工作

Multi-Adversarial Domain Adaptation 多对抗域适应 前言 好久没有更新了,所以这周开始记录下来,也好督促自己。记录本人预备研究生阶段相关迁移学习论文的原理阐述以及复现工作。 问题 跨域混淆或错误对齐 文章介绍 这篇文章于2018年发表在AAAI&…

如果大量利用工具类导出的常量,可以通过利用静态导入机制,避免用类名来修饰常量名。

通过使用静态导入机制,可以避免在代码中使用类名修饰常量名,从而提高代码的可读性。静态导入机制允许直接访问导入的类的静态成员(包括常量)而无需使用类名限定符。 以下是一个示例,演示如何利用静态导入来使用工具类…

【C语言】数据结构——链式二叉树实例探究

💗个人主页💗 ⭐个人专栏——数据结构学习⭐ 💫点击关注🤩一起学习C语言💯💫 导读: 我们在前面学习了单链表,顺序表,栈和队列,小堆。 今天我们来学习链式二叉…

深入探索Qt 6.3:全面了解新特性及应用技巧

学习目标: 帮助读者深入了解Qt 6.3的新特性,并提供相关应用技巧,以帮助他们更好地应用Qt 6.3进行开发 学习内容: Qt 6.3的新特性概述:介绍Qt 6.3相对于之前版本的改进和新增的功能,如模块的增减、性能优化…

2023 亚马逊云科技 re:lnvent 大会探秘: Amazon Connect 全渠道云联络中心

2023 亚马逊云科技 re:lnvent 大会探秘: Amazon Connect 全渠道云联络中心 前言一. Amazon Connect 介绍 🗺️二. Amazon Connect 使用教程 🗺️1.我们打开URl链接找到对应服务2.输入Amazon Connect选中第一个点击进入即可;3.在进入之后我们就…