2023年03月09日_谷歌视觉语言模型PaLM-E的介绍

自从最近微软凭借OpenAI

和ChatGPT火了一把之后呢

老对手Google就总想着扳回一局

之前发布了硬刚ChatGPT的Bard

但是没想到翻车了

弄巧成拙


所以呢Google这一周又发了个大招

发布了史上最大的视觉语言模型PaLM-E

这个模型有多夸张呢

参数量高达5,620亿

ChatGTP-3的三倍

这个模型结合了5,400亿参数的PaML模型

以及220亿参数的ViT模型


不仅可以理解图像

还能理解和生成语言

执行各种复杂的机器人指令

而且重点是无需重新训练


PaLM-E可以直接分析

来自机器人摄像头的数据

无需对场景进行预处理

而且实验结果证明

模型的正迁移能力也相当强大


接下来我们看几个PaLM-E的demo视频

相信你一定会有通用AI

很快就要到来的感觉


第一个demo

基于机器人摄像头的视觉反馈

任务是从抽屉里把薯片拿给我

注意这个过程中还加入了对抗性干扰

即便实验人员多次移动薯片

机器人仍然能够重新抓取

而且最后还把抽屉给合上了

并且把薯片交给实验人员

注意这个视频是4倍速播放的

所以实际的速度应该并不快


第二个demo

让机器人把绿色的星星拿过来

这个绿色的星星

机器人之前没有直接接触过的物体


第三个demo

让机器人按照不同的颜色

将积木块放到不同的

角落


可以看到

机器人可以很好的规划

和执行长期任务

并且详细分解说明了

机器人的每个步骤是如何规划的


这个demo是让机器人将剩余的积木块

移到已有的积木组中

PaLM-E会将它分解成多个低级的策略

比如将黄色六边形移动到绿色心形旁

把蓝色三角形移动到积木组中

而下一个demo

是让机器人

将海洋色的积木块放到一起

可以看到

机器人也可以准确识别出

蓝色的积木块


最后

实验人员还演示了两个泛化的示例

一个是将红色积木块推到咖啡杯中

这个数据集

只包含了3个带有咖啡杯的演示数据

并且没有一个含有红色的积木块


另一个示例

是让机器人将绿色的积木块推给乌龟

即使机器人以前从来没有见过乌龟

它也能够成功的执行任务


零样本推理方面

PaLM-E可以在给定图像的情况下

讲一个笑话

并展示了包括感知

基于视觉的对话规划在内的能力

对于多张图的关系

PaLM-E也整的很明白

比如图1中的哪个物品在图2中没有


PaLM-E还可以

在给定带有手写数字的图像后

执行数学运算

比如对于这张餐馆手写的菜单

PaLM-E可以直接算出

两张披萨需要多少钱


谷歌的研究人员计划未来将探索PaLM-E

在现实世界中的更多应用

例如家庭自动化或者工业机器人

也希望PaLM-E

能够激发更多关于多模态AI的应用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/281146.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[spark] SaveMode

https://spark.apache.org/docs/latest/api/java/index.html?org/apache/spark/sql/SaveMode.html Overwrite 覆盖模式是指将DataFrame保存到数据源时,如果数据/表已经存在,则现有数据将被DataFrame的内容覆盖。 注意: Overwrite 模式会覆盖已存在的表…

9种卷积注意力机制创新方法汇总,含2024最新

今天咱们来聊聊卷积注意力机制。 相信各位在写论文的时候都苦恼过怎么更好地改模型,怎么更高效地提高模型的性能和泛化能力吧?我的建议是,不妨考虑考虑卷积注意力。 卷积注意力机制是一种通过关注输入数据中的不同部分来改进模型性能的方法…

《Linux系统与网络管理》复习题库---shell编程题

1、shell 编程题:在根目录下有四个文件 m1.c,m2.c,m3.c,m4.c,用 Shell 编程,实现自动创建 m1,m2,m3,m4 四个目录,并将 m1.c,m2.c,m3.c,m4.c 四个文件分别剪贴到各自相应的目录下。 #!/bin/bash…

Termius for Mac/Win:一站式终端模拟器、SSH 和 SFTP 客户端软件的卓越选择

随着远程工作和云技术的普及,对于高效安全的远程访问和管理服务器变得至关重要。Termius,一款强大且易用的终端模拟器、SSH 和 SFTP 客户端软件,正是满足这一需求的理想选择。 Termius 提供了一站式的解决方案,允许用户通过单一平…

英语长难句分享第十五天解析

群公告 长难句分享第十五天解析 【词汇】: • mispredict [ˌmɪsprɪˈdɪkt] v. 错误预测 • mechanical [məˈknɪkl] adj. 机械的 • everyday [ˈevrideɪ] adj. 日常的 • helicopter [ˈhelɪkɑːptər] n. 直升机 • eventually [ɪˈventʃuəli] adv. …

AI 开发必看的 6 款开源矢量数据库

你好,我是坚持分享干货的 EarlGrey,翻译出版过《Python编程无师自通》、《Python并行计算手册》等技术书籍。 如果我的分享对你有帮助,请关注我,一起向上进击。 创作不易,希望大家给一点鼓励,把公众号设置为…

starrocks集群fe/be节点进程守护脚本

自建starrocks集群,有时候服务会挂掉,无法自动拉起服务,于是采用supervisor进行进程守护。可能是版本的原因,supervisor程序总是异常,无法对fe//be进行守护。于是写了个简易脚本。 #!/bin/bash AppNameFecom.starrock…

jmeter接口测试02

jmeter接口测试02 新增测试计划用户自定义变量http请求默认值http头部管理器线程组HTTP请求HTTP响应断言 创建查看结果树和总结报告启动线程组,查看结果树和总结报告 新增测试计划 用户自定义变量 定义测试计划常用的变量 例如token、接口的ip、端口等。 http请求…

cargo(rust包管理) 常见命令、包检索 (windows+linux)

rust环境和开发环境配置:rust开发环境配置 winlinux Cargo是Rust的构建系统和包管理器。 如果你的能力足够强也愿意,可以不用cargo进行rust开发,即从头开始敲代码 一、cargo包相关查询 1.查找包 查找cargo包链接:crates.io …

视频编辑与制作,视频尺寸修改器

你是否曾因为视频尺寸与平台不匹配无法上传而烦恼?这个时候一款视频尺寸修改工具,就能帮你轻松搞定。不论是为了适应不同的平台要求,还是为了获得不一样的观看体验,【视频剪辑高手】都能为你提供完美的解决方案。 所需工具&#…

layui表格中预览视频和图片

全代码 <!DOCTYPE html> <html><head><title>Layui&#xff1a;数据表格table中预览图片、视频</title><meta charset"utf-8"/><link rel"stylesheet" href"../dist/css/layui.css"><style>&l…

Python 下载与安装

1、下载 打开Python官网&#xff1a;Welcome to Python.org 点击下图所示的【Downloads】按钮进入下载页面。 ​ 进入下载页面后下拉至下图位置&#xff0c;选择版本&#xff0c;点击下载按钮下载。 页面会跳转至下一页下载页面&#xff0c;下拉到下图位置&#xff0c;选择…

【实用工具】Gradio快速部署深度学习应用1:图像分类

前言 在AI快速发展的今天&#xff0c;我们作为算法开发人员&#xff0c;也应该有一些趁手的工具帮助我们快速开发并验证自己的想法&#xff0c;Gradio可以实现快速搭建和共享的功能&#xff0c;能够展示出一个前端界面&#xff0c;把我们的算法包裹起来&#xff0c;快速验证算…

(JAVA)-(网络编程)-初始网络编程

网络编程就是在通信协议下&#xff0c;不同的计算机上运行的程序&#xff0c;进行的数据传输。 讲的通俗一点&#xff0c;就是以前我们写的代码是单机版的&#xff0c;网络编程就是联机版的。 应用场景&#xff1a;即时通信&#xff0c;网游对战&#xff0c;金融证券&#xf…

用通俗易懂的方式讲解大模型:使用 LangChain 封装自定义的 LLM,太棒了

Langchain 默认使用 OpenAI 的 LLM&#xff08;大语言模型&#xff09;来进行文本推理工作&#xff0c;但主要的问题就是数据的安全性&#xff0c;跟 OpenAI LLM 交互的数据都会上传到 OpenAI 的服务器。 企业内部如果想要使用 LangChain 来构建应用&#xff0c;那最好是让 La…

2024年【裂解(裂化)工艺】考试题库及裂解(裂化)工艺考试总结

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 裂解&#xff08;裂化&#xff09;工艺考试题库考前必练&#xff01;安全生产模拟考试一点通每个月更新裂解&#xff08;裂化&#xff09;工艺考试总结题目及答案&#xff01;多做几遍&#xff0c;其实通过裂解&#…

第3课 使用FFmpeg获取并播放音频流

本课对应源文件下载链接&#xff1a; https://download.csdn.net/download/XiBuQiuChong/88680079 FFmpeg作为一套庞大的音视频处理开源工具&#xff0c;其源码有太多值得研究的地方。但对于大多数初学者而言&#xff0c;如何快速利用相关的API写出自己想要的东西才是迫切需要…

关于“Python”Django 管理网站的核心知识点整理大全52

目录 注意 18.2.2 激活模型 settings.py 18.2.3 Django 管理网站 1. 创建超级用户 注意 2. 向管理网站注册模型 admin.py 注意 3. 添加主题 Climbing。 18.2.4 定义模型 Entry models.py 18.2.5 迁移模型 Entry 18.2.6 向管理网站注册 Entry admin.py 往期快速…

C++:stack、queue、priority_queue增删查改模拟实现、deque底层原理

C:stack、queue、priority_queue增删查改模拟实现 前言一、Cstack的介绍和使用1.1 引言1.2 satck模拟实现 二、Cqueue的介绍和使用2.1 引言2.2 queue增删查改模拟实现 三、STL标准库中stack和queue的底层结构:deque3.1 deque的简单介绍(了解)3.2 deque的缺陷3.3 为什么选择dequ…

c++哈希表——超实用的数据结构

文章目录 1. 概念引入1.1 整数哈希1.1.1 直接取余法。1.1.2 哈希冲突1.1.2.1 开放寻址法1.1.2.2 拉链法 1.2 字符串哈希 3.结语 1. 概念引入 哈希表是一种高效的数据结构 。 H a s h Hash Hash表又称为散列表&#xff0c;一般由 H a s h Hash Hash函数(散列函数)与链表结构共同…