CV什么时候能迎来ChatGPT时刻?

卷友们好,我是rumor。

最近看了几篇CV的工作,肉眼就感受到了CVer们对于大一统模型的“焦虑”。

这份焦虑让他们开始尝试统一一切,比如:

  • 统一复杂的自动驾驶任务的优化目标[1],来自今年CVPR最佳论文。

  • 统一典型的CV任务,包括图片理解、推理、编辑[2]。今年CVPR另一篇最佳论文。

  • 仿照LLM的方式设计Large Vision Model的范式雏形[3]

然而如今NLP进化出这样的统一范式太难得了,其中有好几个层级:

  1. 任务形式的统一:19年GPT2把所有NLP任务都整合成了一种形式,即text-to-text。

  2. 网络结构的统一:统一使用transformer (decoder)

  3. 优化范式的统一:预训练+精调+prompt

下面我就带着有偏的NLP视角,分享一下这三篇工作在统一CV上的尝试,欢迎大家在留言区交流,也欢迎推荐其他有insight的工作。

自动驾驶优化目标的统一

《Planning-oriented Autonomous Driving》

自动驾驶像NLP的对话一样,是个很复杂的任务,它的解决方案也经历了几代变化:

  • Standalone Models(图a):传统的做法是把最终目标拆解成一个个简单的单一模块,再分别去优化。但模块多了会造成误差传导,同时也可能丢失传递的信息。

  • Multi-task(图b):有工作用多任务学习去训一个统一的模型,同时输出各个模块的预测结果。这样虽然某些任务会相互增强,但也有任务会相互削弱。而且每次更新都需要从新训练(避免遗忘之前的任务),会给系统带来很多变数,不确定性较高。

  • Vanilla End2End(图c.1):能不能直接端到端呢?也有相关尝试,但对于安全要求极高的自动驾驶系统来说,纯端到端的可解释性和安全保障太弱了,想加一些强规则根本加不进去,比如识别到行人在前方就立刻刹车。

b0ea94a6e7185ee6531197310db79751.png

考虑到以上方案的优缺点之后,一个更好的方案就呼之欲出了:结合Pipeline系统的可控性+端到端for目标优化的效果保证,进行端到端Pipeline的联合优化(图c.3)。

虽然之前的工作也有类似的思想(图c.2),但都缺少一些任务(下表):

2949d3d799c91a1e1a372194030237ed.png

所以作者(上海人工智能实验室, 武汉大学,商汤)整理了自动驾驶中的感知、预测、规划三大步骤后,提出了UniAD (Unified Autonomous Driving)。

8c97d8f81f6b855e29aad3fb2945a512.png

该网络由几个子模块组成,每个模块都是一个transformer decoder,不同模块之间通过向量进行交互,从而达到共同优化最终的目标。

这篇工作主要统一了自动驾驶系统中各模块的优化目标,联合优化后,在不同的子任务上都取得了较大的提升。

CV任务的统一

《Visual Programming: Compositional visual reasoning without training 》

另一篇今年的最佳论文是Visual Programming,出自AllenAI,简单地说就是利用GPT3/4强大的In-Context Learning能力,用伪代码的形式,把复杂的图像理解、编辑任务拆解成几个简单的CV子任务,再直接调用接口解决,如下图。

aedec63214a273563d68eeda0f0a21be.png

现在这个时间节点,大家可能已经对这个思路见怪不怪了,不过CVPR23的投稿时间其实是在ChatGPT发布之前,回到那个时间还是比较novel的。(如果关注Embodied AI的话,会发现去年这种LM去做子任务拆解的思路谷歌4月份发布的SayCan[4]就提了,anyway各个方向本身就是相互促进的,估计CVer之前看NLP一堆对比学习的文章也是见怪不怪)。

这种思路虽然很优雅地统一了CV任务的输入输出,但也存在两个让落地变难的点:

  1. 从实验结果看各种任务的准确率只有60%-80%(zero-shot),无法比上专门优化的模型。

  2. 作者在论文的实验中只定义了20个API,但如果真要覆盖所有CV任务,这个API定义是很大的工程量,而且随着候选API数量提升效果也会下降。

Large Vision Model的范式

《Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models》

这篇文章出自华为,作者首先明确了他们眼中AGI的定义,即:

maximizing reward in an environment

要做一个序列决策模型,单纯的图片是不够的,必需有连续的图像信号。因此作者参考参考LLM的训练思路,定义了CV大模型的几个训练步骤:

7b2f513de20ca64dea89a5efed96698c.png
  1. 环境构建:首先需要有一个高质量、贴近现实、能实现各种交互的环境供模型学习(下文我们会讨论为什么要创建一个环境而不直接用现有数据)。

  2. 生成式预训练:仿照LM,训练模型预测下一帧。目前CV模型的预训练主要是Contrastive learning(判别式)和Masked image modeling(生成式),但MIM还不是序列层面的。

  3. 指令精调:训练模型遵循指令,与环境交互完成各种任务。

  4. 感知下游任务:通过前两步的训练之后,作者期望模型可以具备一定的zeroshot能力,通过prompt完成各种子任务。

这篇工作虽然给出了CV大模型的优化范式,但对于细节讨论较少,实操起来还是会有很多挑战,比如第一步环境建立就是一个超大的工程(狗头。

CV统一模型是否可行

让我们再回看开头说的NLP三个统一层级,对于CV是否可行呢?

对于任务形式(输入输出),个人认为不必追求单个模态,两者结合才是最优的。CV和NLP有个很大的差别是图像的信息密度较低。视觉能表达的东西有限,所以衍生出了抽象的语言,对知识、智能建模,作为人之间交流的工具。正因如此,单纯的图像也不适合作为人和机器之间交流的工具。但硬上其实也可以,毕竟我们读书看电脑也都是视觉转语言,中间加一层OCR就可以了。说不定等比transformer更好的编码器出来后真能这么搞。

对于网络结构,近年来有不少工作在尝试了。不过个人认为CV可能还是需要backbone的创新,因为CNN不适合处理长序列,而transformer目前需要把图像压缩成离散的patch,会造成信息损失,在某些落地场景不可用[5]

像NLP一样以预训练为基座的优化范式的统一则是最难的。回到图像信息密度低的问题,这会导致CV大模型需要比NLP更多的数据进行训练,而数据的获取上就有诸多难点

  1. 互联网上的图片、视频没有文字多。

  2. 大部分文字都是通顺的,而视频是跳跃的[6]。用现实世界训练效率又很低,所以第三篇工作才倡导构建一个虚拟环境。

所以个人还是觉得多模态更加靠谱,加一个模态来补充信息。但多模态预训练需要的高质量视频数据也不多,所以我目前觉得可行的是以NLP为基座,再融入CV模态进行生成式的多模态预训练

最后,补充一个看论文看到的冷知识:我们学到的知识85%来自视觉信号

参考资料

[1]

Planning-oriented Autonomous Driving: https://arxiv.org/abs/2212.10156

[2]

Visual Programming: Compositional visual reasoning without training: https://arxiv.org/abs/2211.11559

[3]

Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models: https://arxiv.org/abs/2306.08641

[4]

SayCan: https://arxiv.org/abs/2204.01691

[5]

在CV界,传统卷积已经彻底输给Transformer了吗?: https://www.zhihu.com/question/531529633/answer/2797528246

[6]

为何 CV 里没有出现类似 NLP 大模型的涌现现象: https://www.zhihu.com/question/597657073/answer/3003932801

65dc690b3685edcf4e2e6007ea933b3f.jpeg


我是朋克又极客的AI算法小姐姐rumor

北航本硕,NLP算法工程师,谷歌开发者专家

欢迎关注我,带你学习带你肝

一起在人工智能时代旋转跳跃眨巴眼

「早点学CV」a654f6fbe67ead5f48c1e6f941f2fd4b.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/33083.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

360手机 360手机刷机最高安卓版本参考

360手机 360手机刷机最高安卓版本参考 参考:360手机-360刷机360刷机包twrp、root 360刷机包360手机刷机:360rom.github.io 【360手机(最高)安卓版本】 以下列举为常见360手机机型;其它早期系列,一般为Android4-6左右360手机UI界…

doker安装RabbitMQ以及用java连接

目录 doker安装: RabitMq安装: java链接 doker安装: 参考链接(非常详细): docker安装以及部署_docker bu shuminio_春风与麋鹿的博客-CSDN博客 安装好后开启doker //启动docker服务 systemctl start do…

保偏产品系列丨5款保偏光纤产品简介

保偏光纤应用日益扩大,特别是在干涉型传感器等测量方面,利用保偏光纤的光无源器件起着非常重要的作用,种类也很多。 本文来介绍5款保偏光纤系列产品以及它们的性能,欢迎收藏转发哦! 01、保偏光纤跳线-TLPMPC 保偏光纤跳…

梯度下降法求函数的解

题目 例如 y x^ 5 e^x3x−3,求解y 0的解 问题分析 首先要构造y 0的损失函数,让这个损失函数是凸的,也就是可以有最优解,并且是可到的,比较容易想到的是mse平方误差,我们要让y和0之间绝对误差最小。lo…

css 背景颜色级别高于背景图

<div class"bg-parent"> <img :src"employeeImg" class"bg-url" /> <div class"bg"> <el-icon class"plus-icon"> <Plus /> </el-icon> </div> </div> .bg-parent{ //父级…

python3套接字编程之socket和socketserver(TCP和UDP通信)

socket和socketserver是python3中socket通信模块&#xff0c;关于其使用做如下总结。 目录 1.socket 1.1模块引入 1.2套接字获取 1.3套接字接口 1.3.1 服务端 1.3.2 客户端套接字函数 1.3.3 公共套接字函数 1.3.4 面向锁的套接字方法 1.3.5 面向文件的套接字的函数 …

CNN卷积类型总结(标准卷积、空洞卷积、反卷积、深度可分离卷积、分组卷积等)

目录 标准卷积 卷积的运算 conv2d conv1d 其他卷积类型 空洞卷积&#xff08;膨胀卷积&#xff09; 反卷积&#xff08;转置卷积&#xff09; 深度可分离卷积 分组卷积 参考文章 上学时&#xff0c;卷积常在各个课程中出现&#xff0c;现代、信号与系统这些&#xff…

【MySQL】SQL的高阶用法

文章目录 条件查询使用关系运算符查询使用IN关键字查询使用BETWEEN AND关键字查询使用空值查询使用AND关键字查询使用OR关键字查询使用LIKE关键字查询(模糊查询)使用LIMIT分页查询使用GROUP BY进行分组查询GROUP BY和聚合函数一起使用GROUP BY和聚合函数以及HAVING一起使用 使用…

热点探测技术架构设计与实践

1. 概述 说到热点问题&#xff0c;首先我们先理解一下什么是热点&#xff1f; 热点通常意义来说&#xff0c;是指在一段时间内&#xff0c;被广泛关注的物品或事件&#xff0c;例如微博热搜&#xff0c;热卖商品&#xff0c;热点新闻&#xff0c;明星直播等等&#xff0c;所以…

2-css-2

一 复合选择器 定义&#xff1a;由两个或多个基础选择器&#xff0c;通过不同的方式组合而成。 作用&#xff1a;更准确、更高效的选择目标元素&#xff08;标签&#xff09;。 1 后代选择器 后代选择器&#xff1a;选中某元素的后代元素。 选择器写法&#xff1a;父选择器…

【微信小程序开发】第 7 课 - 小程序的常用组件

欢迎来到博主 Apeiron 的博客&#xff0c;祝您旅程愉快 &#xff01; 时止则止&#xff0c;时行则行。动静不失其时&#xff0c;其道光明。 目录 1、缘起 2、小程序中组件的分类 3、常用的视图容器类组件 3.1、view 组件 3.2、scroll - view 组件 3.3、swiper 和 swiper…

OpenAI 重磅更新 变得更强啦 | 包括更多可控的 API 模型、函数调用能力、更长的上下文和更低的价格

文章目录 一、前言二、主要内容三、总结 &#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、前言 OpenAI 官网&#xff1a;https://openai.com/blog/function-calling-and-other-api-updates 功能调用和其他 API 更新。OpenAI 宣布更新&#xff0c;包…

哈工大计算机网络课程网络层协议详解之:互联网控制报文协议(ICMP)

哈工大计算机网络课程网络层协议详解之&#xff1a;互联网控制报文协议&#xff08;ICMP&#xff09; 在互联网中&#xff0c;IP数据报的传输很容易出现差错&#xff0c;当出现差错时&#xff0c;最简单的处理办法就是对该IP数据报进行丢弃。但是&#xff0c;并不是直接丢弃就…

Linux 学习记录40(C++篇)

Linux 学习记录40(C/QT篇) 本文目录 Linux 学习记录40(C/QT篇)一、QT软件的使用1. 新建工程 二、C语言和C的区别1. C对C的扩充2. C对C的兼容 三、第一个C程序1. cout标准输出流对象(1.介绍&#xff1a;(2. 运算符(3. cout的使用 2. cin标准输出流对象(1.介绍&#xff1a;(3. ci…

TCP/IP详解(一)

TCP/IP协议是Internet互联网最基本的协议&#xff0c;其在一定程度上参考了七层OSI&#xff08;Open System Interconnect&#xff0c;即开放式系统互联&#xff09;模型 OSI参考模型是国际组织ISO在1985年发布的网络互联模型&#xff0c;目的是为了让所有公司使用统一的规范来…

序列化和反序列化的认识【protobuf、json、xml】

1. 什么是序列化与反序列化&#xff1f; 程序员在编写应用程序的时候往往需要将程序的某些数据存储在连续的内存中&#xff0c;然后将其写入文件或是将其传输到网络中的另一台计算机上以实现通讯。这个将程序数据转换成能被存储并传输的格式的过程被称为序列化&#xff08;seri…

web存储(Storage)

目录 1、基本概念 2、功能监测 2.1 测试可用性 2、W3C标准 3、基本方法或属性 4、 Local Storage 4.1 描述 4.2 示例 5、sessionStorage 5.1 描述 5.2 示例 6、StorageEvent&#xff08;存储事件&#xff09; 6.1 构造函数 6.2 实例属性 6.3 实例方法 6.4 响应…

【spring源码系列-04】注解方式启动spring时refresh的前置工作

Spring源码系列整体栏目 内容链接地址【一】spring源码整体概述https://blog.csdn.net/zhenghuishengq/article/details/130940885【二】通过refresh方法剖析IOC的整体流程https://blog.csdn.net/zhenghuishengq/article/details/131003428【三】xml配置文件启动spring时refres…

团体程序设计天梯赛-练习集L2篇⑨

&#x1f680;欢迎来到本文&#x1f680; &#x1f349;个人简介&#xff1a;Hello大家好呀&#xff0c;我是陈童学&#xff0c;一个与你一样正在慢慢前行的普通人。 &#x1f3c0;个人主页&#xff1a;陈童学哦CSDN &#x1f4a1;所属专栏&#xff1a;PTA &#x1f381;希望各…

线性代数高级--矩阵的秩--SVD分解定义--SVD分解的应用

目录 矩阵的秩 概念 k阶子式 矩阵的秩的定义 矩阵的秩的性质 SVD分解 概念 注意 SVD的分解过程 SVD分解的应用 矩阵的秩 概念 矩阵的秩是线性代数中的一个重要概念&#xff0c;用于描述矩阵的行&#xff08;或列&#xff09;向量的线性无关程度。矩阵的秩可以通过…
最新文章