VALSE 2024年度进展评述内容分享-视觉基础大模型的进展

2024年视觉与学习青年学者研讨会(VALSE 2024)于55日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

香港大学的赵恒爽教授对视觉基础大模型的年度进展进行了总结,并做了精彩报告,下面对该报告的内容进行介绍。文中的图片均来自于该报告。

1.报告人简介

赵恒爽博士是香港大学计算机科学系的助理教授,他的研究方向涵盖计算机视觉、机器学习和人工智能等广泛的领域。

2.内容概览

随着大型语言模型的快速发展,其在图像识别、场景理解和视觉内容生成等方面的应用正受到越来越多的关注。研究者们正在尝试将这些先进的语言模型技术转化为视觉领域的创新工具,以解决更复杂的视觉认知任务。赵老师从图像分割、大型视觉语言模型(Large Vision-Language Models, LVLM)、视频基础模型几个方向出发,回顾了相关的研究进展。

3.内容整理

(1)图像分割

赵老师首先介绍了名为Segment Anything Model(SAM)的模型,如图1所示。与先前模型具有的单任务、单领域、闭集、单提示类型等局限性相比,SAM具有以下三项优势:1)用于分割的统一并且通用的界面:掩码、点、框、文本;2)数据引擎扩展:超过10亿个掩码,1100万张图片;3)强大的泛化能力:甚至适用于航拍图片、合成图片和医学图片。

1 Segment Anything Model

随后,赵老师提到了SegGPT,这是一种专注于图像分割的模型。它融合了自然语言处理技术。通过对分割任务的上下文色彩处理,SegGPT继承了传统绘画技术中的一些特点,并专注于图像中对象的精确分割。该模型利用语言提示来指导分割过程,能够有效地解析和响应复杂的图像内容,使其在处理多样化的视觉数据方面显示出高度的灵活性和准确性。

在本部分的最后,赵老师还列举了SAM的更多拓展方法,例如:Inpaint Anything [arXiv:2304.06790],Anvthing-3D [arXiv:2304.10261],Track Anything [arXiv:2304.11968],MedSAM [arXiv:2304.12306],Caption Anything [arXiv:2305.02677],PerSAM [arXiv:2305.03048],SAM-Track [arXiv:2305.06558],Matcher [arXiv:2305.13310],Recognize Anything [arXiv:2306.03514],HQ-SAM [arXiv:2306.01567],SAM3D [arXiv:2306.039081],FastSAM [arXiv:2306.12156]等。注:[ ]内为arXiv网站上文章的编号,读者可以到arXiv网站输入此编号搜索对应的论文,详细了解相应的方法

(2)大型视觉模型

LVLM是一种多模态大型语言模型(Multimodal Large Language Models, MLLMs),能够处理并理解视觉(如图像、视频)与语言(文本)的综合信息。这类模型通过深度学习技术来执行复杂的任务,如图像标注、视觉问答和图像生成等。LVLM的关键在于它们能够跨越视觉和语言的界限,提供更加丰富和准确的信息理解与生成能力。MLLMs的发展历程如图2所示。

2具有代表性的MLLMs发展历程

LVLM具有多种多样的应用场景,包括但不限于:文档(TextMonkey、Ureader、TinyChart、OtterHD、DocOwl等)、智能体/用户界面(CogAgent、AppAgent、Mobile-Agent、Ferret-UI等)、医疗(BiomedGPT、Med-Flamingo、PMC-VQA、LLava-Med、Qilin-Med-VL等)、自动驾驶(DriveGPT4、DriveLM、LMdrive、BEV-InMLLM、GPT-Driver等)。

(3)视频基础模型

视频基础模型用于视频处理和分析。这类模型能够理解和解释视频内容,实现诸如视频分类、活动识别、内容检索等功能。视频基础模型通常包括对视频帧的序列化处理,利用深度学习技术捕捉时间和空间上的信息。此外,这些模型也常用于视频生成和编辑,如生成符合特定要求的视频片段或改善视频质量。

InternVideo2为例,它的训练分为3个阶段,包括无遮挡视频令牌重建、多模态对比学习和大型语言模型联合训练,如图3所示。在阶段1中,视频编码器从头开始训练,而在阶段2和3中,它通过上一阶段使用的版本进行初始化。

3 InternVideo2训练步骤

       InternVideo2在70个视频理解任务中产生了强大的可迁移的视觉和视觉-语言表征,包括动作识别、视频-文本理解和以视频为中心的对话。此外它还具有长形式视频理解和过程感知推理的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/597701.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

探无止境,云游未来 | “游戏出海云”发布

4月28日下午,2024中国移动算力网络大会之“游戏出海”分论坛在江苏省苏州金鸡湖国际会议中心圆满落幕。 此次论坛由中国移动海南公司主办,中国移动通信集团政企事业部、中国移动云能力中心、中国移动国际公司共同协办。海南省工业与信息化厅副厅长黄业晶…

【栈】Leetcode 1047. 删除字符串中的所有相邻重复项

题目讲解 1047. 删除字符串中的所有相邻重复项 算法讲解 使用栈这个数据结构,每一次入栈的时候观察此时的字符和当前栈顶字符是否相等,如相等:栈顶出栈;不相等:入栈 class Solution { public:string removeDuplica…

Linux 基础IO篇

1. C语言中的文件操作 1 #include<stdio.h>2 3 int main()4 {5 FILE* pf fopen("log.txt", "w");6 if(NULL pf)7 {8 perror("fopen");9 return 1; 10 }11 fprintf(pf, &quo…

Spring框架学习笔记(一):Spring基本介绍(包含容器底层结构)

1 官方资料 1.1 官网 https://spring.io/ 1.2 进入 Spring5 下拉 projects, 进入 Spring Framework 进入 Spring5 的 github 1.3 在maven项目中导入依赖 <dependencies><!--加入spring开发的基本包--><dependency><groupId>org.springframework<…

ICode国际青少年编程竞赛- Python-1级训练场-变量的计算

ICode国际青少年编程竞赛- Python-1级训练场-变量的计算 1、 a 2 for i in range(4):Spaceship.step(a-1)Dev.step(a)Dev.step(-a)a a 12、 a 2 for i in range(4):Dev.step(2 a)Dev.step(-a)Dev.turnRight()a a 13、 y 4 for i in range(3):Dev.step(y)Dev.turnRigh…

数据同步新突破!一招解决文化公司系统对接难题!

一、客户介绍 某文化传播有限公司&#xff0c;是一家专注于文化艺术领域&#xff0c;集创作、制作、交流等多功能于一体的公司。公司始终秉承创意和质量的双重标准&#xff0c;为观众带来一系列高质量的文化艺术作品。该公司的经营范围广泛&#xff0c;涵盖了组织文化艺术交流…

cmake进阶:变量的作用域说明三(从函数作用域方面)

一. 简介 前一篇文章从函数作用域方面学习了 变量的作用域。文章如下&#xff1a; cmake进阶&#xff1a;变量的作用域说明一&#xff08;从函数作用域方面&#xff09;-CSDN博客cmake进阶&#xff1a;变量的作用域说明二&#xff08;从函数作用域方面&#xff09;-CSDN博客…

VALSE 2024年度进展评述内容分享-视觉通用人工智能

2024年视觉与学习青年学者研讨会&#xff08;VALSE 2024&#xff09;于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道&#xff0c;方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人…

优雅处理返回信息状态码:Result对象在Spring Boot中的应用

前言 在开发过程中&#xff0c;处理返回的信息状态码是一个重要的问题&#xff0c;尤其是在大型项目中。为了统一处理这些状态码&#xff0c;我在Spring Boot中创建了一个名为Result的Java对象&#xff0c;用于封装返回的信息和状态码。在本文中&#xff0c;我将分享如何实现这…

【C++题解】1435. 数池塘(八方向)

问题&#xff1a;1435. 数池塘&#xff08;八方向&#xff09; 类型&#xff1a;深搜 题目描述&#xff1a; 农夫约翰的农场可以表示成 NM&#xff08;1≤N,M≤100&#xff09;个方格组成的矩形。由于近日的降雨&#xff0c;在约翰农场上的不同地方形成了池塘。 每一个方格或…

重写muduo之获取线程tid代码

目录 1、概述 2、CurrentThread.h 3、 CurrentThread.cc 1、概述 我们的服务器程序不一定就只有1个Eventloop&#xff0c;我们可能有很多的Eventloop&#xff0c;每个Eventloop都有很多channel&#xff0c;自己channel上的事件要在自己的Eventloop线程上去处理&#xff0c;E…

免费开源的tiktok加速软件

背景 tiktok是国内企业出海做的比较成功的案例&#xff0c;可以简单的理解为海外版的抖音&#xff0c;关于tiktok的运营和变现不是我们擅长的领域&#xff0c;这里就不多说了&#xff0c;这篇文章主要着重在解决tiktok的网络问题&#xff0c;介绍如何用开源的软件自己搭建一套…

基于 Ubuntu22.04 安装 SSH 服务

文章目录 一、Ubuntu22.04 安装 SSH 服务二、配置 OpenSSH&#xff08;安全性&#xff09;1. 更改 OpenSSH 端口2. 限制使用 SSH 登录尝试次数3. 禁止 SSH 以 root 身份连接 三、设置防火墙&#xff08;UFW&#xff09;锁定 SSH四、远程终端软件通过 SSH 连接 Ubuntu22.041. 远…

SpringMVC简介和体验

一、SpringMVC简介和体验 1.1 介绍 Spring Web MVC :: Spring Framework Spring Web MVC是基于Servlet API构建的原始Web框架&#xff0c;从一开始就包含在Spring Framework中。正式名称“Spring Web MVC”来自其源模块的名称&#xff08; spring-webmvc &#xff09;&#…

算法学习007-进制转换 c++递归算法实现 中小学算法思维学习 信奥算法解析

目录 C进制转换 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 七、推荐资料 C进制转换 一、题目要求 1、编程实现 小明学c有一段时间了&#xff0c;今天他想做一个进制转换的小程序&#xff0c;将十进…

LEETCODE LCR 041. 数据流中的移动平均值

class MovingAverage:def __init__(self, size: int):"""Initialize your data structure here."""self.sizesize1self.front0self.rear0self.queue[None for _ in range(size1)]self.sum0def next(self, val: int) -> float:# 满了if (self.…

flutter 生成单选组件

一、效果图 二、主要代码 import package:company_manage_flutter/xcClass/dicDataProp.dart; import package:flutter/material.dart; import package:get/get.dart;class CheckListWidget extends StatefulWidget {final List<Map<String, dynamic>> list;final…

Vue中Element的下载

打开vscode让项目在终端中打开 输入npm install element-ui2.15.3 然后进行下载 在node_modules中出现element-ui表示下载完成 然后在输入Vue.use(ElementUI); import Vue from vue import App from ./App.vue import router from ./router import ElementUI from element-ui…

【目标检测】Deformable DETR

一、前言 论文&#xff1a; Deformable DETR: Deformable Transformers for End-to-End Object Detection 作者&#xff1a; SenseTime Research 代码&#xff1a; Deformable DETR 特点&#xff1a; 提出多尺度可变形注意力 (Multi-scale Deformable Attention) 解决DETR收敛…

已解决 RuntimeError: No CUDA GPUs are available 亲测有效!!!

已解决 RuntimeError: No CUDA GPUs are available 亲测有效&#xff01;&#xff01;&#xff01; 亲测有效 报错问题解决思路解决方法 报错问题 RuntimeError: No CUDA GPUs are available 这个错误通常发生在尝试在没有CUDA支持的GPU或没有安装NVIDIA GPU的机器上运行基于C…
最新文章