CV论文--2024.3.28

1、Efficient Video Object Segmentation via Modulated Cross-Attention Memory

中文标题:通过调制交叉注意力记忆进行高效视频对象分割

简介:最近,基于Transformer的方法在半监督视频对象分割方面取得了出色的结果。然而,由于这些方法经常需要在每几帧扩展内存库,导致GPU内存需求增加,因此难以有效处理长视频。为此,我们提出了一种名为MAVOS的基于Transformer的方法,它引入了一种优化的和动态的长期调制交叉注意(MCA)内存,以模拟时间平滑性,而无需频繁扩展内存。

所提出的MCA方法有效地编码了不同粒度水平上的局部和全局特征,并在不同视频长度的情况下保持了一致的速度。通过在多个基准测试中广泛实验,包括LVOS、长时间视频和DAVIS 2017,我们证明了我们提出方法的有效性。MAVOS实现了实时推理,并显著降低了GPU内存需求,而不会降低长视频上的分割准确性。

与现有最佳的基于Transformer的方法相比,我们的MAVOS方法将速度提高了7.6倍,同时将GPU内存需求显著降低了87%,并在短视频和长视频数据集上展现了可比的分割性能。值得注意的是,在LVOS数据集上,我们的MAVOS在单个V100 GPU上实现了37帧每秒(FPS)的运行速度,并获得了63.3%的J&F分数。

我们将在以下网址https://github.com/Amshaker/MAVOS 上公开我们的代码和模型。

2、AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

中文标题:AiOS:多合一阶段富有表现力的人体姿势和形状估计

简介:表达人类姿势和形状估计(也称为3D全身网格恢复)涉及对人体、手部和面部表情进行估计。目前的大多数方法采用两阶段处理方式,首先使用现有的检测模型检测人体部位,然后单独推断不同的人体部位。尽管这些方法已经取得了令人印象深刻的结果,但仍存在以下问题:1)裁剪过程导致上下文信息丢失,2)引入干扰,3)缺乏对不同人和身体部位之间相互关联的建模,这不可避免地导致性能下降,特别是在拥挤的场景中。

为了解决这些问题,我们提出了一种全新的一站式框架,称为AiOS,用于恢复多种表达人类姿势和形状的方法,无需额外的人体检测步骤。具体而言,我们的方法基于DETR构建,将多人整体网格恢复任务视为一系列顺序检测和渐进集合预测问题。我们设计了解码器令牌,并将其扩展到我们的任务中。

具体而言,我们首先使用人体令牌在图像中检测人体位置,并为每个实例编码全局特征,从而提供粗略的位置信息。然后,我们引入关节相关令牌来检测图像中的人体关节,并编码细粒度的局部特征,与全局特征协同工作以恢复整个身体网格。这种简单而有效的模型在AGORA数据集上将NMVE降低了9%,在EHF数据集上将PVE降低了30%,在ARCTIC数据集上将PVE降低了10%,在EgoBody数据集上将PVE降低了3%,超过了先前最先进的方法。

通过我们的一站式框架AiOS,我们能够有效地解决表达人类姿势和形状估计的挑战,无需额外的人体检测步骤,并取得了显著的性能提升。

3、Track Everything Everywhere Fast and Robustly

中文标题:快速、稳健地跟踪任何地方的一切

简介:我们提出了一种创新的测试时优化方法,可以高效而稳健地跟踪视频中的任何时间的任何像素。最新的基于优化的跟踪技术OmniMotion需要极长的优化时间,这使得它在实际应用中不可行。OmniMotion对随机种子的选择非常敏感,导致不稳定的收敛。为了提高效率和稳健性,我们引入了一种新颖的可逆变形网络CaDeX ++,它将函数表示分解为本地空间-时间特征网格,并使用非线性函数增强耦合块的表达能力。

尽管CaDeX ++ 在其架构设计中融合了更强的几何偏差,但它也充分利用了视觉基础模型提供的归纳偏差。我们的系统利用单目深度估计来表示场景几何,并通过整合DINOv2长期语义来调节优化过程的目标。实验结果表明,在跟踪方面,相对于SoTA基于优化的方法OmniMotion,我们的方法在训练速度(提升了超过10倍)、稳健性和准确性方面都有显著的改进。

通过我们提出的新方法,我们能够以高效而稳健的方式跟踪视频中的任意时间的任何像素,并在训练速度、稳健性和准确性方面取得了显著的进展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/495758.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】手撕哈希表的闭散列和开散列

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:手撕哈希表的闭散列和开散列 > 毒鸡汤:谁不是一边受伤,一边学会坚强。 > 专栏选自:C嘎嘎进阶 > 望小伙伴们…

通过在线编程彻底搞懂transformer模型之三:为啥大语言模型都做不好数学题

为什么大语言模型做不好数学题?这个要从大语言模型的原理来讲。 这里是这篇文字的视频讲解,可能视频讲得更清楚一些: 写代码彻底搞懂attention注意力机制 – LLM transformer系列,附:在线编程地址 现代大语言模型都源自于2017年…

Excel 十字交叉聚光灯查询,再也不用担心看串行与列

当Excel表格行列较多时,要想跟条件找到目标数据可以用查找引用函数自动调取,如果又想让找出来的结果突出显示,有什么好办法呢? 先来看一个做好的案例效果,用户选择查询条件后,结果突出显示。 当查询条件变…

第20篇:逻辑门控D锁存器

Q:基本RS锁存器存在不确定状态,本篇我们设计可以消除不确定状态的锁存器--逻辑门控D锁存器。 A:逻辑门控D锁存器逻辑图: 其工作原理:在CLK1期间,数据输入端D的值被传输到输出端Q,而当CLK由1 跳…

【Redis】redis哨兵模式

概述 Redis Sentinel,即Redis哨兵,在Redis 2.8版本开始引入。它是Redis高可用的实现方案之一。Sentinel是一个管理多个Redis实例的工具,它的核心功能是可以实现对Redis的监控、通知、自动故障转移。 监控(Monitoring&#xff09…

docker部署-RabbitMq

1. 参考 RabbitMq官网 docker官网 2. 拉取镜像 这里改为自己需要的版本即可,下面容器也需要同理修改 docker pull rabbitmq:3.12-management3. 运行容器 docker run \ --namemy-rabbitmq-01 \ -p 5672:5672 \ -p 15672:15672 \ -d \ --restart always \ -…

盏多多生物现已加入2024第七届燕窝天然滋补品展

参展企业介绍 广东省盏多多生物科技有限公司是一家从事食品销售,食品销售,食品进出口等业务的公司,成立于2018年12月07日,公司坐落在广东省,详细地址为:惠州市东江三路45号悦榕湾27层05号(仅限办公);经国家…

用系统观念打造智慧公厕,引领智慧城市的发展

智慧公厕,作为智慧城市建设的一部分,具有重要意义。在高度发达的科技条件下,如何打造高质量的智慧公厕是一个值得思考的问题。本文将以智慧公厕源头实力厂家广州中期科技有限公司,大量精品案例项目现场实景实图实例,探…

UE小:基于UE5的两种Billboard material(始终朝向相机材质)

本文档展示了两种不同的效果,分别是物体完全朝向相机和物体仅Z轴朝向相机。通过下面的演示和相关代码,您可以更加直观地理解这两种效果的差异和应用场景。 1. 完全朝向相机效果 此效果下,物体将完全面向相机,不论相机在哪个角度…

Element

1、Element 基本使用 1.1、Element介绍 Element:网站快速成型工具。是饿了么公司前端开发团队提供的一套基于Vue的网站组件库。 使用Element前提必须要有Vue。 组件:组成网页的部件,例如超链接、按钮、图片、表格等等~ Element官网&#…

【上云API】GB28181流媒体服务器搭建

docker拉取配置好的ZLMediaKIt和wvp-GB28181-pro docker pull 648540858/wvp_pro第一次运行 docker一键运行ZLMediaKIt和wvp-GB28181-pro docker run --env WVP_IP"自己电脑的ip" -it -p 18080:18080 -p 30000-30500:30000-30500/udp -p 30000-30500:30000-3050…

伦敦金实时行情交易需要了解的3个事实

在伦敦金市场中,我们要交易就要面对伦敦金实时行情。然而,在伦敦金实时行情交易中,有几个事实是我们不得不去了解的,下面我们就来讨论一下。 盈利的经历不等于盈利的能力。我们经常看到一些卖课的或者卖指标、卖策略的人会宣传自己…

双通道内存@DDR5多通道内存

文章目录 多通道内存DDR4及以前的内存的双通道DDR5往后的双通道和多通道半位宽4通道组合 其他组合测试 DDR5介绍概览重要Features特点 总结 多通道内存 DDR4及以前的内存的双通道 双通道内存是一种内存架构设计,通过在主板上配置两个或多个独立且同时工作的内存控制…

沃通国密SSL根证书入根赢达信国密浏览器

近日,沃通CA国密SSL根证书正式入根赢达信国密安全浏览器,携手推动国产密码技术应用、完善国密应用生态体系,也标志着沃通国密SSL证书兼容性再次得到提升,进一步夯实国密应用根基。 密码算法的安全性是信息安全保障的核心&#xff…

服务器BMC测试之postman测试redfish

postman初始化设置----Redfish测试 1.下载安装postman 下载链接:https://www.postman.com/downloads/ 2.安装完成后启动postman -----登录账号请自行申请 3.新建测试环境 ----增加测试BMC ip 为环境变量 点击 新建环境 4.修改环境 增加变量名字为BMCIP 这个名字…

【Java程序设计】【C00398】基于(JavaWeb)Springboot的果园预售管理系统(含论文)

基于(JavaWeb)Springboot的果园预售管理系统(含论文) 项目简介项目获取开发环境项目技术运行截图 博主介绍:java高级开发,从事互联网行业六年,已经做了六年的毕业设计程序开发,开发过…

SQL/日志监控框架log4jdbc

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 log4jdbc is a Jav…

【61-80】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了

【61-80】计算机网络基础知识(非常详细)从零基础入门到精通,看完这一篇就够了 以下是本文参考的资料 欢迎大家查收原版 本版本仅作个人笔记使用61、 四次挥手相关内容62、挥手为什么需要四次?63、2MSL等待状态?64、四次…

【Redis主从架构。主从工作原理psync、bgsave、部分数据复制、主从复制风暴解决方案】【Redis哨兵高可用架构。sentinel】

Redis主从架构 Redis主从工作原理数据部分复制 Redis哨兵高可用架构client连接哨兵规则主节点挂了,集群从新选择主节点,并且同步给sentinel 转自图灵课堂 redis主从架构搭建,配置从节点步骤: 1、复制一份redis.conf文件2、将相关…

《Linux运维实战:达梦DM8数据库之开启本地归档》

一、归档概述 在达梦数据库归档模式下,数据库同时将重做日志写入联机日志文件和归档日志文件中分别进行存储。采用归档模式会对系统的性能产生影响,然而,当系统一旦出现介质故障,如磁盘损坏时,利用归档日志&#xff0c…