【ICCV2023】MMVP:基于运动矩阵的视频预测

 

目录

导读

本文方法

步骤1:空间特征提取

步骤2:运动矩阵的构造和预测

步骤3:未来帧的合成和解码

实验

实验结果

消融实验

结论


论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Zhong_MMVP_Motion-Matrix-Based_Video_Prediction_ICCV_2023_paper.html

代码:https://github.com/Kay1794/MMVP-motion-matrix-based-video-prediction

引用:Zhong Y, Liang L, Zharkov I, et al. MMVP: Motion-Matrix-based Video Prediction[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4273-4283.

图片

 

导读

本文讨论了视频预测领域的一个核心挑战,即在图像帧中推测对象的未来运动同时保持它们在各帧之间外观的一致性。为了解决这一问题,作者引入了一种端到端可训练的两流视频预测框架,称为“Motion-Matrix-based Video Prediction”(MMVP)。

与以往的方法不同,以往的方法通常在相同的模块内处理运动预测和外观维护,MMVP通过构建外观无关的运动矩阵来解耦运动和外观信息。这些运动矩阵表示输入帧中每对特征块的时间相似性,它们是MMVP中运动预测模块的唯一输入。这种设计提高了视频预测的准确性和效率,并降低了模型大小。

广泛的实验证明,MMVP在公共数据集上的表现优于最先进的方法,性能提升显著(在PSNR上提高了约1 dB,例如 UCF Sports数据集),而模型大小却显著减小(相当于84%或更小的模型尺寸)。

本文方法

图片

 

给定一个视频序列

图片

,其中 It 表示第t帧,通常是RGB格式。MMVP估计未来的T‘帧,即

图片

 

与已知的帧集相比,我们将估计的帧集表示为:

图片

 

该框架的训练仅由均方误差(MSE)损失来监督。MMVP 包括以下三个步骤:

  • 空间特征提取

  • 运动矩阵的构造和预测

  • 未来帧的合成和解码

步骤1:空间特征提取

空间特征提取涉及到MMVP框架的两个组成部分:图像编码器滤波器块

MMVP中的图像编码器 Ω 分别对从输入数据序列到相应特征的每个 Ii 进行编码。滤波器块Θ随后处理 fi,滤波器块的任务是滤除 fi 的运动不相关特征,以供后续的运动矩阵构建使用:

图片

 

我们使用一个具有残差的卷积网络(RRDBs)[44]来实现图像编码器,使用一个两层卷积网络来实现滤波器块。

步骤2:运动矩阵的构造和预测

MMVP基于特征对

图片

为每两个连续帧生成一组运动矩阵

图片

,这是通过计算每对特征块的余弦相似度来构建的。矩阵

图片

在位置

图片

的元素表示为:

图片

 

给定

图片

,矩阵预测函数

图片

预测未来的矩阵

图片

 

不同于预测连续帧之间的运动矩阵,这里预测了从最后观察到的帧

图片

到每个未来帧

图片

, 的运动矩阵,如下所示:

图片

 

这个设计旨在减少特征合成过程中的累积误差,并通过表格 3 中的长期预测设置得到验证。

图片

 

步骤3:未来帧的合成和解码

这一步骤通过使用观察到的信息和运动矩阵生成未来帧的信息。这一过程可以表示为:

图片

 

与仅使用最后观察到的帧的信息不同,我们使用所有观察到的信息进行未来合成,并通过重复矩阵乘法来减小较早帧的权重。公式中的 X 代表过去帧的观察信息。这些信息可以是图像编码器不同尺度的输出特征

图片

,也可以是观察到的帧

图片

 

由于运动矩阵是从某个尺度的图像特征构建的,因此矩阵与某些特征之间可能存在不兼容性。为了实现运动矩阵与观察到的特征(任何尺度)或图像之间的矩阵乘法,作者借用了来自[39]的像素解缩。像素解缩操作将特征或图像重新整形成与运动矩阵相同的尺度,以进行矩阵乘法。然后,将矩阵乘法的结果重新整形为特征或图像的原始尺度。如图4,这整个过程涉及很少的信息损失。根据表格 6 的研究,我们可以看出多尺度特征合成设计通常在系统中使用更多尺度的特征时能够获得更好的性能。

解码过程采用了UNet的解码器结构,结合了RRDB块来实现MMVP的图像解码器。这一设计允许来自所有尺度的图像特征以及原始图像的合成特征对最终的输出做出贡献。在框架训练中,使用均方误差(MSE)损失来进行监督。

图片

 

实验

数据集设置:

图片

 

实验结果

与SOTA的比较

图片

 

图片

 

图片

 

预测的运动矩阵可视化结果:

图片

 

UCF Sports 数据集的定性结果:

图片

 

消融实验

图片

 

图片

 

结论

本文提出的基于运动矩阵的视频预测框架(MMVP)是一个端到端可训练的双流管道。MMVP使用运动矩阵来表示与外观无关的运动模式。作为MMVP中运动预测模块的唯一输入,运动矩阵描述了特征块之间的多对多关系,无需训练额外的模块;通过矩阵乘法直观地组合了未来特征与多尺度图像特征,有助于运动预测更加集中,有效地减少了外观上的信息损失。通过广泛的实验证明,MMVP在模型大小和性能方面均优于现有的最先进方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/264044.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【NeRF】Point-NeRF:Point-NeRF: Point-based Neural Radiance Fields阅读记录

文章目录 个人理解摘要简介基于点的NeRF表示体渲染和辐射场(Volume rendering and radiance fields)基于点的辐射场(Point-based radiance field)逐点处理(Per-point processing)视点相关的辐射率回归&…

Kylin基础知识点解析与应用探索

目录 学习目标: 学习内容: 学习时间: 学习产出: Kylin简介 什么是Kylin Kylin的历史和发展 Kylin在大数据领域的地位和作用 Kylin架构 Kylin的组成部分和模块 Kylin的工作原理和流程 Kylin与其他大数据组件的关系和集成 Kylin功能…

el-select如何去掉placeholder属性

功能要求是&#xff1a;当el-select的disabled属性为true的时候不展示“请选择”字样 1、要去掉 el-select 元素的 placeholder 属性&#xff0c;可以在代码中将其设置为空字符串。 <el-select placeholder"" ...></el-select> 注意&#xff1a;这种方…

Keil5软件仿真 定时器互补通道 波形输出(Logic Analyzer)

步骤一&#xff1a;管脚配置确认。 ①配置定时器的管脚模式为复用推挽输出模式&#xff08;GPIO_MODE_AF_PP&#xff09;&#xff01;&#xff01;&#xff01;&#xff0c;注意&#xff1a;复用开漏模式软件仿真时无波形。 步骤二&#xff1a;编译程序。 ①点击编译按钮。 …

生产者和消费者模式

在一个系统中&#xff0c;存在生产者和消费者两种角色&#xff0c;他们通过内存缓冲区进行通信&#xff0c;生产者生产消费者需要的资料&#xff0c;消费者把资料做成产品。 最关键就是内存缓冲区为空的时候消费者必须等待&#xff0c;而内存缓冲区满的时候&#xff0c;生产者…

C# WPF上位机开发(QT vs WPF)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 最近经常收到朋友们的私信&#xff0c;他们对C# WPF开发很感兴趣&#xff0c;但是呢&#xff0c;正当准备学习的时候&#xff0c;又有人告诉他们应…

Vue 的两种实现:VSCode 中配置 vue 模板快捷方式的过程

1、创建配置文件&#xff1a; 其一、打开 VSCode &#xff0c;CtrlShiftP, 打开搜索框&#xff1a; 其二、输入&#xff1a;user, 并点击进去 Snippets:Configure User Snippets 其三、输入 vue3js 并回车&#xff1a; 其四、打开项目&#xff0c;发现配置文件 vue3js.code-sn…

标签 VS 数据指标,概念与区别

一、标签体系相关概念 标签由标签和标签值组成&#xff0c;打在目标对象上&#xff0c;如图所示。 打标签示例 标签由互联网领域逐步推广到其他领域&#xff0c;打标签的对象也由用户、产品等扩展到渠道、营销活动等。 在互联网领域&#xff0c;标签有助于实现精准营销、定向推…

鸿蒙声势浩大,程序员能从中看出什么机遇?

鸿蒙声势浩大&#xff0c;在最近的大厂商合作消息中我们能看到什么未来机遇&#xff1f;&#xff1f; 12 月 22 日消息&#xff0c;据华为开发者联盟服务消息&#xff0c;来自政务、金融、教育等行业的 8 家企业与华为签约并官宣启动鸿蒙原生应用开发。此前&#xff0c;美团、…

Kubernetes pod ip 暴露

1. k8s pod 和 service 网络暴露 借助 iptables 的路由转发功能&#xff0c;打通k8s集群内的pod和service网络&#xff0c;与外部网络联通 # 查看集群的 pod 网段和 service 网段 kubectl -n kube-system describe cm kubeadm-config networking:dnsDomain: cluster.localpod…

Kafka收发消息核心参数详解

文章目录 一、从基础的客户端说起消息发送者主流程消息消费者主流程 二、从客户端属性来梳理客户端工作机制消费者分组消费机制生产者拦截器机制消息序列化机制消息分区路由机制生产者消息缓存机制发送应答机制生产者消息幂等性生产者消息事务 三、客户端流程总结四、SpringBoo…

ubuntu20.04下安装pcl_ubuntu安装pcl

pcl点云数据库&#xff0c;用来进行3D信息的获取与处理&#xff0c;和opencv相比较&#xff0c;opencv是用来处理二维信息&#xff0c;他是学术界与工业界针对点云最全的库&#xff0c;且网络上相关的资料很多。以下是pcl的安装步骤以及遇到的问题。 提前说明&#xff0c;本人…

算法基础之表达整数的奇怪方式

表达整数的奇怪方式 中国剩余定理: 求M 所有m之积 然后Mi M / mi x 如下图 满足要求 扩展中国剩余定理 找到x **使得x mod mi ai**成立 对于每两个式子 都可以推出①式 即 用扩展欧几里得算法 可以算出k1,-k2和m2–m1 判无解 : 若**(m2–m1) % d ! 0** 说明该等式无解 …

无约束优化问题求解(3):共轭梯度法

目录 4. 共轭梯度法4.1 共轭方向4.2 共轭梯度法4.3 共轭梯度法的程序实现4.4 非二次函数的共轭梯度法 Reference 4. 共轭梯度法 4.1 共轭方向 最速下降法的线搜索采取精确线搜索时&#xff0c;由精确线搜索需要满足的条件&#xff1a;迭代点列 x k 1 x k α k d k x_{k1}…

Java中使用JTS实现WKB数据写入、转换字符串、读取

场景 Java中使用JTS实现WKT字符串读取转换线、查找LineString的list中距离最近的线、LineString做缓冲区扩展并计算点在缓冲区内的方位角&#xff1a; Java中使用JTS实现WKT字符串读取转换线、查找LineString的list中距离最近的线、LineString做缓冲区扩展并计算点在缓冲区内…

MFC静态链接+libtiff静态链接提示LNK2005和LNK4098

编译报错 1>msvcrt.lib(ti_inst.obj) : error LNK2005: "private: __thiscall type_info::type_info(class type_info const &)" (??0type_infoAAEABV0Z) 已经在 libcmtd.lib(typinfo.obj) 中定义 1>msvcrt.lib(ti_inst.obj) : error LNK2005: "pr…

电子说明书制作:零基础也可以轻松上手

引言&#xff1a; 在数字化时代&#xff0c;电子说明书成为了传统纸质说明书的现代替代品。电子说明书具有可交互性、易更新、环保等优势&#xff0c;越来越受到企业和个人的青睐。本文将介绍一些简单易用的工具和方法&#xff0c;帮助零基础的用户轻松上手电子说明书的制作。…

Sui 生态排名第一的头部流动性协议 NAVI Protocol 活动进行中

作为在熊市中启动的新生公链&#xff0c;Sui 正在稳步崛起。公链的 TVL 持续攀升&#xff0c;目前已经达到了 1.76亿美元&#xff0c;闯入了公链排名前20榜单。仅过去四个月内&#xff0c;TVL 增加了10倍&#xff0c;并且增长仍在继续&#xff0c;SUI 的价格在近期也有了很亮眼…

智能优化算法应用:基于瞬态优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于瞬态优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于瞬态优化算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.瞬态优化算法4.实验参数设定5.算法结果6.…

网络调优,部署内网备份冗余和负载分担---实验

目录 网络调优&#xff0c;部署内网备份冗余和负载分担---实验 拓扑 需求 配置步骤&#xff1a; 配置命令: 网络调优&#xff0c;部署内网备份冗余和负载分担---实验 拓扑 需求 主机获取IP地址&#xff0c;访问WEB服务器&#xff0c;WEB服务器网关在SW5上SW5作为VLAN10,V…