腾讯清华联合提出图像到视频生成方法-Follow-Your-Click:点击图像并加上简单提示词就可让图像动起来!

Follow-Your-Click只需单击一次和简短的提示就可以让图像的某一部分动起来,还支持不同的动作表达,比如微笑,悲伤,跳舞……

相关链接

论文链接:https://arxiv.org/abs/2403.08268

项目链接:https://github.com/mayuelala/FollowYourClick

论文阅读

通过简短提示进行开放域区域图像动画

摘要

尽管最近在图像到视频生成方面取得了进展,但更好的可控性和局部动画却很少被探索。大多数现有的图像到视频的方法不具有局部意识,并且倾向于移动整个场景。然而,人类艺术家可能需要控制运动不同物体或区域的。此外,当前的I2V方法需要 用户不仅要描述目标运动,还要提供冗余的帧内容详细描述。这两个问题阻碍了当前I2V工具的实际应用。

在本文中,我们提出了一个实用的框架Follow-Your-Click,通过简单的用户点击(用于指定要移动的内容)和一个简短的按钮来实现图像动画运动提示符(用于指定如何移动)。从技术上讲,我们建议第一帧掩蔽策略,显著提高视频生成质量运动提示数据集提高模型短提示跟踪能力。

为了进一步控制运动速度,我们提出了基于流的方法运动幅度控制更能控制目标运动的速度精确。我们的框架具有更简单而精确的用户控制和更好的生成性能优于以前的方法。大量的实验比较了7条基线,包括商业工具和研究方法,在8个指标上表明了我们方法的优越性。

区域图像动画使用点击和简短提示。我们提出一种新的框架,通过用户提供的点击(移动到哪里)和简短的动作提示(如何移动),促进本地感知图像动画。我们的框架可以提供生动的对象运动,背景运动(例如,风暴),和多个对象移动。最好使用acrobatreader查看,它支持单击在视频上播放动画。

方法

框架概述。我们的框架的关键组件是第一帧掩蔽,运动增强模块的短动作提示跟随,和基于流量的运动强度控制。在推理过程中,区域动画可以是通过用户点击和简短的动作提示实现。

实验

基线方法定量比较

我们的方法演示跨多个指标的最佳或可比较的性能。 表现最好的方法的指标用红色突出显示,而那些用于第二好的方法用蓝色突出显示。

基线方法定性比较

我们 与gen2[3]、Genmo[4]、Genmo[3]等封闭的商业工具进行比较Pika[6]和包括Animate-anything[19],Dynamicrafter[78], I2VGen-XL[5]。

下面来看一些实际效果:

不同方法生成的动画

我们将我们的方法与最新的开源最先进的动画方法进行定性比较,包括Animate anything, SVD, Dynamicrafter和I2VGen-XL。我们还将我们的方法与商业工具(如Gen-2、Genmo和Pika Labs)进行了比较。

运动强度控制

在这里我们展示了我们的光流运动幅度控制(OFM)和基于FPS的运动幅度控制(FPS)之间的比较。

消融实验

在这里,我们展示了构建的短提示数据集(D)和运动增强模块(M)消融的定性结果。运动提示是“运行”。

限制

正如视频中所示,我们的方法在生成大型和复杂的人体动作方面受到限制。这可能是由于动作的复杂性和相关训练样本的稀缺性。

结论

在本文中,我们提出了Follow-Your-Click来解决生成问题可控和本地动画。据我们所知,我们是第一个I2V框架,能够通过一个简单的点击区域还有一个简短的动作提示生成图像动画。

为了支持这一点,首先将提示分段工具SAM合并到我们的框架中,以方便用户使用交互。

  • 为了实现短提示跟踪能力,我们提出了一个运动增强模块和一个构建的短提示数据集来实现这一目标。

  • 为了提高生成的时间运动质量,我们提出了第一帧屏蔽策略,显著提高了生成性能。

  • 为了使准确的学习运动速度,我们利用光流得分精确控制运动幅度。

我们的实验结果强调与现有基线相比,我们的方法的有效性和优越性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/549493.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【每日刷题】Day16

【每日刷题】Day16 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 24. 两两交换链表中的节点 - 力扣(LeetCode) 2. 160. 相交链表 - 力扣&…

IGBT基本工作原理、主要参数及作用

IGBT是一种三端子的半导体开关器件,栅极,集电极和发射极。它结合了MOSFET的高输入阻抗和双极型三极管的低导通压降特性,广泛应用于变频器、电动汽车、电力传输等领域。 工作原理 IGBT由N沟道MOSFET和PNP双极型晶体管组成,其导通和…

前端ocr技术:electron+vue3中使用tesseract插件识别图片中字符

同学们可以私信我加入学习群! 正文开始 前言一、electron各种csp问题二、试用插件总结 前言 项目需要ocr技术识别图片中的中文字符,本来这部分是后端的工作,但是因为各种原因,决定前端也做一个版本。 在ai时代之前,o…

conda新建环境报错An HTTP error occurred when trying to retrieve this URL.

conda新建环境报错如下 cat .condarc #将 .condarc文件中的内容删除,改成下面的内容 vi .condarc channels:- defaults show_channel_urls: true default_channels:- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main- https://mirrors.tuna.tsinghua.…

如何评估一个RAG(检索增强生成)系统

本文首发自博客文章 如何评估一个RAG(检索增强生成)系统 RAG 概念最初来源于 2020 年 Facebook 的一篇论文,这是 Facebook 博客对论文内容的进一步解释 👉《检索增强生成:简化智能自然语言处理模型的创建》。大家都知…

Vitis HLS 学习笔记--readVec2Stream 函数-探究

目录 1. 高效内存存取的背景 2. readVec2Stream() 参数 3. 函数实现 4. 总结 1. 高效内存存取的背景 在深入研究《Vitis HLS 学习笔记--scal 函数探究》一篇文章之后,我们对于scal()函数如何将Y alpha * X这种简单的乘法运算复杂化有了深刻的理解。本文将转向…

商家转账到零钱全攻略:开通、使用、区别与常见问题解答

商家转账到零钱是什么? 【商家转账到零钱】可以说是【企业付款到零钱】的升级版,商家转账到零钱可以为商户提供同时向多个用户微信零钱转账的能力,支持分销返佣、佣金报酬、企业报销、企业补贴、服务款项、采购货款等自动向用户转账的场景。…

8个Python高效数据分析的技巧

这篇文章介绍了8个使用Python进行数据分析的方法,不仅能够提升运行效率,还能够使代码更加“优美”。 1 一行代码定义List 定义某种列表时,写For 循环过于麻烦,幸运的是,Python有一种内置的方法可以在一行代码中解决…

MDC使用手册精讲

MDC 背景: 线上排查问题时,请求在多个微服务之间进行调用,并发量较大的情况下,想跟踪某一个请求的链路,是需要花费一些时间才能梳理出来,而且还依赖于你的业务字段。而我们需要的是快速定位,快…

SpringSecurity登录时在哪里调用我们自定义的UserDetailsServiceImpl

SpringSecurity登录时在哪里调用我们自定义的UserDetailsServiceImpl 1、请求login方法 2、将用户的用户名和密码封装成一个对象,以便进行后续的认证操作 3、执行认证操作 4、调用providermanager类的authenticate 5.进入这一步就开始跟我们自定义实现的UserDet…

【云计算】云数据中心网络(四):IPv6 网关

云数据中心网络(四):IPv6 网关 1.什么是 IPv6 网关2.IPv6 网关设计思路3.IPv6 网关的主要应用场景3.1 IPv6 私网通信3.2 IPv6 互联网通信3.3 IPv6 互联网通信(仅主动访问) 1.什么是 IPv6 网关 2017 年,中国…

OpenHarmony实战开发-Worker子线程中解压文件。

介绍 本示例介绍在Worker 子线程使用ohos.zlib 提供的zlib.decompressfile接口对沙箱目录中的压缩文件进行解压操作,解压成功后将解压路径返回主线程,获取解压文件列表。 效果图预览 使用说明 1.点击解压按钮,解压test.zip文件&#xff0c…

跟着Datawhale重学数据结构与算法

数据结构和算法之前学过,现在跟着Datawhale重学一下,就当是监督自己学习,重新拾起来养成一个好的习惯,以后可以一直坚持下去。 开源链接:【 教程地址 】【电子网站】 首先: #mermaid-svg-Cdr3rn9fGCVAiKS…

文献速递:深度学习胰腺癌诊断--胰腺癌在CT扫描中通过深度学习检测:一项全国性的基于人群的研究

Title 题目 Pancreatic Cancer Detection on CT Scans with Deep Learning: A Nationwide Population-based Study 胰腺癌在CT扫描中通过深度学习检测:一项全国性的基于人群的研究 01 文献速递介绍 胰腺癌(PC)的五年生存率是所有癌症中…

记一次奇妙的某个edu渗透测试

前话: 对登录方法的轻视造成一系列的漏洞出现,对接口确实鉴权造成大量的信息泄露。从小程序到web端网址的奇妙的测试就此开始。(文章厚码,请见谅) 1. 寻找到目标站点的小程序 进入登录发现只需要姓名加学工号就能成功…

什么是线程的上下文切换?

我们知道使用多线程的目的是为了充分利用多核CPU,比如说我们是16核,但是当创建很多线程比如说160个,CPU不够用了,此时就是一个CPU来应付多个线程(这里我们是一个CPU应对10个线程)。这个时候,操作…

【LeetCode每日一题】924. 尽量减少恶意软件的传播(并查集)

文章目录 [924. 尽量减少恶意软件的传播](https://leetcode.cn/problems/minimize-malware-spread/)思路:并查集代码: 924. 尽量减少恶意软件的传播 思路:并查集 构建并查集:首先,代码创建了一个 UnionFind 类来维护节…

HTML 入门

HTML 简介 1. 什么是 HTML? 全称:HyperText Markup Language(超文本标记语言)。 超文本:暂且简单理解为 “超级的文本”,和普通文本比,内容更丰富。 标 记:文本要变成超文本&…

单例模式五种写法

单例模式五种写法 单例模式有五种写法:饿汉、懒汉、双重检验锁、静态内部类、枚举. 单例模式属于设计模式中的创建型模式 一、单例模式应用场景 windows的task manager(任务管理器)就是很典型的单例模式; windows的recycle bin(回收站)也是典型的单例应用&#…

防范“AI换脸”风险 ZOLOZ Deeper月超2万次攻防测试

4 月 16 日,深度伪造(Deepfake)综合防控产品ZOLOZ Deeper 在北京正式发布,以拦截用户刷脸过程中的“AI换脸”风险,目前已率先应用在身份安全领域。公开资料显示,ZOLOZ是蚂蚁数科的科技品牌,以生…