TikTok(字节跳动)的新人工智能Boximator

AI 视频生成器最近占据了科技头条新闻,特别是在 OpenAI 宣布推出Sora之后,Sora 是他们的第一个视频模型,可以通过简单的文本提示生成令人惊叹的 AI 视频。

如今,制作 TikTok 的公司字节跳动也加入了这一行动。他们创建了Boximator,可以让您将静态图片转换为视频。

什么是 Boximator?

Boximator 将“box”和“animator”结合起来来描述其功能:使用用户定义的box对视频中的对象进行动画处理。该工具旨在让用户控制视频中对象的移动方式,提供硬盒和软盒的混合用于运动控制。

硬盒可实现精确的对象轮廓,而软盒可实现更流畅的运动路径。

在上面的示例中,所有边界框都投影到裁剪区域(白色虚线框)。

Boximator 的工作原理

以下是视频生成步骤:

  1. 对于数据集中的每个剪辑,都会使用视觉语言模型获取第一帧来生成图像描述。
  2. 然后他们从这些描述中提取名词块,比如“年轻人”或“白衬衫”。
  3. 这些提示被输入到预先训练的基础模型和对象跟踪器中,以生成边界框并将其填充到视频的所有帧中。

Boximator 的完整架构模型如下图所示。

在视频扩散模型的每个空间注意力块中,都有两个堆叠的注意力层:空间自注意力层和空间交叉注意力层。

本白皮书描述了其工作原理的完整细节。

训练数据集

与图像相反,带有对象跟踪注释的公开视频数据集并不多。工程师们根据WebVid-10M 数据集整理了他们的训练集。

WebVid-10M是一个大型短视频数据集,其文本描述来自素材网站。这些视频内容多样且丰富。

  • 1070 万对视频字幕。
  • 视频总时长52K

示例视频

以下是一些不错的例子:

提示:“The kitten is hiding herself into the cup”,“小猫把自己藏进杯子里”

提示:“A dog is chasing a red ball.”,“一只狗正在追一个红球。”

提示:“A young woman is turning her head, revealing her face in profile.”,“一位年轻女子转过头,露出了她的侧脸。”

提示:“A man sitting on a table is drinking a cup of coffee.”,“一个男人坐在桌子上正在喝一杯咖啡。”

与其他AI视频生成器的比较

下面的示例是与两种最流行的 AI 视频生成器Pika 1.0和Runway Gen2的比较。

:Pika 和 Gen-2 使用图像和文本条件;Boximator 使用源自文本提示的附加框约束。

提示:“Adding wine to a glass.”,“往杯子里加酒。”

Boximator(左)、Pika 1.0(中)、Gen2(右)

提示:“A handsome man is taking out a rose from his pocket with his right hand and looking at the rose.”,“一个英俊的男人用右手从口袋里掏出一朵玫瑰花,看着这朵玫瑰花。”

Boximator(左)、Pika 1.0(中)、Gen2(右)

提示:“Two raccoons in blue shirts are playing a ball, the left one is jumping up.”,“两只穿蓝色衬衫的浣熊正在玩球,左边的一只在跳起来。”

Boximator(左)、Pika 1.0(中)、Gen2(右)

觉得这些视频怎么样?

查看这些示例,很明显添加额外的控制层可以增强结果。Boximator 生成的视频比 Pika 和 Gen2 生成的视频更具动态性。

如何尝试

该演示网站目前不向公众开放。据其创建者称,它应该会在未来几个月内推出。

如果你真的想尝试 Boximator,你可以给创作者发电子邮件wangjiawei.424@bytedance.com,向他们发送输入图像和文字提示,然后他们会回复生成的视频。

最后的想法

作为一名技术爱好者,我很高兴看到科技巨头展示 Boximator 和 Sora 等在不久的将来我们可以触手可及的软件。

然而,重要的是要意识到与该技术相关的风险。与任何强大的工具一样,也有可能被滥用。例如,深度造假可用于传播错误信息或宣传。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/436710.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FPGA AXI4总线操作教程

AXI(Advanced Extensible Interface)总线是一种高性能、低延迟的片上系统(SoC)接口标准,广泛应用于现代数字系统设计中。它允许不同的硬件组件以高效、可靠的方式进行数据传输和控制。本教程将介绍AXI总线的基本操作和…

卧室装修干货|榻榻米的4种类型及优缺点。福州中宅装饰,福州装修

卧室想要做榻榻米设计,不知道如何下手,这篇文章一定要看:常见榻榻米的类型有哪些?这些类型分别有哪些优缺点呢? 榻榻米是一种传统的日本床铺设计,近年来在现代室内设计中越来越受欢迎。它以低矮的床垫和简洁的线条为…

004-执行上下文事件循环

执行上下文&事件循环 1、执行上下文2、执行上下文类型3、执行上下文的生命周期4、示例说明5、事件循环机制6、宏任务7、微任务8、同步任务、宏任务、微任务9、代码执行顺序 - 示例 💡 Tips:用于说明 浏览器 对 JavaScript 执行顺序,涉及知…

Unity UGUI之Scrollbar基本了解

Unity的Scrollbar组件是用于在UI中创建滚动条的组件之一。滚动条通常与其他可滚动的UI元素(如滚动视图或列表)一起使用,以便用户可以在内容超出可见区域时滚动内容。 以下是Scrollbar的基本信息和用法: 1、创建 在Unity的Hierarchy视图中右…

Debian篇——系统安装在SD卡上如何调整系统分区大小

背景:我的SD卡是128G的,开发商安装好系统后,我发现SD的系统分区才8.9G空间(剩下的108G未分区),不够使用,于是需要调整系统分区的大小。 1.查看系统盘挂载情况 df -h 2.查看系统盘在哪个分区 …

解决java: 无法访问javax.servlet.ServletException

问题 在对历往项目工具类总结和归纳更新过程中,common模块在compile编译过程中遇到了“Error java: 无法访问javax.servlet.ServletException 找不到javax.servlet.ServletException的类文件”这个报错问题。 IDE使用的是idea2021。 解决方法 pom中增加如下依赖&…

十七、IO流

IO 目录 一、IO流的概述IO流的分类 二、基本流2.1字节流2.2 字节输出流写出数据的三种方式2.3 换行和续写2.4 字节输入流2.5 文件拷贝2.6 IO流中不同JDK版本捕获异常的方式2.7 字符集详解2.7.1 ASCII字符集2.7.2 GBK字符集2.7.3 Unicode字符集 2.8 为什么会有乱码2.9 Java中的编…

python之海龟绘图

海龟绘图(turtle)是一个Python内置的绘图库,也被称为“Turtle Graphics”或简称“Turtles”。它采用了一种有趣的绘图方式,模拟一只小海龟在屏幕上爬行,而小海龟爬行的路径就形成了绘制的图形。这种绘图方式最初源自20…

某资产管理系统打点过程中的免杀经历

上周,被扔过来单位内部的一个链接,让渗透一下,本以为三下五除二很快就能测完,没想到在对抗杀软时费了一番功夫,再加上杂七杂八的事儿,经过了一个星期才测完(# ̄~&#xff…

API(接口) | 软件组件之间信息交互的“桥梁”

Hi,大家好,我是半亩花海。本文主要从 API 的定义、包含、用途和其他方面来简单地介绍 API(接口) ——软件组件之间信息交互的“桥梁”。 目录 一、什么是 API? 二、 API 中所包含哪些? 补充 三、API 可…

SQL server内存问题排查方案

前言 由于昨晚线上服务器数据库突然访问数据缓慢,任务管理里面SQL server进程爆满等等,重大事故的排查拟写解决方案。 整体思路 查询数据库请求连接:排查连接池是否占满查询数据库请求量:排查数据是否存在反复查询查询数据库阻…

Mysql 学习(十五)redo 日志

redo 日志 什么是redo日志?在说这个之前我们先来想一个场景,在访问磁盘的页面之前,我们会先把页面缓存到Buffer Pool之后,才会访问。写页面的时候也会先将buffer pool中的页面修改之后,然后在某个时机才会刷新到磁盘中…

【Oracle Database】如何远程连接服务器、创建用户、从本地dmp导入表

C:\Users\test>imp test/123456ip/orcl:1521 fileE:\db.dmp tablestable1,table2Import: Release 11.2.0.3.0 - Production on 星期一 3月 4 12:59:09 2024Copyright (c) 1982, 2011, Oracle and/or its affiliates. All rights reserved.IMP-00058: 遇到 ORACLE 错误 1263…

vue3 vue-i18n 多语言

1. 安装 npm install vue-i18n -s 2. 引入main.js import { createI18n } from vue-i18n import messages from ./i18n/index const i18n createI18n({legacy: false,locale: Cookies.get(language) || en_us, // set localefallbackLocale: en_us, // set fallback local…

Spring面向切片编程AOP概念及相关术语(一)

个人名片: 🐼作者简介:一名大三在校生,喜欢AI编程🎋 🐻‍❄️个人主页🥇:落798. 🐼个人WeChat:hmmwx53 🕊️系列专栏:🖼️…

面试问答之Spring进阶

文章目录 🐒个人主页:信计2102罗铠威🏅JavaEE系列专栏📖前言:🎀说说你对Spring的认识与理解🐕Bean的分类🐕 BeanFactory 接口和ApplicationContex 接口 的区别🐕SpringBe…

Canvas笔记04:绘制九大基本图形的方法,重头戏是贝塞尔曲线

hello,我是贝格前端工场,最近在学习canvas,分享一些canvas的一些知识点笔记,本期分享canvas绘制图形的知识,欢迎老铁们一同学习,欢迎关注,如有前端项目可以私信贝格。 Canvas是HTML5中的一个绘…

ROS2学习(七) Foxy版本ros2替换中间件。

在ros2使用的过程中,一开始选用的foxy版本,后来发现,foxy版本的ros2有很多问题。一个是foxy版本已经停止维护了。另一个问题是这个版本有很多bug, 后续的版本在功能实现上做了很大的改动,甚至说进行了重写。修复的一些问题&#x…

【Flink网络传输】ShuffleMaster与ShuffleEnvironment创建细节与提供的能力

文章目录 一. Taskmanager之间传递数据细节二. ShuffleService的设计与实现三. 在JobMaster中创建ShuffleMaster四. 在TaskManager中创建ShuffleEnvironment五. 基于ShuffleEnvironment创建ResultPartition1. 在task启动时创建ResultPartition2. ResultPartition的创建与对数据…

WSL2安装+深度学习环境配置

WSL2安装深度学习环境配置 1 安装WSL22 配置深度学习环境1.1 设置用户名、密码1.2 安装cuda修改WSL安装路径 1.3 安装Anaconda 参考:搭建Windows Linux子系统(WSL2)CUDA环境 参考:深度学习环境配置 WindowsWSL2 1 安装WSL2 WSL …