AI 视频生成器最近占据了科技头条新闻,特别是在 OpenAI 宣布推出Sora之后,Sora 是他们的第一个视频模型,可以通过简单的文本提示生成令人惊叹的 AI 视频。
如今,制作 TikTok 的公司字节跳动也加入了这一行动。他们创建了Boximator,可以让您将静态图片转换为视频。
什么是 Boximator?
Boximator 将“box”和“animator”结合起来来描述其功能:使用用户定义的box对视频中的对象进行动画处理。该工具旨在让用户控制视频中对象的移动方式,提供硬盒和软盒的混合用于运动控制。
硬盒可实现精确的对象轮廓,而软盒可实现更流畅的运动路径。
在上面的示例中,所有边界框都投影到裁剪区域(白色虚线框)。
Boximator 的工作原理
以下是视频生成步骤:
- 对于数据集中的每个剪辑,都会使用视觉语言模型获取第一帧来生成图像描述。
- 然后他们从这些描述中提取名词块,比如“年轻人”或“白衬衫”。
- 这些提示被输入到预先训练的基础模型和对象跟踪器中,以生成边界框并将其填充到视频的所有帧中。
Boximator 的完整架构模型如下图所示。
在视频扩散模型的每个空间注意力块中,都有两个堆叠的注意力层:空间自注意力层和空间交叉注意力层。
本白皮书描述了其工作原理的完整细节。
训练数据集
与图像相反,带有对象跟踪注释的公开视频数据集并不多。工程师们根据WebVid-10M 数据集整理了他们的训练集。
WebVid-10M是一个大型短视频数据集,其文本描述来自素材网站。这些视频内容多样且丰富。
- 1070 万对视频字幕。
- 视频总时长52K。
示例视频
以下是一些不错的例子:
提示:“The kitten is hiding herself into the cup”,“小猫把自己藏进杯子里”
提示:“A dog is chasing a red ball.”,“一只狗正在追一个红球。”
提示:“A young woman is turning her head, revealing her face in profile.”,“一位年轻女子转过头,露出了她的侧脸。”
提示:“A man sitting on a table is drinking a cup of coffee.”,“一个男人坐在桌子上正在喝一杯咖啡。”
与其他AI视频生成器的比较
下面的示例是与两种最流行的 AI 视频生成器Pika 1.0和Runway Gen2的比较。
注:Pika 和 Gen-2 使用图像和文本条件;Boximator 使用源自文本提示的附加框约束。
提示:“Adding wine to a glass.”,“往杯子里加酒。”
Boximator(左)、Pika 1.0(中)、Gen2(右)
提示:“A handsome man is taking out a rose from his pocket with his right hand and looking at the rose.”,“一个英俊的男人用右手从口袋里掏出一朵玫瑰花,看着这朵玫瑰花。”
Boximator(左)、Pika 1.0(中)、Gen2(右)
提示:“Two raccoons in blue shirts are playing a ball, the left one is jumping up.”,“两只穿蓝色衬衫的浣熊正在玩球,左边的一只在跳起来。”
Boximator(左)、Pika 1.0(中)、Gen2(右)
觉得这些视频怎么样?
查看这些示例,很明显添加额外的控制层可以增强结果。Boximator 生成的视频比 Pika 和 Gen2 生成的视频更具动态性。
如何尝试
该演示网站目前不向公众开放。据其创建者称,它应该会在未来几个月内推出。
如果你真的想尝试 Boximator,你可以给创作者发电子邮件wangjiawei.424@bytedance.com,向他们发送输入图像和文字提示,然后他们会回复生成的视频。
最后的想法
作为一名技术爱好者,我很高兴看到科技巨头展示 Boximator 和 Sora 等在不久的将来我们可以触手可及的软件。
然而,重要的是要意识到与该技术相关的风险。与任何强大的工具一样,也有可能被滥用。例如,深度造假可用于传播错误信息或宣传。