谷歌研究新突破:Distilling VLM模型自动生成百万视频字幕,视频语言模型性能提升6%!
引言:视频理解的挑战与机遇
在数字化时代,视频内容的爆炸式增长为计算机视觉和自然语言处理领域带来了前所未有的挑战与机遇。视频不仅包含丰富的视觉信息,还蕴含着复杂的时间序列和动态变化,这些特性使得视频理解成为一个高度复杂的任务。与图像相比,视频的注释工作更加耗时和困难。例如,为一小时视频提供详细的叙述可能需要长达70小时的人工工作,这显著高于图像注释所需的时间。
尽管存在这些挑战,视频理解也提供了巨大的机遇。通过对视频内容的深入分析,我们可以开发出能够自动生成视频描述、回答视频内容相关问题甚至进行视频检索的智能系统。这些系统在教育、娱乐、安全监控等多个领域都有着广泛的应用前景。
为了克服视频注释的困难并充分利用视频数据,研究人员开始探索使用自动生成的伪标注数据来训练视频-语言模型。这种方法不仅可以减少对人工标注的依赖,还可以通过自动化流程处理大规模的视频数据集,从而为视频理解任务提供更丰富、更高质量的训练数据。
在本文中,我们将介绍一种简单而有效的方法,该方法通过微调图像-语言基线模型并结合合成的指令性数据来适应视频内容,进而生成数百万视频的高质量伪标注。我们的实验结果表明,这种方法在多个视频-语言基准测试中都取得了优异的性能,展现了视频理解领域的巨大潜力。
本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。
「AI论文解读达人」 可提供最热AI论文推荐、论文解读等功能。
传送门:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
论文标题、机构、论文链接
论文标题: Distilling Vision-Language Models on Millions of Videos
机构: Google, University of Texas at Austin
论文链接: https://arxiv.org/pdf/2401.06129.pdf
本研究的成果不仅为视频理解领域带来了新的见解,也为未来相关技术的发展奠定了坚实的基础。随着技术的进步,我们有理由相信,视频理解和自动生成的视频描述将在不久的将来成为现实,极大地推动多媒体内容的可访问性和可理解性。
视频与语言模型的融合:从图像到视频的演变
1. 视频理解的现状与问题
视频理解作为计算机视觉和自然语言处理交叉领域的一个重要分支,近年来受到了广泛关注。与图像理解相比,视频理解更具挑战性,因为它不仅需要处理静态的视觉信息,还要理解时间维度上的动态变化和因果关系。目前,尽管在图像理解方面取得了显著进展,但视频理解的研究仍面临着一些难题。
首先,视频数据的标注成本远高于图像。例如,为一小时视频提供详细的叙述性标注可能需要长达70小时,而图像标注通常只需15至90秒。这导致可用于训练的视频文本数据量远小于图像文本数据量。此外,尽管尝试通过从音频转录文本或检索替代文本(alt-text)来自动化标注过程,但这些方法往往存在与视频内容不相关或与视觉信息不对齐的问题。
2. 视频文本数据的稀缺性
视频文本数据的稀缺性是视频语言模型发展的一个主要瓶颈。现有的视频数据集,如Spoken Moments in Time (S-MiT) 和 Video Localized Narratives (VidLN),虽然涵盖了多样的主题,但在视频数量和文本描述的质量上与图像文本数据集相比仍有较大差距。这些数据集的视频通常较短,文本描述也较简短,且可能包含转录错误。
方法概述:两阶段视频语言模型适配
1. 视觉编码器的适配
为了适应视频数据的特点,我们提出了一个两阶段的视频语言模型适配方法。在第一阶段,我们对视觉编码器进行微调,同时保持语言模型部分冻结。这一步骤利用了相对较大的视频文本数据集,尽管其文本内容简短且质量不高。通过这种方式,模型能够适应动态场景,同时保留原始语言解码器的多样性能力。
2. 语言模型的适配
在第二阶段,我们对语言模型进行微调,同时冻结视觉编码器。这一步骤使用的是较小的视频文本数据集,其中的文本详细描述了视频内容,并提供了多样性。通过这种方式,模型能够强化对时间和因果推理的理解能力,超越了仅仅描述场景级别的能力。通过这两阶段的适配,视频语言模型能够处理动态输入和以动作为中心的输出,并能够为大规模网络视频生成高质量的伪标注文本。
实验设计:数据集与评估标准
1. 适配数据与伪标注数据
在视频语言模型的适配过程中,研究者们面临着一个挑战:缺乏足够的人类标注的视频-文本数据。为了解决这个问题,研究者们采取了将基于图像的视觉语言模型(VLM)通过合成指令性数据进行微调的方法。这种方法首先冻结语言模型组件,仅对视觉编码器进行微调,以适应动态场景。随后,研究者们冻结视觉编码器,仅对语言模型进行微调,以强调模型在场景描述之外的时间和因果推理能力。这样,经过适配的视频语言模型能够处理动态输入和以动作为中心的输出,并能为数百万网络视频生成高质量的伪标注字幕。
伪标注字幕的优势在于,它们通常与视觉内容相关,因为在视频字幕训练中采用了最大似然目标。此外,与基于帧的视频字幕相比,伪标注字幕更好地保留了视频中的时间信息。伪标注的视频语言模型能够生成包含静态外观、一般动作和详细身体动作等多个粒度的文本描述。与人工标注相比,伪标注更具可扩展性,因为底层语言模型可以并行输出多个候选字幕,并且随着高效推理技术的进步,标注成本可以进一步降低。
2. 视频理解的评估任务
为了评估适配后的视频语言模型,研究者们在广泛的视频语言基准测试上进行了评估,涵盖了视频问答(QA)和字幕生成等任务。例如,在开放式NExT-QA基准测试中,适配后的模型达到了29.5%的WUPS得分,比之前最好的结果高出2.8%。此外,研究者们还使用适配后的VLM在数百万网络视频上生成视频描述,并通过训练CLIP风格的视频语言双编码器模型来定量评估伪标注字幕的质量。实验表明,随着伪标注视频数据规模的增加,双编码器模型的性能也呈现出显著的提升效果。
主要结果:视频语言模型的零样本性能
1. 视频文本检索与分类的零样本表现
在零样本设置下,使用伪标注字幕训练的双编码器模型在MSR-VTT文本到视频检索任务上的表现显著优于使用原始Alt-text的模型。例如,使用VideoCC+数据集训练的模型在MSR-VTT上的Recall@1达到了48.2%,比使用原始Alt-text训练的模型高出11.2%。此外,该模型在Kinetics-600视频分类任务上的零样本表现也优于基线模型。
2. 视频语言理解任务的性能对比
在视频语言理解任务上,适配后的视频语言模型与PaLI-3基线模型相比,展现出了显著的性能提升。例如,在MSR-VTT QA和ActivityNet QA任务上,适配后的模型比FrozenBiLM模型分别高出7.6%和3.7%的准确率。在更具挑战性的开放式NExT-QA数据集上,适配后的模型的WUPS得分比Flamingo模型高出2.8%,并且这一提升是在使用的训练视频数量仅为Flamingo的1/50时实现的。这些结果表明,适配后的视频语言模型在各种视频语言基准测试中都能取得卓越的零样本性能。
组件效果分析:生成更佳文本描述的关键
在视频语言模型(VLM)的发展中,生成高质量的文本描述是提升模型性能的关键。本章节将分析两个主要组件——视觉适配和语言适配——对于生成更佳文本描述的影响。
1. 视觉适配的不同方法对比
视觉适配是通过微调视觉编码器来适应动态场景,同时保持语言解码器的多样性能力。在视觉适配的过程中,研究者尝试了不同的方法。例如,将视觉编码器(FV)进行微调,同时冻结语言模型(FL),可以使视觉编码器更加专注于场景动态而非外观。这种方法相比于同时微调FV和FL,可以防止由于视频文本数据缺乏多样性和数量而导致的过拟合问题。此外,还有研究者尝试了自训练方法,通过使用伪标签提供的丰富监督来进一步改进VLM,这种方法在视觉适配阶段尤为有效。
2. 语言适配中指令数据的影响
语言适配是通过微调语言编码器来强调模型的时序和因果推理能力。在这一阶段,研究者使用了较小的视频文本数据集,这些数据集的文本详细描述了视频内容,并提供了多样性。通过设计提示来鼓励大型语言模型(LLM)生成需要时序和因果推理的问题,可以提高VLM的时序推理能力。例如,研究者使用了基于NExT-QA数据集构建的因果问题,这些问题要么解释首先发生的动作的意图,要么说明接下来发生的动作的原因。通过这种方法,VLM在语言适配后能够为大规模网络抓取的视频生成高质量的伪字幕。
结论与展望:视频语言模型的未来发展
视频语言模型的未来发展充满了潜力。通过适配图像基础的VLM到视频,并创建高质量的伪字幕,研究者已经展示了在各种视频语言基准上的优异零样本性能。例如,改进后的VLM在开放式NExT-QA上超过了之前最好的结果2.8%,并且在MSR-VTT零样本文本到视频检索任务上比现有最佳方法高出6%。
此外,通过自动生成的字幕对比较训练的视频语言双编码器模型表现出了3.8%的性能提升,这表明伪字幕比原始文本提供了更强的训练信号。这些伪字幕展示了与视频数量成正比的积极扩展行为,这是原始alt-text无法实现的。
总之,通过对视觉适配和语言适配组件的精心设计和优化,我们可以期待VLM在视频理解和生成任务中取得更大的进步。未来的研究可以探索更多的适配策略,以及如何更有效地利用大规模未标记视频数据来进一步提升模型性能。
本文内容由 赛博马良「AI论文解读达人」 智能体生成,人工整理排版。
传送门:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf