给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切
自从Sora发布以来,AI视频生成领域变得更加「热闹」了起来。过去几个月,我们见证了即梦、RunwayGen-3、LumaAI、快手可灵轮番炸场。
和以往一眼就能识破是AI生成的模型不太一样,这批视频大模型可能是我们所见过的「最好的一届」。
然而,视频大语言模型(LLM)惊艳表现的背后离不开庞大且经过精细标注的视频数据集,这需要花费相当高的成本。近期研究领域也涌现了一批无需额外训练的创新方法:采用训练好的图像大语言模型,直接用于视频任务的处理,这样就绕开了「昂贵」的训练过程。
此外,现有大多视频LLM存在两个主要缺点:(1)它们只能处理有限帧数的视频输入,这使得模型难以捕捉视频中细微的空间和时间内容;(2)它们缺少时间建模设计,而是简单地将视频特征输入到LLM中,完全依赖于LLM对运动的建模能力。
针对以上问题,苹果研究人员提出了SlowFast-LLaVA(简称SF-LLaVA)。这一模型基于字节团队开发的LLaVA-NeXT架构,无需额外微调,开箱即用。研究团队受在动作识别领域大获成功的双流网络的启发,为视频LLM设计了一套新颖的SlowFast输入机制。
简单来说,SF-LLaVA将通过两种不同的观察速度(Slow和Fast)来理解视频中的细节和运动。
慢速路径:低帧率提取特征,同时尽可能多地保留空间细节(例如每8帧保留24×24个token)
快速路径:高帧率运行,但用较大的空间池化步长降低视频的分辨率,以模拟更大的时间上下文,更专注于理解动作的连贯性
这相当于模型拥有两只「眼睛」:一只慢慢看,注意看细节;另一只快速看,注意看动作。这样就解决了大多现有的视频LLM的痛点,既能捕捉到详细的空间语义,又能捕捉到更长的时间上下文。
论文链接:https://arxiv.org/pdf/2407.15841
实验结果显示,SF-LLaVA在所有基准测试中均以显著的优势超越了现有免训练方法。与精心微调的SFT模型相比,SF-LLaVA能达到相同性能,甚至更好。
模型架构
如下图所示,SF-LLaVA遵循标准的免训练视频LLM流程。它以视频V和问题Q作为输入,输出对应的答案A。
对于输入,要从每个视频任意大小和长度中均匀采样N帧,I={I_1,I_2,...,I_N},不需要对选取的视频帧进行特别的组合或排列。以帧为单位视独立提取频特征为F_v∈R^N×H×W,给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切其中H和W分别是帧特征的高度和宽度。

实验结果
研究团队对SF-LLaVA进行了全面的性能评估,将其与当前SOTA免训练模型(如IG-VLM和LLoVi)在多个视频问答任务中进行了对比。此外,他们还将其与经过视频数据集监督微调(SFT)的视频LLM,例如VideoLLaVA和PLLaVA进行了比较。
开放式视频问答
如下表所示,在开放式视频问答任务中,SF-LLaVA在所有基准测试中都比现有的免训练方法表现得更好。具体来说,当分别搭载7B和34B参数规模的LLM时,SF-LLaVA分别在MSRVTT-QA上比IGVLM高出2.1%和5.0%,在TGIF-QA上高出5.7%和1.5%,在ActivityNet-QA上高出2.0%和0.8%。
即使与经过微调的SFT方法相比,SF-LLaVA在大多数基准测试中也展现了可比的性能,只有在ActivityNet-QA这一基准上,PLLaVA和LLaVA-NeXT-VideoDPO略胜一筹。
多项选择视频问答
从下表中可见,在所有基准测试中,SF-LLaVA在多项选择视频问答的表现都优于其他免训练方法。在要求复杂长时序推理的EgoSchema数据集中,SF-LLaVA7B和34B的版本相较IG-VLM模型的得分分别高出11.4%和2.2%。
虽然VideoTree在基准测试中领先,因为它是基于GPT-4的专有模型,因而性能远高于开源LLM。与SFT方法相比,SF-LLaVA34B模型在EgoSchema上也取得了更好的结果,这证实了SlowFast设计处理长视频方面的强大能力。
TextGeneration
文生视频
如表3所示,对于文本生成视频的任务,SF-LLaVA也显示出了一些优势。SF-LLaVA-34B在整体表现上超越了所有免训练的基准。尽管在细节取向方面,SF-LLaVA略逊于LLaVA-NeXT-Image。基于SlowFast设计,SF-LLaVA可以用更少的视觉token覆盖更长的时间上下文,因此在时间理解任务中表现得格外出色。
此外,在文生视频的表现上,SF-LLaVA-34B也优于大多数SFT方法。
更多细节,请参考原论文。
相关文章
-
把电脑变成无线路由器,打造你的个人Wi-Fi热点详细阅读
在这个移动互联的时代,Wi-Fi已经成为我们生活中不可或缺的一部分,无论是刷视频、玩游戏还是在线办公,稳定的网络连接都是关键,有时候我们会遇到一些尴尬...
2026-03-24 3
-
学计算机的你伤不起?揭秘程序员成长路上的痛与乐详细阅读
在当今数字化时代,计算机科学已经成为最热门的专业之一,无论是人工智能、大数据分析,还是区块链技术、云计算,这些前沿领域都离不开计算机专业人才,对于那些...
2026-03-24 3
-
万物互联的秘密—物联网的基础是什么?详细阅读
引言:从科幻到现实,物联网如何改变我们的生活?想象一下这样的场景:清晨,你的闹钟在最佳时间唤醒你,同时窗帘自动拉开,阳光洒满房间;咖啡机已经煮好了你最...
2026-03-24 3
-
深入解析 Visual Studio 2008,为何破解版并非明智之选详细阅读
在软件开发领域,Visual Studio(简称 VS)无疑是开发者们最熟悉的工具之一,作为微软推出的一款集成开发环境(IDE),它为程序员提供了强大...
2026-03-24 5
-
配色方案大全,打造视觉美感的艺术与科学详细阅读
色彩是设计的灵魂,它不仅能够传递情感,还能影响用户的行为和决策,无论是网页设计、室内装饰还是品牌形象塑造,配色方案的选择都至关重要,本文将带你深入了解...
2026-03-24 5
-
探索AutoIt论坛,自动化脚本的宝藏地图详细阅读
引言:为什么你需要了解AutoIt论坛?如果你是一个喜欢让电脑“自己动手”的人,或者你曾经因为重复性的任务而感到抓狂,那么AutoIt论坛可能是你一直...
2026-03-24 5
-
智能H3输入法8.0,重新定义高效输入的未来详细阅读
在科技日新月异的时代,输入法早已从单纯的“打字工具”进化为一种智能化、个性化的生产力助手,无论是日常聊天、工作文档还是创意写作,一款优秀的输入法都能显...
2026-03-24 5
-
最省流量的手机浏览器,如何在指尖上畅游互联网?详细阅读
为什么需要“最省流量”的浏览器?想象一下这样的场景:你在地铁里打开一个网页,却发现短短几分钟内流量就被消耗殆尽;或者你正在旅行途中,却因为超出套餐限制...
2026-03-24 5
