谷歌DeepMind突破AI长视频处理瓶颈：延迟降低35%，帧数与准确率双提升-财经-沃资讯

当人工智能尝试理解一部两小时的电影时，它面临的挑战堪比人类在一秒钟内读完整本厚书。传统视频处理系统在面对长视频时，总会遭遇一道难以突破的计算瓶颈。谷歌DeepMind与首尔国立大学联合开发的新型视觉编码器Liteframe，为破解这一难题提供了全新思路。这项研究成果以预印本形式发布，编号为arXiv:2605.17260，标志着视频理解技术进入效率革命的新阶段。

主流视频AI系统普遍采用"视觉编码器+语言模型"的架构模式。视觉编码器像眼睛般逐帧扫描画面，将每帧图像转换为数字信号；语言模型则扮演大脑角色，对这些信号进行理解和推理。问题在于，视频帧数与计算量呈指数级增长关系——帧数翻倍时，视觉编码器和语言模型的工作量都会大幅增加，而语言模型处理复杂度更呈平方级上升。实验显示，现有系统如InternVL3-8B最多只能处理64帧画面，超过这个阈值系统性能就会急剧下降。

针对计算瓶颈问题，传统解决方案采用"事后削减"策略：先完整处理所有帧生成大量视觉令牌，再通过技术手段删减重复信息。这种方法虽减轻了语言模型负担，却将压力转移至视觉编码器。研究团队通过实验证明，在16倍压缩率条件下，语言模型处理时间显著降低，但视觉编码器耗时成为新的性能瓶颈。随着帧数增加，系统整体速度反而更慢，这种"头痛医脚"的解决方案暴露出根本性缺陷。

研究团队在系统测试中发现关键规律：AI理解能力与输入帧数呈对数正相关。在Video-MME、MLVU等主流测试集上，帧数增加始终能提升准确率，尽管边际效益逐渐递减。这一发现促使团队转变思路：若能在相同计算预算下处理更多帧数，就能显著提升系统性能。这种认知直接催生了Liteframe的核心设计理念。

在正式推出Liteframe前，研究团队先验证了加权平均池化（WAP）技术的有效性。该方法通过评估像素区域重要性进行差异化信息保留，在16倍压缩比条件下达到62.0%的平均准确率，显著优于传统采样方法。更重要的是，实验证实用压缩信息换取更多帧数的策略具有显著优势：在相同视觉令牌总量下，处理16倍压缩后的16倍帧数比处理原始帧数效果更好。这为Liteframe的诞生奠定了理论基础。

Liteframe的创新在于重构了视觉编码器的核心架构。这个仅8700万参数的轻量级模型（仅为传统模型的29%），通过两大关键设计实现效率飞跃：深度可分离一维时间卷积模块专门识别帧间重复信息，在对话场景等静态画面中可自动合并重复内容，计算成本比注意力机制降低60%；渐进式压缩机制在第4层和第8层插入步进卷积层，逐步缩减特征图分辨率，最终将每帧256个视觉令牌压缩至16个。这种"源头压缩"策略使视觉编码器耗时降低70%，彻底改变了传统处理流程。

训练这个"聪明眼睛"的关键在于压缩令牌蒸馏（CTD）技术。研究团队让大型教师模型生成完整视觉令牌后，用WAP技术压缩为精华令牌，再训练Liteframe直接预测这些精华信息。这种训练方式使模型内化了信息重要性判断能力，推理时无需额外计算即可输出高质量精简特征。对比实验显示，CTD训练的准确率比重构令牌蒸馏（RTD）高出1.3-2.6个百分点，证明明确指导信息筛选比让模型自主探索更有效。

为使语言模型适应新编码器输出，研究团队采用LoRA技术进行轻量级微调。在8块H100 GPU上训练数小时后，语言模型即可高效处理Liteframe输出的16个视觉令牌格式。实验发现，低秩设置（秩=4）比高秩设置效果更好，表明语言模型只需小幅调整即可适应新输入格式。这种高效适配机制确保了系统整体性能的提升。

综合测试显示，Liteframe在128帧条件下将端到端延迟从403.6毫秒降至272.6毫秒，准确率从62.2%提升至63.7%；处理256帧时，延迟降低34.6%的同时准确率微升0.4个百分点。与需要额外预筛选模块的AutoGaze方法相比，Liteframe在256帧条件下的延迟不足其十分之一，准确率却高出2.6个百分点。在高分辨率测试中，Liteframe通过分块处理策略实现零样本泛化，在2688像素、48帧配置下取得54.1分，超越需要3584像素和1024帧的AutoGaze方法。

消融实验清晰展示了各组件的贡献值：仅缩小模型规模会导致准确率下降2个百分点；加入压缩架构后准确率恢复至61.9%；采用深度可分离卷积使延迟进一步降低14.5%；CTD训练将准确率提升至62.8%；最终加上语言模型适配后，系统在87.4毫秒延迟下达到63.4%准确率，全面超越基准系统。这些数据验证了Liteframe设计理念的科学性。

研究团队同时指出当前工作的局限性：训练数据规模限制了模型处理超长视频的能力，未在静态图像测试集评估性能，更小规模模型训练存在不稳定问题。这些边界为后续研究指明了方向，而"内化压缩"理念已为视频AI效率提升开辟了全新路径。对于普通用户而言，这意味着未来的AI视频助手将具备更强的长视频处理能力，在监控分析、内容审核、智能问答等场景将发挥更大价值。技术细节可通过论文编号arXiv:2605.17260深入探究。