谷歌I/O前夕Veo 4泄露，AI视频迎叙事革命，多机位与音频同步成亮点-科技-沃资讯

谷歌I/O前夕Veo 4泄露，AI视频迎叙事革命，多机位与音频同步成亮点

发布时间：2026-05-17 23:22 来源：快讯作者：柳晴雪

谷歌I/O大会即将拉开帷幕，一场关于AI视频生成领域的重大变革已初现端倪。近日，谷歌即将推出的Veo 4（或称Gemini Omni）相关功能提前曝光，引发行业广泛关注，其展现出的强大能力或将重塑整个AI视频生成赛道。

此前，AI视频生成领域虽已有诸多成果，但大多局限于生成单一长镜头视频。以Sora为例，其虽能生成长达60秒的视频，然而镜头始终保持连续，无法实现多机位切换。这背后的难题在于，AI要实现“切镜头”，需在同一场景、同一时刻，从不同视角重新生成画面，同时保证服装颜色、物品位置、人物表情等各方面的一致性，这对物理、空间和时间的一致性提出了极高要求，长期以来一直是行业难以攻克的壁垒。

但此次曝光的Veo 4似乎打破了这一僵局。网友推测，Veo 4能够生成完整的多角度场景，在保持画面连贯性的同时，流畅切换透视角度。这意味着AI视频生成从“画匠”层面跃升至拥有空间逻辑的“导演”层面，实现了从“拍摄一个镜头”到“拍摄一场戏”的质变。部分泄露示例中，尽管仍存在一些连贯性问题，但多机位场景的同步效果已令人印象深刻。爆料人Pankaj Kumar甚至大胆推测，谷歌具备轻松生成15秒视频的能力，只是受限于算力，目前更聚焦于效率提升。

除了多机位这一突破，Veo 4在音频同步方面也有显著升级。据了解，Veo 4原生支持音频同步功能，不仅能实现对话、环境音与画面的同步，还能根据画面情境自动生成背景音乐。其实，Veo 3就已具备原生音频生成能力，可同步生成脚步声、对话声、环境噪音等，但存在音质欠佳以及缺乏情境化配乐的问题。若Veo 4真能如爆料所言，实现原生生成情境化背景音乐，那么AI视频将真正实现“自带BGM”，从素材生产工具升级为可直接输出成片的叙事生产工具。

Veo 4此次泄露的时间点颇为微妙，正值OpenAI的Sora App停服之际。回顾Sora的发展历程，可谓充满坎坷。其推理成本高昂，据称每天在100万到1500万美元之间，远超文本和图像生成成本，且在整个生命周期内未能有效降低单位成本。同时，用户留存率低，峰值时月活跃用户达100万，停服前却跌破50万，30天留存率不到8%。在盈利方面，Sora也表现不佳，整个生命周期内App内收入约210万美元，连一天的算力费用都难以覆盖。最终，3月24日Sora官方账号宣布告别，API也将在9月24日彻底关闭。在这样的背景下，谷歌选择此时推出Veo 4，无疑是在Sora留下的市场空白上发力，试图在AI视频生成领域占据领先地位。

此次泄露的信息远不止Veo 4。据悉，谷歌即将推出的多款Gemini模型被意外推送至生产环境API，包括Gemini 3Flash、3.1全系列（Pro、Flash Image、Lite、TTS）以及专注于高保真音频生成的Lyria 3 Pro。内部文档还透露，Omni模型将针对所有核心模型推出专门的Agent版本。这表明谷歌计划在I/O大会上，将视频生成、音频生成以及Agent框架整合展示，全面展现其在AI领域的布局与实力。

更多>同类内容