谷歌I/O大会即将拉开帷幕,一场关于AI视频生成领域的重大变革已初现端倪。近日,谷歌即将推出的Veo 4(或称Gemini Omni)相关功能提前曝光,引发行业广泛关注,其展现出的强大能力或将重塑整个AI视频生成赛道。
此前,AI视频生成领域虽已有诸多成果,但大多局限于生成单一长镜头视频。以Sora为例,其虽能生成长达60秒的视频,然而镜头始终保持连续,无法实现多机位切换。这背后的难题在于,AI要实现“切镜头”,需在同一场景、同一时刻,从不同视角重新生成画面,同时保证服装颜色、物品位置、人物表情等各方面的一致性,这对物理、空间和时间的一致性提出了极高要求,长期以来一直是行业难以攻克的壁垒。
但此次曝光的Veo 4似乎打破了这一僵局。网友推测,Veo 4能够生成完整的多角度场景,在保持画面连贯性的同时,流畅切换透视角度。这意味着AI视频生成从“画匠”层面跃升至拥有空间逻辑的“导演”层面,实现了从“拍摄一个镜头”到“拍摄一场戏”的质变。部分泄露示例中,尽管仍存在一些连贯性问题,但多机位场景的同步效果已令人印象深刻。爆料人Pankaj Kumar甚至大胆推测,谷歌具备轻松生成15秒视频的能力,只是受限于算力,目前更聚焦于效率提升。
除了多机位这一突破,Veo 4在音频同步方面也有显著升级。据了解,Veo 4原生支持音频同步功能,不仅能实现对话、环境音与画面的同步,还能根据画面情境自动生成背景音乐。其实,Veo 3就已具备原生音频生成能力,可同步生成脚步声、对话声、环境噪音等,但存在音质欠佳以及缺乏情境化配乐的问题。若Veo 4真能如爆料所言,实现原生生成情境化背景音乐,那么AI视频将真正实现“自带BGM”,从素材生产工具升级为可直接输出成片的叙事生产工具。
Veo 4此次泄露的时间点颇为微妙,正值OpenAI的Sora App停服之际。回顾Sora的发展历程,可谓充满坎坷。其推理成本高昂,据称每天在100万到1500万美元之间,远超文本和图像生成成本,且在整个生命周期内未能有效降低单位成本。同时,用户留存率低,峰值时月活跃用户达100万,停服前却跌破50万,30天留存率不到8%。在盈利方面,Sora也表现不佳,整个生命周期内App内收入约210万美元,连一天的算力费用都难以覆盖。最终,3月24日Sora官方账号宣布告别,API也将在9月24日彻底关闭。在这样的背景下,谷歌选择此时推出Veo 4,无疑是在Sora留下的市场空白上发力,试图在AI视频生成领域占据领先地位。
此次泄露的信息远不止Veo 4。据悉,谷歌即将推出的多款Gemini模型被意外推送至生产环境API,包括Gemini 3Flash、3.1全系列(Pro、Flash Image、Lite、TTS)以及专注于高保真音频生成的Lyria 3 Pro。内部文档还透露,Omni模型将针对所有核心模型推出专门的Agent版本。这表明谷歌计划在I/O大会上,将视频生成、音频生成以及Agent框架整合展示,全面展现其在AI领域的布局与实力。






















