谷歌I/O大会推出Gemini Omni：多模态输入输出，开启AI视频创作新纪元-资讯-沃资讯

谷歌I/O大会推出Gemini Omni：多模态输入输出，开启AI视频创作新纪元

发布时间：2026-05-21 09:01 来源：快讯作者：陆辰风

在近日举办的谷歌I/O开发者大会上，一款名为Gemini Omni的全新AI产品正式亮相，引发了科技界的广泛关注。这款产品以其突破性的多模态输入输出能力，重新定义了视频创作的边界，为用户带来了前所未有的创作体验。

与谷歌此前推出的文本转视频工具Veo不同，Gemini Omni不仅支持文本输入，还能接受图片和现有视频作为创作素材。这一多模态特性使其能够处理和理解各种类型的输入，从而生成连贯、高质量的视频内容。无论是通过文字描述场景，还是上传图片或视频片段，用户都能轻松利用Omni创造出令人惊叹的视觉作品。

Gemini Omni的核心优势在于其强大的视频编辑能力。用户在使用Omni生成视频后，可以通过简单的文字提示对视频进行精细修改，甚至可以添加额外的媒体素材。更令人惊叹的是，用户还能上传自己拍摄的视频，对其中的单独元素进行更改或替换。这种前所未有的视频编辑方式，无疑为创作者提供了更大的灵活性和创作空间。

然而，随着视频编辑能力的增强，内容真实性的问题也日益凸显。为了应对这一挑战，谷歌为Omni内置了SynthID水印机制。所有由Omni生成或编辑过的视频内容都会自动添加该水印，帮助用户识别内容是否经过AI处理。这一举措不仅有助于维护内容的真实性，也是谷歌应对深度伪造等滥用风险的重要手段。

在访问方式上，Gemini Omni同样展现出了其多样化的特点。它是全新改版的Gemini应用中的一项核心功能，用户只需简单操作即可将内置模板添加到相册中。用户还可以创建与自己外貌和声音相似的自定义数字形象，并将其融入视频创作中，为作品增添更多个性化元素。

从即日起，部分付费订阅用户将能够在Google Flow和YouTube Shorts上率先体验Gemini Omni的强大功能。未来几周内，谷歌还将通过API向开发者和企业客户开放Omni，支持他们进行定制化集成应用，进一步拓展其应用场景和商业价值。

据了解，Gemini Omni将分为Flash和Pro两个版本推出。其中，Flash版本将率先上线，为用户提供基础但强大的视频创作和编辑能力。而性能更为强大的Omni Pro版本则正在研发中，预计将在未来推出，为用户带来更加卓越的视频创作体验。

对于Gemini Omni与Veo的区别，谷歌方面表示，Veo主要专注于文本转视频功能，而Omni则是一个真正的多模态系统，支持更多形式的输入来生成视频，并具备强大的视频编辑能力。这使得Omni在功能上更加全面，适用场景也更广。

对于普通用户如何使用Gemini Omni以及是否需要付费的问题，谷歌也给出了明确答复。用户可以通过全新改版的Gemini应用体验Omni功能，部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。同时，开发者和企业客户也可以通过API进行定制集成，满足不同场景下的需求。

更多>同类内容