在近日举办的谷歌I/O开发者大会上,一款名为Gemini Omni的全新AI产品正式亮相,引发了科技界的广泛关注。这款产品以其突破性的多模态输入输出能力,重新定义了视频创作的边界,为用户带来了前所未有的创作体验。
与谷歌此前推出的文本转视频工具Veo不同,Gemini Omni不仅支持文本输入,还能接受图片和现有视频作为创作素材。这一多模态特性使其能够处理和理解各种类型的输入,从而生成连贯、高质量的视频内容。无论是通过文字描述场景,还是上传图片或视频片段,用户都能轻松利用Omni创造出令人惊叹的视觉作品。
Gemini Omni的核心优势在于其强大的视频编辑能力。用户在使用Omni生成视频后,可以通过简单的文字提示对视频进行精细修改,甚至可以添加额外的媒体素材。更令人惊叹的是,用户还能上传自己拍摄的视频,对其中的单独元素进行更改或替换。这种前所未有的视频编辑方式,无疑为创作者提供了更大的灵活性和创作空间。
然而,随着视频编辑能力的增强,内容真实性的问题也日益凸显。为了应对这一挑战,谷歌为Omni内置了SynthID水印机制。所有由Omni生成或编辑过的视频内容都会自动添加该水印,帮助用户识别内容是否经过AI处理。这一举措不仅有助于维护内容的真实性,也是谷歌应对深度伪造等滥用风险的重要手段。
在访问方式上,Gemini Omni同样展现出了其多样化的特点。它是全新改版的Gemini应用中的一项核心功能,用户只需简单操作即可将内置模板添加到相册中。用户还可以创建与自己外貌和声音相似的自定义数字形象,并将其融入视频创作中,为作品增添更多个性化元素。
从即日起,部分付费订阅用户将能够在Google Flow和YouTube Shorts上率先体验Gemini Omni的强大功能。未来几周内,谷歌还将通过API向开发者和企业客户开放Omni,支持他们进行定制化集成应用,进一步拓展其应用场景和商业价值。
据了解,Gemini Omni将分为Flash和Pro两个版本推出。其中,Flash版本将率先上线,为用户提供基础但强大的视频创作和编辑能力。而性能更为强大的Omni Pro版本则正在研发中,预计将在未来推出,为用户带来更加卓越的视频创作体验。
对于Gemini Omni与Veo的区别,谷歌方面表示,Veo主要专注于文本转视频功能,而Omni则是一个真正的多模态系统,支持更多形式的输入来生成视频,并具备强大的视频编辑能力。这使得Omni在功能上更加全面,适用场景也更广。
对于普通用户如何使用Gemini Omni以及是否需要付费的问题,谷歌也给出了明确答复。用户可以通过全新改版的Gemini应用体验Omni功能,部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。同时,开发者和企业客户也可以通过API进行定制集成,满足不同场景下的需求。





















