5月20日消息,2026年谷歌I/O开发者大会正式拉开帷幕。在这场全球开发者瞩目的盛会上,谷歌掷出了一枚重磅炸弹——正式发布新一代多模态大模型 Gemini Omni。这标志着AI大模型正式跨越了单一或简单叠加模态的局限,迈入了“全能”时代。

诺奖得主挂帅,Gemini家族迎来“最全面”进化
诺贝尔奖获得者、Google DeepMind 负责人德米斯·哈萨比斯在发布会现场亲自揭开了 Gemini Omni 的面纱。他强调:“Gemini Omni 是 Gemini 模型家族迄今为止能力最为全面、最深刻的版本。”
“Omni”一词意指“全能、总体”。哈萨比斯解释道,此前的多模态模型往往是在文本逻辑上“外挂”视觉或听觉能力,而 Gemini Omni 在底层架构上实现了真正的原生的多模态融合。在处理文字、图像、视频、音频等多种模态信息时,它展现出了前所未有的流畅性与深度理解力,能够像人类一样,自然且精准地感知和交织不同维度的信息。
“任意到任意”的跨越:一句话让AI重塑视频
Gemini Omni 最引人注目的核心突破,在于其宣称的“从任何输入生成任何输出”能力。这意味着,输入与输出的模态壁垒被彻底打破:你可以用一段音频生成匹配的动态图像,用一张草图生成可交互的3D场景,甚至用一篇文章直接生成一部配乐短片。
更令人惊叹的是其首创的“对话式编辑”能力。在演示环节,谷歌展示了这一功能的颠覆性体验:用户无需再面对复杂的剪辑时间线,只需像聊天一样对AI下达指令,例如“把视频背景里的阴天换成赛博朋克风格的霓虹夜景”或“把画面左侧的轿车换成一辆飞行的悬浮车”,Gemini Omni 就能精准理解语境,在保持视频原有光影、透视和动态一致性的前提下,瞬间完成高难度的视频重构。传统影视后期需要数小时甚至数天的工作,如今只需一句话、几秒钟即可实现。
Gemini Omni Flash首发,谷歌生态全面接入
对于迫不及待的开发者和创作者而言,好消息是无需等待太久。IT之家从大会现场获悉,谷歌同步推出了 Gemini Omni 家族的首款模型——Gemini Omni Flash。
作为主打高效与敏捷的版本,Gemini Omni Flash 具备极速的响应能力,即日起已全面接入谷歌核心产品生态:
Gemini App:普通用户即日起便可通过 App 体验“任意到任意”的对话与创作。
Google Flow:谷歌全新推出的AI视听创作工作台,创作者可利用 Omni Flash 进行无缝的多模态内容生产。
YouTube Shorts:短视频创作者将直接获得AI改写背景、一键生成特效等强大多模态工具支持。
此外,谷歌宣布未来将推出完整的 Gemini Omni API 服务,这意味着第三方开发者很快就能将这种“全能”的多模态能力嵌入到自己的应用生态中,势必将催生出一大批颠覆性的AI原生应用。

微信扫一扫
支付宝扫一扫 