Gemini Omni

2个月前更新 339 0 0

Google 推出的多模态视频生成与编辑模型

收录时间：

2026-06-04

2026年5月19日，Google I/O开发者大会，谷歌放了一个大招——Gemini Omni

Gemini Omni 是谷歌针对多模态视频创作推出的全新一代主力模型（已经全面取代了之前的 Veo）。它的核心逻辑就一句话：“Create anything from anything”（用任何东西创造任何东西）。

你不仅能用文字、图片，甚至能直接丢一段视频进去，让它帮你生成或者爆改。最离谱的是，它把大语言模型（LLM）的逻辑推理能力和视频生成完美结合了。你不再需要去学什么复杂的提示词公式，直接像跟哥们儿发微信一样，用大白话提要求就行。

核心能力

Gemini Omni 的核心功能主要集中在视频生成和视频编辑上。

它支持多种输入方式，比如你可以直接输入一段文字描述，也可以上传参考图片、音频、已有视频片段，再让它基于这些素材生成新视频。比如你给它一张产品图，再补一句“做成一条 10 秒钟的赛博风广告片”，它就能理解画面主体、风格和大致叙事方向。

另一个比较实用的点是“对话式编辑”。以前用 AI 视频工具，最烦的是每次改动都像重新抽卡：提示词改一点，结果可能完全变样。Gemini Omni 的思路更像是你在当前结果上继续沟通，比如：

“背景换成雨夜街头。”
“人物别笑得太夸张。”
“镜头推进慢一点。”
“保留这个角色，但把画面风格改成纪录片感。”

这种方式对普通用户会友好很多，因为它不要求你一开始就写出完美提示词。

理解物理规律。 谷歌说Omni对重力、动能、流体动力学有“直观理解能力”——水该咋流就咋流，弹珠该咋滚就咋滚，这些物理效果比以前大多数AI生成的要真实不少。

数字分身。 用户可建立自己的虚拟形象，让AI版的自己说自己的声音，出现在任意场景中，甚至做一些你本人没做过的事。这个功能目前还在灰度测试，部分地区还体验不到，不过理论上是下一个短视频爆款方向。

这玩意儿的门槛主要在网络和账号上，操作本身傻瓜到不行：

准备工作： 确保你订阅了谷歌的付费计划（Google AI Pro 或以上），并且当前账号已经开通了该功能。
找到入口： 打开 Gemini 的网页端或 App/Google Flow，在左侧导航栏找到“Videos”（视频）标签，或者直接在平时的聊天输入框点击那个 “+”号菜单。