Gemini Omni

12小时前更新 9 00

Google 推出的多模态视频生成与编辑模型

收录时间:
2026-06-04

2026年5月19日,Google I/O开发者大会,谷歌放了一个大招——Gemini Omni

Gemini Omni 是谷歌针对多模态视频创作推出的全新一代主力模型(已经全面取代了之前的 Veo)。它的核心逻辑就一句话:“Create anything from anything”(用任何东西创造任何东西)。

你不仅能用文字、图片,甚至能直接丢一段视频进去,让它帮你生成或者爆改。最离谱的是,它把大语言模型(LLM)的逻辑推理能力和视频生成完美结合了。你不再需要去学什么复杂的提示词公式,直接像跟哥们儿发微信一样,用大白话提要求就行。

核心能力

Gemini Omni 的核心功能主要集中在视频生成和视频编辑上。

它支持多种输入方式,比如你可以直接输入一段文字描述,也可以上传参考图片、音频、已有视频片段,再让它基于这些素材生成新视频。比如你给它一张产品图,再补一句“做成一条 10 秒钟的赛博风广告片”,它就能理解画面主体、风格和大致叙事方向。

另一个比较实用的点是“对话式编辑”。以前用 AI 视频工具,最烦的是每次改动都像重新抽卡:提示词改一点,结果可能完全变样。Gemini Omni 的思路更像是你在当前结果上继续沟通,比如:

“背景换成雨夜街头。”
“人物别笑得太夸张。”
“镜头推进慢一点。”
“保留这个角色,但把画面风格改成纪录片感。”

这种方式对普通用户会友好很多,因为它不要求你一开始就写出完美提示词。

理解物理规律。 谷歌说Omni对重力、动能、流体动力学有“直观理解能力”——水该咋流就咋流,弹珠该咋滚就咋滚,这些物理效果比以前大多数AI生成的要真实不少

数字分身。 用户可建立自己的虚拟形象,让AI版的自己说自己的声音,出现在任意场景中,甚至做一些你本人没做过的事。这个功能目前还在灰度测试,部分地区还体验不到,不过理论上是下一个短视频爆款方向。

使用教程:

这玩意儿的门槛主要在网络和账号上,操作本身傻瓜到不行:

  1. 准备工作: 确保你订阅了谷歌的付费计划(Google AI Pro 或以上),并且当前账号已经开通了该功能。
  2. 找到入口: 打开 Gemini 的网页端或 App/Google Flow,在左侧导航栏找到“Videos”(视频)标签,或者直接在平时的聊天输入框点击那个 “+”号菜单

https://gemini.google.com

  1. 上传素材: 注意个小细节,每次只能传一段视频作为参考,但是你可以同时塞好几张照片进去。
  2. 开始施法: 用大白话描述你的需求。比如上传一段你骑自行车的视频,然后输入:“加上卡通特效,每当车轮压过水坑的时候,溅起来的水花变成五颜六色的星星。”
  3. 反复微调: 如果哪里不满意,别重新开始,直接在下面接着聊天:“星星太大了,弄小一点,并且换成金色的”,它会就着刚才的视频继续改。

数据统计

相关导航

暂无评论

none
暂无评论...