谷歌发布Gemini Omni模型,激发多模态创意作品

信息来源: X:Gemini (@GeminiApp)
看点:Gemini Omni展示了AI在统一多模态处理上的突破,特别是视频生成的对话式编辑模式,可能大幅降低创意工具的门槛,引发内容创作新范式。

谷歌在I/O 2026开发者大会上正式发布了Gemini Omni模型,这是Gemini家族中定位为“全能型内容生成引擎”的新成员。模型由Google DeepMind推出,深度集成于Gemini App中,发布后用户已基于它创作出各种创意作品。

核心能力:多模态生成与对话式编辑

Gemini Omni是一个原生全模态统一模型,能处理文本、图像、音频和视频的跨模态输入输出。其亮点包括:支持通过文本提示生成720P(1280×720)、10秒的高清视频,画面细节流畅;提供对话式编辑功能,用户生成视频后可通过聊天实时修改内容,如替换物体或调整风格,无需切换工具。

在哪里用、适合谁?

目前,Gemini Omni的轻量版Gemini Omni Flash已上线Gemini App、Google Flow和YouTube Shorts等平台。用户可以通过Gemini App直接体验,适合内容创作者、设计师、教育工作者用于快速生成和编辑视频、动画或多模态内容。模型也集成到了Gemini for Science等科研工具中。

使用门槛方面,访问Gemini App即可尝试,但生成视频会消耗较高的Pro配额(例如生成两个视频可能消耗约86%的日配额)。对于开发者,可关注谷歌后续的API开放情况。

需注意的限制

Gemini Omni目前生成的视频长度仅限10秒,暂不支持长视频创作。此外,高配额消耗意味着免费用户体验可能受限,需要合理规划使用。

相关快讯

Anthropic 发布 Claude Fable 5:Mythos 级模型首次公开

Anthropic 发布 Claude Fable 5:Mythos 级模型首次公开

Anthropic 正式推出 Claude Fable 5,这是此前备受关注的 Mythos 网络安全大模型的公开版。官方称其能力超越以往任何公开模型,擅长长周期复杂任务。为确保通用安全,公开版加入了严格防护,网络操作权限低于专供版,防止滥...
X
2026-06-10

Qwen3.7-Max上线隐式缓存,API调用自动提速降价

阿里云旗舰模型Qwen3.7-Max正式上线隐式缓存功能,无需任何配置即可自动生效,直接提升响应速度并降低调用成本。若对缓存命中率有更高要求,可切换至显式缓存模式。开发者可通过百炼平台调用该模型API。
X:通义千问 / Qwen (@Alibaba_Qwen)
2026-05-26

OpenClaw 2026.5.22发布:/models响应降至5ms,安全加固

开源本地AI智能体框架OpenClaw发布2026.5.22版本。本次更新重点在于性能与安全:Gateway与模型启动路径精简,/models接口响应时间大幅降至约5毫秒;npm包新增锁定依赖项,Windows安装与更新路径也得到安全强化...
X:OpenClaw (@openclaw)
2026-05-24

暂无评论

none
暂无评论...