谷歌发布Gemini Omni模型,激发多模态创意作品

信息来源: X:Gemini (@GeminiApp)
看点:Gemini Omni展示了AI在统一多模态处理上的突破,特别是视频生成的对话式编辑模式,可能大幅降低创意工具的门槛,引发内容创作新范式。

谷歌在I/O 2026开发者大会上正式发布了Gemini Omni模型,这是Gemini家族中定位为“全能型内容生成引擎”的新成员。模型由Google DeepMind推出,深度集成于Gemini App中,发布后用户已基于它创作出各种创意作品。

核心能力:多模态生成与对话式编辑

Gemini Omni是一个原生全模态统一模型,能处理文本、图像、音频和视频的跨模态输入输出。其亮点包括:支持通过文本提示生成720P(1280×720)、10秒的高清视频,画面细节流畅;提供对话式编辑功能,用户生成视频后可通过聊天实时修改内容,如替换物体或调整风格,无需切换工具。

在哪里用、适合谁?

目前,Gemini Omni的轻量版Gemini Omni Flash已上线Gemini App、Google Flow和YouTube Shorts等平台。用户可以通过Gemini App直接体验,适合内容创作者、设计师、教育工作者用于快速生成和编辑视频、动画或多模态内容。模型也集成到了Gemini for Science等科研工具中。

使用门槛方面,访问Gemini App即可尝试,但生成视频会消耗较高的Pro配额(例如生成两个视频可能消耗约86%的日配额)。对于开发者,可关注谷歌后续的API开放情况。

需注意的限制

Gemini Omni目前生成的视频长度仅限10秒,暂不支持长视频创作。此外,高配额消耗意味着免费用户体验可能受限,需要合理规划使用。

相关快讯

Grok模型接入开源助理OpenClaw

xAI宣布,其Grok模型现已集成至开源个人助理OpenClaw中。拥有SuperGrok或X Premium订阅的用户,可在本地设备上通过OpenClaw及其连接的Telegram等平台使用Grok。此举扩展了Grok的使用场景,但需要对...
xAI:News(网页)
2026-05-21
阿里Qwen3.7 Plus Preview登顶Vision Arena国产第一

阿里Qwen3.7 Plus Preview登顶Vision Arena国产第一

阿里通义千问(Qwen)团队在 chat.qwen.ai 上线了 Qwen3.7-Plus-Preview 预览版模型。在 Arena AI (原 LMArena) 的视觉排行榜中,该模型综合排名全球第16,推动阿里实验室排名升至全球第五...
X
2026-05-20
腾讯Ardot设计智能体公测:一句话生成UI,一键转代码

腾讯Ardot设计智能体公测:一句话生成UI,一键转代码

腾讯云正式公测其自研AI设计智能体平台Ardot。它是一个“产设研协作平台”,核心能力是通过自然语言指令快速生成App页面、官网、海报等可编辑设计稿,并支持一键将设计稿转换为代码。平台可导入Figma文件,也能调用团队自有组件库。公测期间注...
IT之家(RSS)
2026-05-18
姚金刚开源微信读书数据可视化技能 yao-weread-skill

姚金刚开源微信读书数据可视化技能 yao-weread-skill

姚金刚在X上开源了yao-weread-skill,能将微信读书的个人数据生成本地可视化报告,涵盖近2年阅读时长、书架分析、阅读偏好及笔记语义分析,支持多种图表如词云、热力图。项目已上GitHub,适合想深度分析阅读习惯的用户,但需要技术配...
X
2026-05-18
xAI在X平台发布Grok Imagine图像生成功能

xAI在X平台发布Grok Imagine图像生成功能

马斯克旗下AI公司xAI正式推出Grok Imagine图像生成功能,集成于X平台,用户可基于文本生成高质量图像并支持多宽高比。该功能仍处早期测试阶段,原为付费服务,当前开放程度需观察,适合AI创作者快速生成视觉内容。
X:Elon Musk (@elonmusk, xAI)
2026-05-17
微信读书CLI工具发布:支持Codex/Claude Code调用

微信读书CLI工具发布:支持Codex/Claude Code调用

网友向阳乔木分享了微信读书CLI的安装配置教程,让AI编程助手(如Codex、Claude Code)能通过技能包直接访问你的微信读书笔记与划线。工具提供官方版和社区优化版两种安装方式,但需要先获取API Key。
X
2026-05-17

暂无评论

none
暂无评论...