新Google发布Gemini 3.5 Live Translate:70+语言边听边译,保留原声音调
Google发布实时语音互译模型Gemini 3.5 Live Translate。该模型支持70多种语言流式边听边译,延迟仅数秒,并能保留说话人语调与音高。它具备自动语言检测和抗噪能力,无需等说完再翻。普通用户可通过Google翻译App...
谷歌在I/O 2026开发者大会上正式发布了Gemini Omni模型,这是Gemini家族中定位为“全能型内容生成引擎”的新成员。模型由Google DeepMind推出,深度集成于Gemini App中,发布后用户已基于它创作出各种创意作品。
Gemini Omni是一个原生全模态统一模型,能处理文本、图像、音频和视频的跨模态输入输出。其亮点包括:支持通过文本提示生成720P(1280×720)、10秒的高清视频,画面细节流畅;提供对话式编辑功能,用户生成视频后可通过聊天实时修改内容,如替换物体或调整风格,无需切换工具。
目前,Gemini Omni的轻量版Gemini Omni Flash已上线Gemini App、Google Flow和YouTube Shorts等平台。用户可以通过Gemini App直接体验,适合内容创作者、设计师、教育工作者用于快速生成和编辑视频、动画或多模态内容。模型也集成到了Gemini for Science等科研工具中。
使用门槛方面,访问Gemini App即可尝试,但生成视频会消耗较高的Pro配额(例如生成两个视频可能消耗约86%的日配额)。对于开发者,可关注谷歌后续的API开放情况。
Gemini Omni目前生成的视频长度仅限10秒,暂不支持长视频创作。此外,高配额消耗意味着免费用户体验可能受限,需要合理规划使用。