Google发布Gemini 3.5 Live Translate:70+语言边听边译,保留原声音调

信息来源: X
看点:突破了传统回合制翻译,实现低延迟流式边听边译,且能保留说话人音色和语调,不再依赖特定硬件,让同传级体验走向大众。

Google正式发布实时语音互译模型 Gemini 3.5 Live Translate。和传统“等说完再翻”的回合制翻译不同,它采用流式连续生成机制,能在70多种语言之间做到边听边译,全程只比说话人慢几秒,避免了尴尬的停顿。

这个模型最明显的提升在于声音还原和环境适应。翻译后的语音能保留说话人的语调、节奏和音高,不再是机械的合成音;同时支持自动语言检测,不需要提前设定源语言,还能自动滤除噪音,嘈杂环境也能正常使用。

目前该功能已陆续登陆Google旗下产品。普通用户可以直接在 Android 和 iOS 版的 Google 翻译 App 中体验,连接任意耳机即可使用。Android 用户还独享了新增的“听筒模式”,像接电话一样把手机贴到耳边就能听翻译,适合没带耳机又不想外放的场景。

开发者可以通过 Gemini Live API 和 Google AI Studio 直接调用公开预览版,将其接入多语言通话、会议或直播等场景。企业用户则可在 Google Meet 中使用私有预览版。

值得注意的是,这次实时翻译摆脱了对特定硬件(如Pixel手机或Buds耳机)的依赖,任意智能手机都能跑。不过,听筒模式目前仅限Android端,iOS用户还需等待;API目前也处于预览阶段,稳定性仍需观察。

怎么用

  • 普通用户:更新 Google 翻译 App,连接耳机即可使用实时翻译;Android用户可尝试贴耳听筒模式。
  • 开发者:通过 Google AI Studio 接入 Gemini Live API 公开预览版。
  • 企业用户:在 Google Meet 中使用私有预览版。

图片来源:x.com

相关快讯

Anthropic 发布 Claude Fable 5:Mythos 级模型首次公开

Anthropic 发布 Claude Fable 5:Mythos 级模型首次公开

Anthropic 正式推出 Claude Fable 5,这是此前备受关注的 Mythos 网络安全大模型的公开版。官方称其能力超越以往任何公开模型,擅长长周期复杂任务。为确保通用安全,公开版加入了严格防护,网络操作权限低于专供版,防止滥...
X
2026-06-10

Qwen3.7-Max上线隐式缓存,API调用自动提速降价

阿里云旗舰模型Qwen3.7-Max正式上线隐式缓存功能,无需任何配置即可自动生效,直接提升响应速度并降低调用成本。若对缓存命中率有更高要求,可切换至显式缓存模式。开发者可通过百炼平台调用该模型API。
X:通义千问 / Qwen (@Alibaba_Qwen)
2026-05-26

OpenClaw 2026.5.22发布:/models响应降至5ms,安全加固

开源本地AI智能体框架OpenClaw发布2026.5.22版本。本次更新重点在于性能与安全:Gateway与模型启动路径精简,/models接口响应时间大幅降至约5毫秒;npm包新增锁定依赖项,Windows安装与更新路径也得到安全强化...
X:OpenClaw (@openclaw)
2026-05-24
腾讯开源TencentDB-Agent-Memory,最高省61%Token

腾讯开源TencentDB-Agent-Memory,最高省61%Token

腾讯云开源Agent Memory工具,专治Agent长任务Token消耗过大和注意力分散。通过四层递进存储卸载上下文,结合Mermaid任务画布导航进度,实测最高省61% Token且任务成功率上升。支持OpenClaw插件和Docker...
mp.weixin.qq.com
2026-05-23

暂无评论

none
暂无评论...