Qwen3.7-Max上线隐式缓存,API调用自动提速降价

信息来源: X:通义千问 / Qwen (@Alibaba_Qwen)
看点:API调用降本增效的实用更新。隐式缓存零门槛自动生效,对高频开发者和智能体应用极其友好,直接省下真金白银。

阿里云通义千问最新旗舰模型 Qwen3.7-Max 的隐式缓存功能现已上线。最直观的好处是:开发者不需要做任何代码改动或参数配置,缓存机制就会在后台自动生效,直接带来响应变快、调用变便宜的结果。

对于日常高频调用且上下文重复较多的场景,隐式缓存的“开箱即用”能省下不少 Token 费用。但隐式缓存的命中率并非绝对确定,如果你对成本控制有更严苛的要求,需要更高且更稳定的命中率,官方建议转向使用显式缓存。

Qwen3.7-Max 是阿里云近期发布的新一代旗舰智能体模型,目前通过阿里云百炼平台提供 API 服务,输入价格约 12 元/百万 Tokens,输出约 36 元/百万 Tokens。结合此次上线的缓存功能,长上下文或多轮对话场景的实际运行成本有望进一步压降。

怎么用

  • 隐式缓存已自动生效,调用Qwen3.7-Max API无需额外设置
  • 需要高命中率可参考官方文档配置显式缓存
  • 通过阿里云百炼平台申请并调用模型API

相关快讯

OpenClaw 2026.5.22发布:/models响应降至5ms,安全加固

开源本地AI智能体框架OpenClaw发布2026.5.22版本。本次更新重点在于性能与安全:Gateway与模型启动路径精简,/models接口响应时间大幅降至约5毫秒;npm包新增锁定依赖项,Windows安装与更新路径也得到安全强化...
X:OpenClaw (@openclaw)
2026-05-24
腾讯开源TencentDB-Agent-Memory,最高省61%Token

腾讯开源TencentDB-Agent-Memory,最高省61%Token

腾讯云开源Agent Memory工具,专治Agent长任务Token消耗过大和注意力分散。通过四层递进存储卸载上下文,结合Mermaid任务画布导航进度,实测最高省61% Token且任务成功率上升。支持OpenClaw插件和Docker...
mp.weixin.qq.com
2026-05-23

谷歌发布Gemini Omni模型,激发多模态创意作品

谷歌通过其Gemini官方X账号宣布Gemini Omni模型正式上线。这是一个原生全模态AI模型,支持文本、图像、音频和视频的生成与编辑,特别能生成720P、10秒高清视频并支持对话式实时修改。模型已集成到Gemini App等平台,适合...
X:Gemini (@GeminiApp)
2026-05-22

Grok模型接入开源助理OpenClaw

xAI宣布,其Grok模型现已集成至开源个人助理OpenClaw中。拥有SuperGrok或X Premium订阅的用户,可在本地设备上通过OpenClaw及其连接的Telegram等平台使用Grok。此举扩展了Grok的使用场景,但需要对...
xAI:News(网页)
2026-05-21
阿里Qwen3.7 Plus Preview登顶Vision Arena国产第一

阿里Qwen3.7 Plus Preview登顶Vision Arena国产第一

阿里通义千问(Qwen)团队在 chat.qwen.ai 上线了 Qwen3.7-Plus-Preview 预览版模型。在 Arena AI (原 LMArena) 的视觉排行榜中,该模型综合排名全球第16,推动阿里实验室排名升至全球第五...
X
2026-05-20
腾讯Ardot设计智能体公测:一句话生成UI,一键转代码

腾讯Ardot设计智能体公测:一句话生成UI,一键转代码

腾讯云正式公测其自研AI设计智能体平台Ardot。它是一个“产设研协作平台”,核心能力是通过自然语言指令快速生成App页面、官网、海报等可编辑设计稿,并支持一键将设计稿转换为代码。平台可导入Figma文件,也能调用团队自有组件库。公测期间注...
IT之家(RSS)
2026-05-18

暂无评论

none
暂无评论...