Anthropic 发布 Claude Opus 4.8:更诚实,支持数百子智能体并行

信息来源: X
看点:解决大模型“死不认错”痛点,代码漏报率大降;新增动态工作流支持数百子智能体,Agent能力再上台阶,且加量不加价。

Anthropic 刚刚发布了旗舰模型 Claude Opus 4.8。距离 Opus 4.7 仅过去六周,这次更新不算代际飞跃,官方也承认是“适度但明显的提高”,但它直击了当前大模型最让人头疼的痛点——盲目自信。

Opus 4.8 最核心的改进是“诚实性”。当信息不足或拿不准时,它更愿意承认“我不确定”,而不是强行给个看似靠谱的结论。内部评估显示,新模型对自己生成代码的缺陷漏报率比 4.7 降低了约四倍,自我纠错能力显著增强,欺骗和误导行为的发生率也降到了与对齐标杆 Mythos Preview 持平的水平。

独立工作能力也更强了。在代理编码测试中,得分从 64.3% 升至 69.2%,知识工作得分也有明显提升。伴随新模型,Anthropic 还推出了“动态工作流”功能,允许 Claude 在单次任务中协调数百个并行子智能体,自动规划、拆解和验证复杂流程,比如处理数十万行代码的迁移。

价格没变,常规模式依然是输入 $5/百万 Token、输出 $25/百万 Token。同时新增了 Fast Mode,速度是常规模式的 2.5 倍,价格为输入 $10、输出 $50,比此前的 Fast Mode 降价约三分之二。不过要注意,动态工作流目前仅面向企业版、团队版和 Max 版的 Claude Code 用户开放,且处于研究预览阶段。

另外,Opus 4.6 已经被下架,而此前备受关注的更高级别 Mythos 模型预计将在未来几周向所有客户开放。

怎么用

  • 官网及 APP 已直接更新至 Opus 4.8,API 同步上线
  • Fast Mode 可在模型选择时切换,适合需要快速响应的场景
  • 动态工作流功能需 Enterprise/Team/Max 版 Claude Code 用户才可体验
  • 常规价格:输入 $5/百万 Token,输出 $25/百万 Token

图片来源:X

相关快讯

Qwen3.7-Max上线隐式缓存,API调用自动提速降价

阿里云旗舰模型Qwen3.7-Max正式上线隐式缓存功能,无需任何配置即可自动生效,直接提升响应速度并降低调用成本。若对缓存命中率有更高要求,可切换至显式缓存模式。开发者可通过百炼平台调用该模型API。
X:通义千问 / Qwen (@Alibaba_Qwen)
2026-05-26

OpenClaw 2026.5.22发布:/models响应降至5ms,安全加固

开源本地AI智能体框架OpenClaw发布2026.5.22版本。本次更新重点在于性能与安全:Gateway与模型启动路径精简,/models接口响应时间大幅降至约5毫秒;npm包新增锁定依赖项,Windows安装与更新路径也得到安全强化...
X:OpenClaw (@openclaw)
2026-05-24
腾讯开源TencentDB-Agent-Memory,最高省61%Token

腾讯开源TencentDB-Agent-Memory,最高省61%Token

腾讯云开源Agent Memory工具,专治Agent长任务Token消耗过大和注意力分散。通过四层递进存储卸载上下文,结合Mermaid任务画布导航进度,实测最高省61% Token且任务成功率上升。支持OpenClaw插件和Docker...
mp.weixin.qq.com
2026-05-23

谷歌发布Gemini Omni模型,激发多模态创意作品

谷歌通过其Gemini官方X账号宣布Gemini Omni模型正式上线。这是一个原生全模态AI模型,支持文本、图像、音频和视频的生成与编辑,特别能生成720P、10秒高清视频并支持对话式实时修改。模型已集成到Gemini App等平台,适合...
X:Gemini (@GeminiApp)
2026-05-22

Grok模型接入开源助理OpenClaw

xAI宣布,其Grok模型现已集成至开源个人助理OpenClaw中。拥有SuperGrok或X Premium订阅的用户,可在本地设备上通过OpenClaw及其连接的Telegram等平台使用Grok。此举扩展了Grok的使用场景,但需要对...
xAI:News(网页)
2026-05-21
阿里Qwen3.7 Plus Preview登顶Vision Arena国产第一

阿里Qwen3.7 Plus Preview登顶Vision Arena国产第一

阿里通义千问(Qwen)团队在 chat.qwen.ai 上线了 Qwen3.7-Plus-Preview 预览版模型。在 Arena AI (原 LMArena) 的视觉排行榜中,该模型综合排名全球第16,推动阿里实验室排名升至全球第五...
X
2026-05-20

暂无评论

none
暂无评论...