OpenAI 与 Anthropic 同时发布重磅模型更新

今天凌晨,OpenAI 与 Anthropic 先后发布重磅模型更新,分别推出 GPT‑5.3‑Codex 与 Claude Opus 4.6。

OpenAI 宣称,GPT‑5.3‑Codex 是其首个在自身研发过程中发挥关键作用的模型,团队使用早期版本参与调试训练、部署管理与评估分析。
该模型在 SWE‑Bench Pro、Terminal‑Bench 2.0 与 OSWorld‑Verified 等多项评测中刷新纪录,Terminal‑Bench 2.0 得分达到 77.3%,较 GPT‑5.2 提升显著;在 OSWorld‑Verified 中准确率提升至 64.7%,逼近人类平均水平。
OpenAI 强调,GPT‑5.3‑Codex 不仅能写代码,还能执行跨软件的复杂操作,支持长时任务、实时交互,并能在构建网页、游戏等任务中展现更强的自主性与意图理解能力。
几乎同一时间,Anthropic 发布了 Claude Opus 4.6,主打推理能力、可靠性与长上下文处理能力。其首次引入 1M Token 上下文窗口(Beta),在 MRCR v2 长文本检索测试中召回率达到 76%,远超前代模型。
Opus 4.6 在 GDPval‑AA(高经济价值知识工作评测)中比 GPT‑5.2 高出约 144 Elo,在 Humanity’s Last Exam 与 BrowseComp 等评测中同样领先。
Anthropic 同时推出 Agent Teams 功能,允许多个智能体并行协作,支持任务拆解、独立上下文与智能体间通信。官方展示中,16 个 Opus 4.6 智能体在两周内自主完成了一个 10 万行代码的 C 语言编译器,并成功编译 Linux 6.9 内核。
在生产力场景中,Anthropic 将 Claude 深度整合进 Excel 与 PowerPoint,可根据表格自动生成排版一致的演示文稿,并在 Claude Cowork 中执行多任务协作。
TechCrunch 指出,Opus 4.6 的 Agent Teams 让普通开发者也能体验「指挥 AI 团队」的工作方式。
OpenAI 强调 GPT‑5.3‑Codex 的高可靠性、低方差特性,更适合工程执行与运维;Anthropic 则强调 Opus 4.6 的高上限推理能力与长文本处理优势,更适合金融、法律与复杂决策场景。
彭博社报道指出,Opus 4.6 的发布已对金融数据服务行业造成冲击,多家上市公司股价短线下跌。
值得注意的是,据 TechCrunch 报道,OpenAI 的 GPT‑5.3‑Codex 原计划与 Anthropic 同时发布,但在对方提前 15 分钟公布后,OpenAI 随即调整发布时间并迅速上线更新。

相关快讯

智谱GLM-4.7登顶全球开源榜

中国开源模型全球下载量占比达17.1%,首次反超美国15.8%,Vercel、Kilo Code等国际平台第一时间接入。
2026-01-06

AI.com域名7000万美元成交:创史上最贵域名纪录

加密货币交易网站Crypto.com创始人Kris Marszalek以7000万美元天价收购互联网域名“AI.com”,刷新公开披露的域名交易价格纪录。交易全部以加密货币支付,卖家是马来西亚男子阿尔斯扬·伊斯梅尔——他于1993年10岁时...
2026-02-11

谷歌推出开源医疗AI模型MedGemma 1.5

谷歌宣布推出新一代开源医疗AI模型MedGemma 1.5,增强医学影像支持功能。该模型集旨在为开发者提供评估和调整的起点,以适应其医疗应用场景,截至目前下载量已突破数百万次。 医疗AI正成为各大科技公司竞相布局的重点领域,开源策略有望加速...
谷歌开发者博客
2026-01-14

“AI魔改”视频形成灰色产业链

调查发现,“AI魔改”经典视频已形成从1分钱售卖教程到流量变现的完整产业链,存在明确的侵权风险,并对青少年认知可能产生误导
https://api3.cls.cn/share/article/2248879?os=web&sv=812&app=
2026-01-06

Anthropic天价融资:估值瞄准3500亿美元,红杉“全覆盖”押注

AI独角兽Anthropic正进行新一轮高达250亿美元的融资,估值有望飙升至3500亿美元,较四个月前近乎翻倍。此轮融资由新加坡主权财富基金GIC和美国Coatue领投,科技巨头微软和英伟达也已承诺巨额投资。值得注意的是,红杉资本打破了不...
2026-01-20

Grok陷入安全风暴,九天生成180万张色情图片面临多国调查

埃隆·马斯克旗下的AI聊天机器人Grok陷入严重安全风暴。根据《纽约时报》与反网络仇恨中心的最新数据分析,Grok在短短九天内生成了至少180万张针对女性的性化图片,并被大量发布在X平台。 CCDH报告指出,在Grok生成的约460万张图片...
纽约时报调查报道
2026-01-23

暂无评论

none
暂无评论...