OpenAI 与 Anthropic 同时发布重磅模型更新

今天凌晨,OpenAI 与 Anthropic 先后发布重磅模型更新,分别推出 GPT‑5.3‑Codex 与 Claude Opus 4.6。

OpenAI 宣称,GPT‑5.3‑Codex 是其首个在自身研发过程中发挥关键作用的模型,团队使用早期版本参与调试训练、部署管理与评估分析。
该模型在 SWE‑Bench Pro、Terminal‑Bench 2.0 与 OSWorld‑Verified 等多项评测中刷新纪录,Terminal‑Bench 2.0 得分达到 77.3%,较 GPT‑5.2 提升显著;在 OSWorld‑Verified 中准确率提升至 64.7%,逼近人类平均水平。
OpenAI 强调,GPT‑5.3‑Codex 不仅能写代码,还能执行跨软件的复杂操作,支持长时任务、实时交互,并能在构建网页、游戏等任务中展现更强的自主性与意图理解能力。
几乎同一时间,Anthropic 发布了 Claude Opus 4.6,主打推理能力、可靠性与长上下文处理能力。其首次引入 1M Token 上下文窗口(Beta),在 MRCR v2 长文本检索测试中召回率达到 76%,远超前代模型。
Opus 4.6 在 GDPval‑AA(高经济价值知识工作评测)中比 GPT‑5.2 高出约 144 Elo,在 Humanity’s Last Exam 与 BrowseComp 等评测中同样领先。
Anthropic 同时推出 Agent Teams 功能,允许多个智能体并行协作,支持任务拆解、独立上下文与智能体间通信。官方展示中,16 个 Opus 4.6 智能体在两周内自主完成了一个 10 万行代码的 C 语言编译器,并成功编译 Linux 6.9 内核。
在生产力场景中,Anthropic 将 Claude 深度整合进 Excel 与 PowerPoint,可根据表格自动生成排版一致的演示文稿,并在 Claude Cowork 中执行多任务协作。
TechCrunch 指出,Opus 4.6 的 Agent Teams 让普通开发者也能体验「指挥 AI 团队」的工作方式。
OpenAI 强调 GPT‑5.3‑Codex 的高可靠性、低方差特性,更适合工程执行与运维;Anthropic 则强调 Opus 4.6 的高上限推理能力与长文本处理优势,更适合金融、法律与复杂决策场景。
彭博社报道指出,Opus 4.6 的发布已对金融数据服务行业造成冲击,多家上市公司股价短线下跌。
值得注意的是,据 TechCrunch 报道,OpenAI 的 GPT‑5.3‑Codex 原计划与 Anthropic 同时发布,但在对方提前 15 分钟公布后,OpenAI 随即调整发布时间并迅速上线更新。

相关快讯

 FIFA世界杯引入AI裁判,比赛要彻底透明化了?

核心快讯:国际足联(FIFA)官宣,2026年美加墨世界杯将引入AI助手和裁判视角直播。通过生成式AI制作球员3D数字化身,来辅助裁判做出更精准的判罚。争议球回放的时代,可能要升级为“数字上帝视角”了。 博主锐评:以后VAR(视频助理裁判...
2026-01-07

国家数据局定调:2026年布局智能体、具身智能数据标准

国家数据局宣布,2026年我国将推出30多项数据领域国家标准,并将在智能体(AI Agent)、具身智能等前沿方向提前布局一批标准。旨在为下一代AI应用打好“路基”。 行业未兴,标准先行!这体现了顶层设计的前瞻性。统一的“游戏规则”能避免未...
2026-01-07

苹果谷歌达成AI合作,Gemini将植入苹果生态

这绝对是今天最重磅的消息!苹果和谷歌正式宣布达成AI合作协议,谷歌的Gemini大模型将深度集成到苹果生态中,为升级版Siri及其他Apple Intelligence功能提供核心技术支撑。 天风证券分析师郭明錤在X平台发文指出,苹果自研A...
《财富》杂志
2026-01-14

AI推荐暗箱操作:GEO服务“买通”AI引监管关注

据《证券时报》调查,市场上已出现名为GEO的服务,旨在通过优化内容,让特定品牌产品在AI生成的推荐答案中获得更高“话语权”。这种通过污染AI数据源来“买通”推荐通道的行为,涉嫌违法违规,已引发监管和市场的警惕,亟待治理
证券时报
2026-01-20

95后博主百元“手搓”AI导盲眼镜,开源设计引发AI普惠讨论

一位95后博主“帆哥”关注到盲人对AI视觉技术的需求,动手打造出轻便、廉价的AI导盲眼镜,通过注入AI语音交互功能实现智能引导。该开源设计在社交平台引发热议,不少网友点赞“让AI技术真正服务小众群体”,相关话题快速登上科技类热门榜单。
http://m.toutiao.com/group/7592210177542062627/?upstream_biz=doubao
2026-01-07

阿里千问发布最强推理模型,性能媲美GPT-5.2

1月27日,阿里巴巴正式发布千问最强推理模型Qwen3-Max-Thinking,总参数量超万亿,预训练数据量达36T Tokens。在涵盖事实知识、复杂推理、指令遵循等19项公认基准测试中,整体性能可媲美GPT-5.2和Gemini 3 ...
阿里云官方发布
2026-01-28

暂无评论

none
暂无评论...