OpenAI 与 Anthropic 同时发布重磅模型更新

今天凌晨,OpenAI 与 Anthropic 先后发布重磅模型更新,分别推出 GPT‑5.3‑Codex 与 Claude Opus 4.6。

OpenAI 宣称,GPT‑5.3‑Codex 是其首个在自身研发过程中发挥关键作用的模型,团队使用早期版本参与调试训练、部署管理与评估分析。
该模型在 SWE‑Bench Pro、Terminal‑Bench 2.0 与 OSWorld‑Verified 等多项评测中刷新纪录,Terminal‑Bench 2.0 得分达到 77.3%,较 GPT‑5.2 提升显著;在 OSWorld‑Verified 中准确率提升至 64.7%,逼近人类平均水平。
OpenAI 强调,GPT‑5.3‑Codex 不仅能写代码,还能执行跨软件的复杂操作,支持长时任务、实时交互,并能在构建网页、游戏等任务中展现更强的自主性与意图理解能力。
几乎同一时间,Anthropic 发布了 Claude Opus 4.6,主打推理能力、可靠性与长上下文处理能力。其首次引入 1M Token 上下文窗口(Beta),在 MRCR v2 长文本检索测试中召回率达到 76%,远超前代模型。
Opus 4.6 在 GDPval‑AA(高经济价值知识工作评测)中比 GPT‑5.2 高出约 144 Elo,在 Humanity’s Last Exam 与 BrowseComp 等评测中同样领先。
Anthropic 同时推出 Agent Teams 功能,允许多个智能体并行协作,支持任务拆解、独立上下文与智能体间通信。官方展示中,16 个 Opus 4.6 智能体在两周内自主完成了一个 10 万行代码的 C 语言编译器,并成功编译 Linux 6.9 内核。
在生产力场景中,Anthropic 将 Claude 深度整合进 Excel 与 PowerPoint,可根据表格自动生成排版一致的演示文稿,并在 Claude Cowork 中执行多任务协作。
TechCrunch 指出,Opus 4.6 的 Agent Teams 让普通开发者也能体验「指挥 AI 团队」的工作方式。
OpenAI 强调 GPT‑5.3‑Codex 的高可靠性、低方差特性,更适合工程执行与运维;Anthropic 则强调 Opus 4.6 的高上限推理能力与长文本处理优势,更适合金融、法律与复杂决策场景。
彭博社报道指出,Opus 4.6 的发布已对金融数据服务行业造成冲击,多家上市公司股价短线下跌。
值得注意的是,据 TechCrunch 报道,OpenAI 的 GPT‑5.3‑Codex 原计划与 Anthropic 同时发布,但在对方提前 15 分钟公布后,OpenAI 随即调整发布时间并迅速上线更新。

相关快讯

腾讯元宝开启内测的全新社交AI功能:元宝派

元宝派是腾讯旗下AI助手"元宝"于2026年1月26日开启内测的全新社交AI功能,定位为"AI+群体社交"的多人互动空间。用户可创建或加入"派"(类似群组),在派内与好友及元宝AI共同聊天、协作、娱乐,元宝AI会作为"派成员"参与群聊、总结...
2026-01-26

腾讯元宝10亿红包引爆AI社交

腾讯旗下AI助手“元宝”启动10亿元现金红包活动,App单日冲至苹果商店免费榜第一,社交功能“元宝派”同步公测,试图复制微信红包神话. 红包只是噱头,本质是腾讯用社交场景培养用户AI使用习惯。元宝整合了混元图像生成、路线规划等能力,背后是...
2026-02-02

95后博主百元“手搓”AI导盲眼镜,开源设计引发AI普惠讨论

一位95后博主“帆哥”关注到盲人对AI视觉技术的需求,动手打造出轻便、廉价的AI导盲眼镜,通过注入AI语音交互功能实现智能引导。该开源设计在社交平台引发热议,不少网友点赞“让AI技术真正服务小众群体”,相关话题快速登上科技类热门榜单。
http://m.toutiao.com/group/7592210177542062627/?upstream_biz=doubao
2026-01-07

八部门联合发文:运用AI构建名老中医经验方知识图谱

八部门联合印发方案,提出运用人工智能、大数据等技术构建名老中医经验方等特色方剂知识图谱,深度赋能中药新药研发。 方案强调加强基础研究与关键技术攻关,完善评价体系,鼓励中成药改良与资源综合利用,旨在加速新药创新、缩短研发周期并降低成本。这是A...
国家中医药管理局官网
2026-02-06

李飞飞World Labs融资50亿美元,估值冲500亿押注世界模型

斯坦福教授李飞飞创立的World Labs正洽谈50亿美元融资,估值目标500亿美元,较2024年增长5倍。公司核心产品Marble可通过图文生成符合物理规律的3D世界,已应用于游戏、机器人仿真等领域。投资方包括a16z、英伟达风投等,Je...
The Information独家报道
2026-01-24

米兰冬奥基于阿里千问打造首个奥运官方大模型

昨天,国际奥委会宣布基于阿里千问打造奥运史上首个官方大模型,并已在赛务与公众服务体系中投入使用。国际奥委会表示,本届冬奥将成为「最智能」的一届,AI 技术贯穿赛事组织、内容生产与观众服务。国际奥委会已上线面向各国代表团的「国家奥委会 AI ...
2026-02-06

马斯克AGI时间表首度明确:2026年实现通用人工智能

在最新播客访谈中,埃隆·马斯克明确预测AGI将于2026年实现,到2030年AI总智能将超越全人类。他提出人类只是“数字超级智能的生物引导程序”,并警告未来3-7年将是非常“颠簸”的过渡期。 马斯克认为,白领工作将首当其冲被AI取代,完全A...
https://finance.sina.com.cn/stock/t/2026-01-10/doc-inhfuzwr4953267.shtml
2026-01-10

暂无评论

none
暂无评论...