OpenAI 与 Anthropic 同时发布重磅模型更新

今天凌晨,OpenAI 与 Anthropic 先后发布重磅模型更新,分别推出 GPT‑5.3‑Codex 与 Claude Opus 4.6。

OpenAI 宣称,GPT‑5.3‑Codex 是其首个在自身研发过程中发挥关键作用的模型,团队使用早期版本参与调试训练、部署管理与评估分析。
该模型在 SWE‑Bench Pro、Terminal‑Bench 2.0 与 OSWorld‑Verified 等多项评测中刷新纪录,Terminal‑Bench 2.0 得分达到 77.3%,较 GPT‑5.2 提升显著;在 OSWorld‑Verified 中准确率提升至 64.7%,逼近人类平均水平。
OpenAI 强调,GPT‑5.3‑Codex 不仅能写代码,还能执行跨软件的复杂操作,支持长时任务、实时交互,并能在构建网页、游戏等任务中展现更强的自主性与意图理解能力。
几乎同一时间,Anthropic 发布了 Claude Opus 4.6,主打推理能力、可靠性与长上下文处理能力。其首次引入 1M Token 上下文窗口(Beta),在 MRCR v2 长文本检索测试中召回率达到 76%,远超前代模型。
Opus 4.6 在 GDPval‑AA(高经济价值知识工作评测)中比 GPT‑5.2 高出约 144 Elo,在 Humanity’s Last Exam 与 BrowseComp 等评测中同样领先。
Anthropic 同时推出 Agent Teams 功能,允许多个智能体并行协作,支持任务拆解、独立上下文与智能体间通信。官方展示中,16 个 Opus 4.6 智能体在两周内自主完成了一个 10 万行代码的 C 语言编译器,并成功编译 Linux 6.9 内核。
在生产力场景中,Anthropic 将 Claude 深度整合进 Excel 与 PowerPoint,可根据表格自动生成排版一致的演示文稿,并在 Claude Cowork 中执行多任务协作。
TechCrunch 指出,Opus 4.6 的 Agent Teams 让普通开发者也能体验「指挥 AI 团队」的工作方式。
OpenAI 强调 GPT‑5.3‑Codex 的高可靠性、低方差特性,更适合工程执行与运维;Anthropic 则强调 Opus 4.6 的高上限推理能力与长文本处理优势,更适合金融、法律与复杂决策场景。
彭博社报道指出,Opus 4.6 的发布已对金融数据服务行业造成冲击,多家上市公司股价短线下跌。
值得注意的是,据 TechCrunch 报道,OpenAI 的 GPT‑5.3‑Codex 原计划与 Anthropic 同时发布,但在对方提前 15 分钟公布后,OpenAI 随即调整发布时间并迅速上线更新。

相关快讯

AI魔改视频扭曲历史?官方媒体发声警示

秦始皇开机甲战车、林黛玉拳打贾宝玉……一批“AI魔改”短视频以“创意解读”为名泛滥网络,被批扭曲青少年历史认知。官方媒体《半月谈》发文呼吁平台加强审核,杜绝低俗化篡改经典
2026-01-12

蚂蚁灵波科技开源“具身世界模型”LingBot-VA

蚂蚁集团旗下灵波科技开源全球首个融合视频生成与机器人控制的自回归世界模型LingBot-VA,实现实时环境感知与动作修正,大幅提升机器人适应精度。该模型采用“视频-动作”联合建模框架,堪称机器人的“大脑+小脑”,可应用于工业搬运、家居服务等...
2026-01-31

阿里千问30亿“春节请客”对抗腾讯

阿里千问App宣布投入30亿元推出“春节请客计划”,2月6日起以免单形式覆盖用户淘宝、飞猪、盒马等消费场景,直接对标腾讯元宝 阿里选择“免单”而非红包,意在用电商生态反攻社交。千问试图通过生活服务高频场景建立用户黏性,但30亿投入能否换来长...
阿里千问官方微博声明
2026-02-02

Claude Code重磅升级:Task功能开启多Agent协作新纪元

Anthropic的Claude Code迎来革命性更新,正式用“Tasks”功能取代传统的Todo工具。这一变革背后是Opus 4.5强大的上下文记忆与自主能力支撑,使其不再依赖琐碎的记录工具。 核心突破在于Tasks支持在多Agent和...
Anthropic官方技术公告与开发者社区讨论
2026-01-26

腾讯发布 HY-MT1.5:翻译又快又准,连手机都能跑

翻译软件我们天天用,但背后的模型通常很大,往往需要连接云端服务器才能运行。腾讯这次推出的 HY-MT1.5系列打破了这个限制,推出了两个版本,满足不同场景的需求: 1.8B 小尺寸版: 别看它体量小,它在性能上几乎能和体量大得多的模型叫板...
https://www.aibase.com/zh/news/24267
2026-01-06

三大模型同日竞技,国产AI迎来“超级发布日

昨天(1月27日)绝对是载入AI史册的一天。DeepSeek团队开源了DeepSeek-OCR 2模型,采用创新的DeepEncoder V2方法,让AI能够根据图像含义动态重排视觉内容,更接近人类的视觉逻辑。 与此同时,月之暗面推出了新一...
2026-01-28

暂无评论

none
暂无评论...