OpenAI 与 Anthropic 同时发布重磅模型更新

今天凌晨,OpenAI 与 Anthropic 先后发布重磅模型更新,分别推出 GPT‑5.3‑Codex 与 Claude Opus 4.6。

OpenAI 宣称,GPT‑5.3‑Codex 是其首个在自身研发过程中发挥关键作用的模型,团队使用早期版本参与调试训练、部署管理与评估分析。
该模型在 SWE‑Bench Pro、Terminal‑Bench 2.0 与 OSWorld‑Verified 等多项评测中刷新纪录,Terminal‑Bench 2.0 得分达到 77.3%,较 GPT‑5.2 提升显著;在 OSWorld‑Verified 中准确率提升至 64.7%,逼近人类平均水平。
OpenAI 强调,GPT‑5.3‑Codex 不仅能写代码,还能执行跨软件的复杂操作,支持长时任务、实时交互,并能在构建网页、游戏等任务中展现更强的自主性与意图理解能力。
几乎同一时间,Anthropic 发布了 Claude Opus 4.6,主打推理能力、可靠性与长上下文处理能力。其首次引入 1M Token 上下文窗口(Beta),在 MRCR v2 长文本检索测试中召回率达到 76%,远超前代模型。
Opus 4.6 在 GDPval‑AA(高经济价值知识工作评测)中比 GPT‑5.2 高出约 144 Elo,在 Humanity’s Last Exam 与 BrowseComp 等评测中同样领先。
Anthropic 同时推出 Agent Teams 功能,允许多个智能体并行协作,支持任务拆解、独立上下文与智能体间通信。官方展示中,16 个 Opus 4.6 智能体在两周内自主完成了一个 10 万行代码的 C 语言编译器,并成功编译 Linux 6.9 内核。
在生产力场景中,Anthropic 将 Claude 深度整合进 Excel 与 PowerPoint,可根据表格自动生成排版一致的演示文稿,并在 Claude Cowork 中执行多任务协作。
TechCrunch 指出,Opus 4.6 的 Agent Teams 让普通开发者也能体验「指挥 AI 团队」的工作方式。
OpenAI 强调 GPT‑5.3‑Codex 的高可靠性、低方差特性,更适合工程执行与运维;Anthropic 则强调 Opus 4.6 的高上限推理能力与长文本处理优势,更适合金融、法律与复杂决策场景。
彭博社报道指出,Opus 4.6 的发布已对金融数据服务行业造成冲击,多家上市公司股价短线下跌。
值得注意的是,据 TechCrunch 报道,OpenAI 的 GPT‑5.3‑Codex 原计划与 Anthropic 同时发布,但在对方提前 15 分钟公布后,OpenAI 随即调整发布时间并迅速上线更新。

相关快讯

阿里千问全面接入阿里生态实现AI购物

千问产品迭代发布会官方宣布千问App宣布全面接入淘宝、支付宝、淘宝闪购等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试
千问产品迭代发布会官方宣布
2026-01-15

Grok陷入安全风暴,九天生成180万张色情图片面临多国调查

埃隆·马斯克旗下的AI聊天机器人Grok陷入严重安全风暴。根据《纽约时报》与反网络仇恨中心的最新数据分析,Grok在短短九天内生成了至少180万张针对女性的性化图片,并被大量发布在X平台。 CCDH报告指出,在Grok生成的约460万张图片...
纽约时报调查报道
2026-01-23

国家数据局定调:2026年布局智能体、具身智能数据标准

国家数据局宣布,2026年我国将推出30多项数据领域国家标准,并将在智能体(AI Agent)、具身智能等前沿方向提前布局一批标准。旨在为下一代AI应用打好“路基”。 行业未兴,标准先行!这体现了顶层设计的前瞻性。统一的“游戏规则”能避免未...
2026-01-07

Anthropic推出Claude Cowork,硅谷软件股市值单日蒸发2万亿

Anthropic发布桌面智能体应用Claude Cowork,其通过插件直接操作软件、掌控工作流,引发资本市场对传统软件行业的恐慌性抛售。 硅谷软件股市值单日蒸发近2580亿美元(约合2万亿人民币)。该应用能够根据用户指示操作电脑、应用程...
2026-02-06

字节Seedream 5.0上线:首个支持联网实时检索的文生图模型

字节跳动在2月10日推出新一代图像生成模型Seedream 5.0,距离上一代4.5发布仅两个多月。最大亮点是首次支持联网实时检索生图,突破训练数据时效限制,可抓取最新资讯生成实时热点图。 模型集成三大突破:1)联网检索能力,可基于实时信息...
2026-02-11

抖音直播AI治理成效显著,违规识别准确率超90%

抖音发布的《2025抖音直播治理白皮书》显示,AI大模型将违规处置效率提升31%,全年无限期回收37万个违规直播账号。 AI审核效率显著提升,违规内容识别准确率超过90%,整体违规曝光量减少37%。该白皮书还透露,抖音直播年内协助警方捣毁诈...
抖音直播治理白皮书及官方公告
2026-01-26

国产之光DeepSeek发布“mHC”架构,硅谷被“吓”到了

咱们的DeepSeek(深度求索)又立功了!他们发布了最新的mHC(Manifold-Constrained Hyper-Connections)训练架构,并推出了带有更强“思考”能力的更新。最狠的是,DeepSeek再次证明了不需要天价算...
https://timesofindia.indiatimes.com/technology/tech-news/chinas-deepseek-that-wiped-billions-from-us-stock-market-in-january-2025-sends-new-years-message-to-american-companies/articleshow/126318862.cms
2026-01-07

暂无评论

none
暂无评论...