SWE-Bench Pro 是由 Scale AI 联合多方机构于 2025 年下半年推出的新一代软件工程 AI 基准测试集。SWE-Bench Pro 被称为 AI 编程领域的“图灵测试”,专为评估大型语言模型(LLM)和 AI 代理在长时序软件工程任务上的能力而设计。它包含 1865 个任务,来源于 41 个活跃维护的专业代码库,涵盖消费应用、B2B 服务和开发者工具等领域。
SWE-Bench Pro 的核心功能是通过问题描述和代码库,让 AI 代理生成代码补丁,并自动验证其有效性。具体包括: