SWE-Bench Pro

一代软件工程 AI 基准测试集。

收录时间：

2025-12-12

SWE-Bench Pro 是由 Scale AI 联合多方机构于 2025 年下半年推出的新一代软件工程 AI 基准测试集。SWE-Bench Pro 被称为 AI 编程领域的“图灵测试”，专为评估大型语言模型（LLM）和 AI 代理在长时序软件工程任务上的能力而设计。它包含 1865 个任务，来源于 41 个活跃维护的专业代码库，涵盖消费应用、B2B 服务和开发者工具等领域。

SWE-Bench Pro 的核心功能是通过问题描述和代码库，让 AI 代理生成代码补丁，并自动验证其有效性。具体包括：

任务生成与评估：提供 GitHub 问题描述、完整代码库和单元测试框架。AI 需输出补丁，系统运行 FAIL-TO-PASS（修复问题）和 PASS-TO-PASS（不破坏现有功能）测试。
Docker 隔离环境：每个任务在独立 Docker 容器中运行，确保可重现性和一致性，支持 Bash、文件编辑和搜索工具。
人类增强规格：模糊问题由专家添加上下文，确保任务可解但保留技术难度。
子集划分：公共子集（开源，GPL 许可）、保留子集（防过拟合）和商业子集（私有代码库，用于真实泛化测试）。
失败模式分析：聚类代理轨迹，识别如跨文件推理失败或工具使用错误等模式。最新基准显示，它支持多模态扩展（如视觉软件任务），并与 SWE-Agent 框架集成，便于快速评估前沿模型如 GPT-5.2。