SWE-Bench Pro

2天前更新 5 00

一代软件工程 AI 基准测试集。

收录时间:
2025-12-12

SWE-Bench Pro 是由 Scale AI 联合多方机构于 2025 年下半年推出的新一代软件工程 AI 基准测试集SWE-Bench Pro 被称为 AI 编程领域的“图灵测试”,专为评估大型语言模型(LLM)和 AI 代理在长时序软件工程任务上的能力而设计。它包含 1865 个任务,来源于 41 个活跃维护的专业代码库,涵盖消费应用、B2B 服务和开发者工具等领域。

SWE-Bench Pro 的核心功能是通过问题描述和代码库,让 AI 代理生成代码补丁,并自动验证其有效性。具体包括:

  • 任务生成与评估:提供 GitHub 问题描述、完整代码库和单元测试框架。AI 需输出补丁,系统运行 FAIL-TO-PASS(修复问题)和 PASS-TO-PASS(不破坏现有功能)测试。
  • Docker 隔离环境:每个任务在独立 Docker 容器中运行,确保可重现性和一致性,支持 Bash、文件编辑和搜索工具。
  • 人类增强规格:模糊问题由专家添加上下文,确保任务可解但保留技术难度。
  • 子集划分:公共子集(开源,GPL 许可)、保留子集(防过拟合)和商业子集(私有代码库,用于真实泛化测试)。
  • 失败模式分析:聚类代理轨迹,识别如跨文件推理失败或工具使用错误等模式。 最新基准显示,它支持多模态扩展(如视觉软件任务),并与 SWE-Agent 框架集成,便于快速评估前沿模型如 GPT-5.2。

数据统计

相关导航

暂无评论

none
暂无评论...