GDPval

2天前更新 10 00

OpenAI推出的大模型全新评估指标

收录时间:
2025-12-12

GDPval⁠ 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。它是OpenAI在2025年9月推出了一项前所未有的评测基准。

它的原理是在衡量大模型在实际工作交付物(如报告、表格、演示文稿、法律摘要、护理计划、工程图等)上的表现,而不是传统的考试式题目或合成问题。

GDPval的命名源于以国内生产总值 (GDP) 为核心经济指标的理念,并从对 GDP 贡献最大的行业关键职业中提取任务。

GDPval 试图把模型能力的评测与真实经济活动(GDP 贡献大的行业)直接挂钩,以便更贴近“模型能在工作场景里做多少事、做得如何”。

产品功能

  • 覆盖内容:GDPval 包含完整集合约 1,320 个专门任务(full set),以及对外开放的“gold 子集” 220 个任务,这些任务来源于 44 个职业、9 个对美国 GDP 贡献最大的行业,任务由具有平均 14 年经验的行业专家构建与核验。
  • 评测维度:注重交付物质量(deliverable quality)、速度、成本估算,并比较模型产出与人类专家产出的可比性(win-rate / 按质评分)。
  • 工具链:OpenAI 同时发布了参考文件、提示(prompts)与一个“实验性自动评分器”,并在 evals.openai.com 提供了评测 / 自动打分 服务与公开 gold 子集以便研究复现。

数据统计

相关导航

暂无评论

none
暂无评论...