GDPval

8个月前更新 779 0 0

OpenAI推出的大模型全新评估指标

收录时间：

2025-12-12

GDPval⁠ 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。它是OpenAI在2025年9月推出了一项前所未有的评测基准。

它的原理是在衡量大模型在实际工作交付物（如报告、表格、演示文稿、法律摘要、护理计划、工程图等）上的表现，而不是传统的考试式题目或合成问题。

GDPval的命名源于以国内生产总值 (GDP) 为核心经济指标的理念，并从对 GDP 贡献最大的行业关键职业中提取任务。

GDPval 试图把模型能力的评测与真实经济活动（GDP 贡献大的行业）直接挂钩，以便更贴近“模型能在工作场景里做多少事、做得如何”。

产品功能

覆盖内容：GDPval 包含完整集合约 1,320 个专门任务（full set），以及对外开放的“gold 子集” 220 个任务，这些任务来源于 44 个职业、9 个对美国 GDP 贡献最大的行业，任务由具有平均 14 年经验的行业专家构建与核验。
评测维度：注重交付物质量（deliverable quality）、速度、成本估算，并比较模型产出与人类专家产出的可比性（win-rate / 按质评分）。
工具链：OpenAI 同时发布了参考文件、提示（prompts）与一个“实验性自动评分器”，并在 evals.openai.com 提供了评测 / 自动打分服务与公开 gold 子集以便研究复现。