
Open LLM Leaderboard
开源大模型的综合能力排行榜
GDPval 评测是一项覆盖 44 个职业、用于衡量明确知识型工作任务的评估。它是OpenAI在2025年9月推出了一项前所未有的评测基准。
它的原理是在衡量大模型在实际工作交付物(如报告、表格、演示文稿、法律摘要、护理计划、工程图等)上的表现,而不是传统的考试式题目或合成问题。
GDPval的命名源于以国内生产总值 (GDP) 为核心经济指标的理念,并从对 GDP 贡献最大的行业关键职业中提取任务。
GDPval 试图把模型能力的评测与真实经济活动(GDP 贡献大的行业)直接挂钩,以便更贴近“模型能在工作场景里做多少事、做得如何”。








