大语言模型的多层次多学科中文评估套件
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。
通过 C-Eval 试题的测试后得到了一份中文大语言模型的排行榜,其中表现最好的是来自 是由清华大学和智谱 AI 联合研发的第二代 GLM 系列对话语言模型,其次是GPT – 4模型。
Δ
Ctrl+D
腾讯混元图像3.0图生图版本开源,在权威评测LMArena图像编辑榜单位列全球第...
马斯克旗下xAI正式推出Grok Imagine 1.0,可生成10秒、720p...
开源AI智能体OpenClaw驱动的社交平台Moltbook短期内涌入百万AI智...
阿里千问App宣布投入30亿元推出“春节请客计划”,2月6日起以免单形式覆盖用户...
腾讯旗下AI助手“元宝”启动10亿元现金红包活动,App单日冲至苹果商店免费榜第...