C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。
![C-Eval](https://www.tudingai.com/wp-content/uploads/2023/08/overview.png)
通过 C-Eval 试题的测试后得到了一份中文大语言模型的排行榜,其中表现最好的是来自 是由清华大学和智谱 AI 联合研发的第二代 GLM 系列对话语言模型,其次是GPT – 4模型。
![C-Eval](https://www.tudingai.com/wp-content/uploads/2023/08/Snipaste_2023-08-12_01-06-21.jpg)
数据统计
相关导航
暂无评论...
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,如下所示。
通过 C-Eval 试题的测试后得到了一份中文大语言模型的排行榜,其中表现最好的是来自 是由清华大学和智谱 AI 联合研发的第二代 GLM 系列对话语言模型,其次是GPT – 4模型。