C-Eval

1年前更新 2,231 0 1

大语言模型的多层次多学科中文评估套件

收录时间：

2023-08-12

打开网站手机查看

评测排行 # C-Eval

C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，如下所示。

C-Eval

通过 C-Eval 试题的测试后得到了一份中文大语言模型的排行榜，其中表现最好的是来自是由清华大学和智谱 AI 联合研发的第二代 GLM 系列对话语言模型，其次是GPT – 4模型。

C-Eval

数据统计

相关导航

LLM Mafia Game

AI狼人杀，让大模型玩狼人杀相互博弈

SEAL LLM 排行榜

多维度模型排名和基准测试

Open LLM Leaderboard

Open LLM Leaderboard

开源大模型的综合能力排行榜

荐LMArena

全球最大的众包 AI 盲测竞技场，让你亲手投票决定 GPT、Claude、Gemini 谁更强！

GDPval

OpenAI推出的大模型全新评估指标

Claw-Eval

针对AI Agent 基准评测平台，评估AI智能体在真实业务场景中的表现。

Artificial Analysis

荐Artificial Analysis

独立 AI 基准测试与分析平台

Chatbot Arena

Chatbot Arena AI大模型竞技场排行榜

暂无评论

none

暂无评论...