
Open LLM Leaderboard
开源大模型的综合能力排行榜
LMArena,前身为 Chatbot Arena是由加州大学伯克利分校 LMSYS 团队发起、如今独立运营的开源 AI 模型评测平台。
该平台是一款众包式大语言模型(LLM)盲测竞技场,它通过真实用户匿名投票的方式,让各种 AI 模型(如 GPT-4o、Claude、Gemini、Llama 等)进行一对一“对决”,生成动态排行榜(Leaderboard)。
用户输入同一提示词,平台随机分配两个匿名模型生成回复,用户投票选出更好的一方,投票后才揭示模型身份。

排行榜采用 Elo 评分系统(类似国际象棋排名)计算模型胜率。通过大量用户投票对模型实力进行量化,使排名能够真实反映用户偏好。
从ChatGPT、Claude到谷歌的Gemini系列,几乎所有知名AI模型都在LMArena的排行榜上一较高下,这里也成为了AI开发者、研究人员和爱好者了解最新模型性能的首选平台。
排行榜涵盖了文本生成、图像生成、代码开发、网页开发等多个赛道,用户可以从不同维度了解各模型在不同领域的表现强弱。
目前排名第一的文本生成模型是刚发布的grok – 4.1大模型。

首先,在浏览器中访问LMArena.ai官网。平台界面直观,主要功能在首页即可找到。对于新用户,建议从以下步骤开始:







