LMArena

6个月前更新 1,191 00

全球最大的众包 AI 盲测竞技场，让你亲手投票决定 GPT、Claude、Gemini 谁更强！

收录时间：

2025-11-19

LMArena，前身为 Chatbot Arena是由加州大学伯克利分校 LMSYS 团队发起、如今独立运营的开源 AI 模型评测平台。

该平台是一款众包式大语言模型（LLM）盲测竞技场，它通过真实用户匿名投票的方式，让各种 AI 模型（如 GPT-4o、Claude、Gemini、Llama 等）进行一对一“对决”，生成动态排行榜（Leaderboard）。

盲测对战（Arena）

用户输入同一提示词，平台随机分配两个匿名模型生成回复，用户投票选出更好的一方，投票后才揭示模型身份。

排行榜采用 Elo 评分系统（类似国际象棋排名）计算模型胜率。通过大量用户投票对模型实力进行量化，使排名能够真实反映用户偏好。

从ChatGPT、Claude到谷歌的Gemini系列，几乎所有知名AI模型都在LMArena的排行榜上一较高下，这里也成为了AI开发者、研究人员和爱好者了解最新模型性能的首选平台。

排行榜涵盖了文本生成、图像生成、代码开发、网页开发等多个赛道，用户可以从不同维度了解各模型在不同领域的表现强弱。

目前排名第一的文本生成模型是刚发布的grok – 4.1大模型。

首先，在浏览器中访问LMArena.ai官网。平台界面直观，主要功能在首页即可找到。对于新用户，建议从以下步骤开始：

选择交互模式：首页主要提供两种模式 – Battle（对战）模式和Direct Chat（直接聊天）模式。对于首次使用的用户，Battle模式更能体现LMArena的核心特色。
Battle模式体验：选择Battle模式后，系统会随机分配两个匿名模型。用户输入问题后，两个模型会同时生成回答，用户需要根据回答质量投票选择更优的一方。这个过程完全匿名，直到投票后，用户才能看到所使用模型的名称（可选）。
Direct Chat模式使用：如果需要使用特定模型完成特定任务，如生成AI公仔，则应选择Direct Chat模式，然后从模型列表中选择所需的模型，如Gemini-2.5-Flash。

暂无评论...

05-26 01:39技巧与观点mp.weixin.qq.com
Skill怎么写，Skill目录结构和参数详解
给出了极具实操性的Skill开发“减法”思路，解决开发者容易过度设计的痛点，同时点明了节省Token的渐进式披露原理，是Agent技能化开发的实用避坑指南。
05-26 00:34产品发布/更新X：通义千问 / Qwen (@Alibaba_Qwen)
Qwen3.7-Max上线隐式缓存，API调用自动提速降价
API调用降本增效的实用更新。隐式缓存零门槛自动生效，对高频开发者和智能体应用极其友好，直接省下真金白银。
05-24 15:06产品发布/更新X：OpenClaw (@openclaw)
OpenClaw 2026.5.22发布：/models响应降至5ms，安全加固
/models接口5ms级响应和npm锁定依赖项，直击本地智能体开发中的卡顿与依赖冲突痛点，已部署用户建议立刻升级。
05-23 20:33技巧与观点X
3款开源工具去除Gemini等AI水印，解决平台限流痛点
AI隐形水印与反溯源工具的直接博弈。对于被平台AI限流困扰的创作者，这几款开源工具提供了从可见水印到隐形凭证的清理方案，极具实用参考价值。
05-23 17:57产品发布/更新mp.weixin.qq.com
腾讯开源TencentDB-Agent-Memory，最高省61%Token
把Agent记忆治理和Token降本思路做成了开箱即用的开源方案，四层回溯机制既省Token又不丢证据，对长链路Agent开发极具参考价值。