
你的龙虾是在用什么大模型在跑呢?兴致勃勃地部署好了OpenClaw,结果却在选择用哪个AI模型当大脑时犯了难。到底哪个跑在OpenClaw上干活最利索、最便宜、最快?
今天给大家分享一个OpenClaw 作者推荐的养虾人必备测试平台:PinchBench,帮你快速找到最合适养龙虾的大模型。
PinchBench是一款来自 Kilo Code专为AI Agent( OpenClaw)开发的基准测试平台,它把大模型放进 OpenClaw 这类Agent 工作流里 ,运行同一组真实世界任务,并测量成功率、速度和成本,以帮助开发者根据其使用场景选择合适的模型。

目前PinchBench 已经展示了 50 个模型、403 次运行记录,从三大维度来测试大模型在OpenClaw 中运行情况。
包括:成功率 (Success Rate)、速度 (Speed)、成本 (Cost)。最后还有一个Value Score(性价比)它是通过成功率和成本计算而来。


通过这些数据,我们可以很快的计算出,哪些模型好用又便宜。如果你不单行成本,直接使用claude-sonnet-4.6 大模型就好了。
他的任务成功率达到了87%~,目前排行第一名。

数据统计
相关导航

开源、可自托管的个人 AI 助手,不仅会聊天,还能替你清理收件箱、发邮件、管理日历、在网页上自动操作等

C-Eval
大语言模型的多层次多学科中文评估套件

SkillHub
腾讯专为中国用户优化的 AI Skills社区

Hermes Agent
越用越聪明的AI Agent

AI Ping
AI Ping 是一款由清华系团队打造的免费大模型服务性能评测平台,通过7x24小时实时监控与多维度对比,为开发者提供客观、全面的选型参考,助力AI应用高效稳定落地。

Open LLM Leaderboard
开源大模型的综合能力排行榜

SWE-Bench Pro
一代软件工程 AI 基准测试集。

SEAL LLM 排行榜
多维度模型排名和基准测试
暂无评论...
















