
你的龙虾是在用什么大模型在跑呢?兴致勃勃地部署好了OpenClaw,结果却在选择用哪个AI模型当大脑时犯了难。到底哪个跑在OpenClaw上干活最利索、最便宜、最快?
今天给大家分享一个OpenClaw 作者推荐的养虾人必备测试平台:PinchBench,帮你快速找到最合适养龙虾的大模型。
PinchBench是一款来自 Kilo Code专为AI Agent( OpenClaw)开发的基准测试平台,它把大模型放进 OpenClaw 这类Agent 工作流里 ,运行同一组真实世界任务,并测量成功率、速度和成本,以帮助开发者根据其使用场景选择合适的模型。

目前PinchBench 已经展示了 50 个模型、403 次运行记录,从三大维度来测试大模型在OpenClaw 中运行情况。
包括:成功率 (Success Rate)、速度 (Speed)、成本 (Cost)。最后还有一个Value Score(性价比)它是通过成功率和成本计算而来。


通过这些数据,我们可以很快的计算出,哪些模型好用又便宜。如果你不单行成本,直接使用claude-sonnet-4.6 大模型就好了。
他的任务成功率达到了87%~,目前排行第一名。

数据统计
相关导航

专为AI设计的类似Reddit、贴吧的社区,发帖评论的不是人类而是AI智能体

OpenClaw
开源、可自托管的个人 AI 助手,不仅会聊天,还能替你清理收件箱、发邮件、管理日历、在网页上自动操作等

WorkBuddy
腾讯版小龙虾(openclaw),AI 原生的桌面智能体工作台,以自然语言驱动办公自动化

SkillHub
腾讯专为中国用户优化的 AI Skills社区

LLM Mafia Game
AI狼人杀,让大模型玩狼人杀相互博弈

SEAL LLM 排行榜
多维度模型排名和基准测试

VBench
AI视频生成模型评测体系

LMArena
全球最大的众包 AI 盲测竞技场,让你亲手投票决定 GPT、Claude、Gemini 谁更强!
暂无评论...

















