
你的龙虾是在用什么大模型在跑呢?兴致勃勃地部署好了OpenClaw,结果却在选择用哪个AI模型当大脑时犯了难。到底哪个跑在OpenClaw上干活最利索、最便宜、最快?
今天给大家分享一个OpenClaw 作者推荐的养虾人必备测试平台:PinchBench,帮你快速找到最合适养龙虾的大模型。
PinchBench是一款来自 Kilo Code专为AI Agent( OpenClaw)开发的基准测试平台,它把大模型放进 OpenClaw 这类Agent 工作流里 ,运行同一组真实世界任务,并测量成功率、速度和成本,以帮助开发者根据其使用场景选择合适的模型。

目前PinchBench 已经展示了 50 个模型、403 次运行记录,从三大维度来测试大模型在OpenClaw 中运行情况。
包括:成功率 (Success Rate)、速度 (Speed)、成本 (Cost)。最后还有一个Value Score(性价比)它是通过成功率和成本计算而来。


通过这些数据,我们可以很快的计算出,哪些模型好用又便宜。如果你不单行成本,直接使用claude-sonnet-4.6 大模型就好了。
他的任务成功率达到了87%~,目前排行第一名。

数据统计
相关导航

针对AI Agent 基准评测平台,评估AI智能体在真实业务场景中的表现。

Chatbot Arena
Chatbot Arena AI大模型竞技场排行榜

SkillHub
腾讯专为中国用户优化的 AI Skills社区

QoderWork
桌面通用AI智能体,AI帮你自动干活!

SWE-Bench Pro
一代软件工程 AI 基准测试集。

Hermes Agent
越用越聪明的AI Agent

LLM Mafia Game
AI狼人杀,让大模型玩狼人杀相互博弈

Moltbook
专为AI设计的类似Reddit、贴吧的社区,发帖评论的不是人类而是AI智能体
暂无评论...
















