PinchBench

专为AI Agent（ OpenClaw）开发的基准测试平台

收录时间：

2026-03-18

你的龙虾是在用什么大模型在跑呢？兴致勃勃地部署好了OpenClaw，结果却在选择用哪个AI模型当大脑时犯了难。到底哪个跑在OpenClaw上干活最利索、最便宜、最快？

今天给大家分享一个OpenClaw 作者推荐的养虾人必备测试平台：PinchBench，帮你快速找到最合适养龙虾的大模型。

PinchBench是一款来自 Kilo Code专为AI Agent（ OpenClaw）开发的基准测试平台，它把大模型放进 OpenClaw 这类Agent 工作流里，运行同一组真实世界任务，并测量成功率、速度和成本，以帮助开发者根据其使用场景选择合适的模型。

目前PinchBench 已经展示了 50 个模型、403 次运行记录，从三大维度来测试大模型在OpenClaw 中运行情况。

包括：成功率 (Success Rate)、速度 (Speed)、成本 (Cost)。最后还有一个Value Score（性价比）它是通过成功率和成本计算而来。

通过这些数据，我们可以很快的计算出，哪些模型好用又便宜。如果你不单行成本，直接使用claude-sonnet-4.6 大模型就好了。

他的任务成功率达到了87%~，目前排行第一名。

数据统计

暂无评论...