PinchBench

3小时前更新 10 00

专为AI Agent( OpenClaw)开发的基准测试平台

收录时间:
2026-03-18

你的龙虾是在用什么大模型在跑呢?兴致勃勃地部署好了OpenClaw,结果却在选择用哪个AI模型当大脑时犯了难。到底哪个跑在OpenClaw上干活最利索、最便宜、最快?

今天给大家分享一个OpenClaw 作者推荐的养虾人必备测试平台:PinchBench,帮你快速找到最合适养龙虾的大模型。

PinchBench是一款来自 Kilo Code专为AI Agent( OpenClaw)开发的基准测试平台,它把大模型放进 OpenClaw 这类Agent 工作流里 ,运行同一组真实世界任务,并测量成功率、速度和成本,以帮助开发者根据其使用场景选择合适的模型。

PinchBench

目前PinchBench 已经展示了 50 个模型、403 次运行记录,从三大维度来测试大模型在OpenClaw 中运行情况。

包括:成功率 (Success Rate)速度 (Speed)成本 (Cost)。最后还有一个Value Score(性价比)它是通过成功率和成本计算而来。

PinchBench
PinchBench

通过这些数据,我们可以很快的计算出,哪些模型好用又便宜。如果你不单行成本,直接使用claude-sonnet-4.6 大模型就好了。

他的任务成功率达到了87%~,目前排行第一名。

PinchBench

数据统计

相关导航

暂无评论

none
暂无评论...