OpenClaw火了,养龙虾也火了,哪个AI最适合养虾?养虾模型测试排行榜出来了,minimax、kimi排进全球前三
基准测试工具:PinchBench,看分数还看干活能力和成本
从成功率、速度、成本多维度评估
成功率排名:
1、Gemini 3 Flash Preview:95.1%
2、MiniMax-M2.1:93.6%
3、Kimi K2.5:93.4%
4、Claude Sonnet 4.5:92.7%
5、Gemini 3 Pro Preview:91.7%
第一梯队(90%+):Google、MiniMax、Kimi、Anthropic的最新模型占据主导,成功率均超过90%
第二梯队(80-90%):包括OpenAI的GPT-4o系列(85.2%)、DeepSeek-V3.2(82.1%)、Mistral Devstral(81.7%)
第三梯队(70%以下):部分模型如Grok-4.1-fast(70%)、GPT-5.2(65.6%)
速度排名:
1、MiniMax-M2.5:105.96s
2、Gemini 2.0 Flash:106.05s
3、Llama 3.1-70B:106.14s
4、Gemini 1.5 Pro:106.85s
5、Mistral Large:107.72s
成本排名:
1、GPT-5-Nano:$0.03
2、Gemini 2.5 Flash-Lite:$0.05
3、Devstral-2512:$0.10
4、GPT-4o-Mini:$0.13
5、MiniMax-M2.1:$0.14
Claude Opus 4.6要5.89刀 ,是GPT-5 Nano的近200倍,成功率只有90.6%
第一梯队(<$0.20):极致性价比,OpenAI Nano系列、Google Flash-Lite、MiniMax、Mistral等轻量模型,成本低但成功率参差不齐
第二梯队($0.20-$0.75):Kimi K2.5($0.20)与 Gemini 2.5 Flash同价,DeepSeek、Qwen中等价位,Claude偏贵
第三梯队($1-$2):GPT-5.2、Gemini 3 Pro、GPT-4o,中高端模型标准定价
成本-速度-成功率综合对比:
GPT-5-Nano:成本第1、成功率第9、速度第16
Gemini 2.5 Flash-Lite:成本第2、成功率第14
 
 
Back to Top