年前发布的几个国产新模型的竞技场排名出来了排名最高的，没想到是第一次打榜的...豆包（Seed 2.0）Seed2.0不仅拿下了国内综合第一，还在全球总榜里冲进了前10

年前发布的几个国产新模型的竞技场排名出来了
排名最高的，没想到是第一次打榜的...豆包（Seed 2.0）

Seed2.0不仅拿下了国内综合第一，还在全球总榜里冲进了前10。其他几家新模型，GLM5、文心5、Qwen3.5、Kimi K2.5，紧跟着排在了16 17 18 19 名。

特别值得一提的是，Seed2.0视觉能力更是仅次于 Gemini 的三个版本，排名全球第4。考虑到Seed2.0比 Gemini 的输入成本低5倍左右，这个模型在多模态理解方面是个巨大的降本增效神器。

具体来看各项测试：

Expert（专业能力），Kimi排名最高，第10。Seed第11，GLM、qwen、ernie比较靠后。

Hard Prompt（高难度指令处理），Seed第8，其他家都在20名开外。

Coding能力，Seed第7，Kimi第12。其他家在后面。这项最令人意外，因为它比的是全语言、全场景的综合编程能力，在WebDev榜单排名前列的GLM5反而落在后面。

Math（数学）上，又是Kimi最高第8，Seed第10，这俩排在前面。

Creative Writing（创意写作），最高的GLM5只排第22，跟体感也比较接近，理科生偏科了。

指令遵循和长文本测试，国产模型都不太理想，最好成绩都是十几名，还需要努力。

这么看下来，Kimi k2.5有几项能力还是比较突出的，但不知为何总排名落在了后面。

Seed 2.0 pro也已经接入了豆包「专家」模式。相比以前豆包一直在用的中小杯模型，智商终于有救了。这个事情意义很大，毕竟豆包是我们身边的家人朋友们用的最多的AI产品了。