年前发布的几个国产新模型的竞技场排名出来了
排名最高的,没想到是第一次打榜的...豆包(Seed 2.0)
Seed2.0不仅拿下了国内综合第一,还在全球总榜里冲进了前10。其他几家新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,紧跟着排在了16 17 18 19 名。
特别值得一提的是,Seed2.0视觉能力更是仅次于 Gemini 的三个版本,排名全球第4。考虑到Seed2.0比 Gemini 的输入成本低5倍左右,这个模型在多模态理解方面是个巨大的降本增效神器。
具体来看各项测试:
Expert(专业能力),Kimi排名最高,第10。Seed第11,GLM、qwen、ernie比较靠后。
Hard Prompt(高难度指令处理),Seed第8,其他家都在20名开外。
Coding能力,Seed第7,Kimi第12。其他家在后面。这项最令人意外,因为它比的是全语言、全场景的综合编程能力,在WebDev榜单排名前列的GLM5反而落在后面。
Math(数学)上,又是Kimi最高第8,Seed第10,这俩排在前面。
Creative Writing(创意写作),最高的GLM5只排第22,跟体感也比较接近,理科生偏科了。
指令遵循和长文本测试,国产模型都不太理想,最好成绩都是十几名,还需要努力。
这么看下来,Kimi k2.5有几项能力还是比较突出的,但不知为何总排名落在了后面。
Seed 2.0 pro也已经接入了豆包「专家」模式。相比以前豆包一直在用的中小杯模型,智商终于有救了。这个事情意义很大,毕竟豆包是我们身边的家人朋友们用的最多的AI产品了。
排名最高的,没想到是第一次打榜的...豆包(Seed 2.0)
Seed2.0不仅拿下了国内综合第一,还在全球总榜里冲进了前10。其他几家新模型,GLM5、文心5、Qwen3.5、Kimi K2.5,紧跟着排在了16 17 18 19 名。
特别值得一提的是,Seed2.0视觉能力更是仅次于 Gemini 的三个版本,排名全球第4。考虑到Seed2.0比 Gemini 的输入成本低5倍左右,这个模型在多模态理解方面是个巨大的降本增效神器。
具体来看各项测试:
Expert(专业能力),Kimi排名最高,第10。Seed第11,GLM、qwen、ernie比较靠后。
Hard Prompt(高难度指令处理),Seed第8,其他家都在20名开外。
Coding能力,Seed第7,Kimi第12。其他家在后面。这项最令人意外,因为它比的是全语言、全场景的综合编程能力,在WebDev榜单排名前列的GLM5反而落在后面。
Math(数学)上,又是Kimi最高第8,Seed第10,这俩排在前面。
Creative Writing(创意写作),最高的GLM5只排第22,跟体感也比较接近,理科生偏科了。
指令遵循和长文本测试,国产模型都不太理想,最好成绩都是十几名,还需要努力。
这么看下来,Kimi k2.5有几项能力还是比较突出的,但不知为何总排名落在了后面。
Seed 2.0 pro也已经接入了豆包「专家」模式。相比以前豆包一直在用的中小杯模型,智商终于有救了。这个事情意义很大,毕竟豆包是我们身边的家人朋友们用的最多的AI产品了。