字节发布 Seed2.0,相比其他模型的自夸宣传,字节这次反向操作,非常严谨指出了自己在 Coding 和世界知识方面不如竞品 Claude 和 Gemini。
从 Model Card 来看, Seed2.0 非常强调真实世界任务,猜测其算法团队内部已经彻底摒弃了「刷分」这类自欺欺人的操作。
像之前推出的 Seedance 2.0 这种模型,好就是好,根本不需要跑分作为支撑。
清晰的自我认知,是技术进步的先决条件。

以下内容翻译自官方发布的 Model Card:
需要注意的是,Seed2.0 系列与国际前沿大语言模型(LLMs)仍存在差距...
Seed2.0 系列在编码方面与 Claude 相比存在相当大的差距(considerable gaps), 以 SWE-Evo 和 NL2Repo 为例。
Seed2.0 系列在与用户体验密切相关的长尾知识方面与 Gemini 相比存在相对明显的差距(relatively obvious gaps), 以 SuperGPQA 和 SimpleQA-Verified 为例。
 
 
Back to Top