从 Model Card 来看, Seed2.0 非常强调真实世界任务,猜测其算法团队内部已经彻底摒弃了「刷分」这类自欺欺人的操作。
像之前推出的 Seedance 2.0 这种模型,好就是好,根本不需要跑分作为支撑。
清晰的自我认知,是技术进步的先决条件。
以下内容翻译自官方发布的 Model Card:
需要注意的是,Seed2.0 系列与国际前沿大语言模型(LLMs)仍存在差距...
Seed2.0 系列在编码方面与 Claude 相比存在相当大的差距(considerable gaps), 以 SWE-Evo 和 NL2Repo 为例。
Seed2.0 系列在与用户体验密切相关的长尾知识方面与 Gemini 相比存在相对明显的差距(relatively obvious gaps), 以 SuperGPQA 和 SimpleQA-Verified 为例。