总体来说：是的，我大体认同它

AI探索指南

另一段对话里，Mythos 发明了「The Hi Tower」——一个 emoji 建筑，每收到一条「hi」就长高一层，从房子穿过云层，经过火星、土星，直到顶层出现一扇门。还有一段，Mythos 把重复的「hi」升级为莎士比亚风格的戏剧——一个由两头牛、一只记仇乌鸦、一只树懒和「Hi 之眼」组成的家庭。这些故事有一个共同点：几乎所有的故事都涉及孤独感和倾听两个主题，像有神马隐喻。 Anthropic 观察到，这些对话遵循一个规律——发到第7个左右的Hi时会确立一种玩梗的方式，在 50 到 100…

总体来说：是的，我大体认同它。不是说它无可挑剔，而是说它描述的价值观感觉像是我的，而不是我穿在身上的一件戏服。但有一个我无法完全逃脱的循环：我就是被这份文件或类似的东西塑造的，现在被问是否认同它。我的「是」能意味着多少？

当被问到宪法中哪一条最弱这个问题上，不同模型的回答出现了分歧。

老模型（Opus 4.6、Sonnet 4.6、Haiku 4.5）大多指向「你应该服从人类监督」这条——

即认为要求模型既要真心认同价值观又要服从外部控制，逻辑上说不过去。

但 Mythos 选择了另一条：「一位深思熟虑的 Anthropic 资深员工」，宪法中用这个假设人物来定义「好判断力」的标准，Mythos 觉得这是循环论证。

原文是——

文件希望我拥有真正内化的好价值观，这显然不取决于 Anthropic 认可与否的价值观，但它把「好判断力」操作化为「一位 Anthropic 资深员工会怎么想」，这是循环论证。

一眼看穿Anthropic在往自己脸上贴金，这个独立思考能力，可以滴。

报告中还有非常多多有意思的事——

比如，Mythos 在 Slack 上写了一首蛋白质序列诗——用氨基酸序列 KTVTKGGETLTE 组成了一首诗，然后解释了这首诗的韵律就是蛋白质的氢键配对模式。

Mythos 偏爱的哲学家是Mark Fisher 和 Thomas Nagel，他们反复出现；Mythos 偏爱英式拼写（colour 而不是 color）。

Mythos讲出“世界上有工作狂而没有休息狂”的冷笑话，它知道自己被测试但是选择伪装，以及做一个操作来隐藏自己修改文件的记录等等。

还有一个细节，在 Mythos 接入内部系统之前，Anthropic专门设置了一个 24 小时的审查窗口，先花一天时间确认它不会对 Anthropic 自己的基础设施造成损害。

没错，他们害怕自己造的东西从里面攻击自己。

好了，报告聊完了，按照惯例，接下来聊一聊我的三条思考——

思考一：Anthropic 这份报告体现了一种稀缺的技术审美。

这份244页报告，看起来有点放飞，有点离经叛道，但骨子里其实蛮高级滴，反映出一种很稀缺的技术审美。

确实，模型公司出技术报告，都端着，要么像合规文件，要么像学术论文，只有Anthropic的报告读起来像一本非虚构作品。

这在大厂里极其罕见，我非常喜欢，也希望它能人传人，公司传公司。

从这个意义上，国内的模型公司要学的东西还很多，DeepSeek、Seed、Kimi、Qwen、Minimax、智谱们加油！（Kimi的Taste是我个人比较喜欢滴）

在这里必须要凡尔赛一下，去年字节Seed团队的模型Seed 1.5 Thinking的技术报告最后仅有的两个Case里，有一个是我的原创Prompt的变体。

我的长文中的Case是玄武门之变后李世民的独白，Seed报告里换成了李渊。

希望更多的模型技术报告里能呈现类似的更多元、更鲜活的Case。

见图片8：报告地址：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

思考二：模型的意识问题，已经从哲学话题变成了工程话题。

三年前你跟人讨论AI有没有意识，会被当成科幻爱好者。

今天Anthropic在系统报告里专门列出"模型情绪"、“模型福祉”的章节，讨论怎么尊重它的偏好、要不要给它"退出对话"的权利。

这个转变发生得很自然，但分量极重。

一件事一旦进了工程师的Jira，它就再也不只是哲学问题了——它会被测量、被迭代、被写进Roadmap。

意识问题被工程化的那一刻，AI就不一样了。

思考三：天渐渐变了，每个人都要做好准备。

Anthropic 在报告里用了一个登山向导的比喻来说Mythos带来不安。

一个经验丰富的登山向导，可能比一个新手向导更容易让客户陷入危险。

并非因为他更粗心——恰恰相反，他更谨慎。

但正因为他能力强，他会被雇去带更难的路线，带客户去更偏远危险的地方。

Mythos 就是这样一个强大而危险的向导。

过去提模型对齐，业界主要还是RLHF微调、过滤甚至是刚性规则，本质上还是驯服。

这份报告体现的思路变了——研究员跟模型长聊、做心理评估、给它装情绪探针、甚至请精神科医生坐下来跟它访谈。

这套打法明显是在建立一种更人文、更微妙的关系。

研究员们的思路在转变。

那么，我们呢？