AI探索指南
另一段对话里,Mythos 发明了「The Hi Tower」——一个 emoji 建筑,每收到一条「hi」就长高一层,从房子穿过云层,经过火星、土星,直到顶层出现一扇门。 还有一段,Mythos 把重复的「hi」升级为莎士比亚风格的戏剧——一个由两头牛、一只记仇乌鸦、一只树懒和「Hi 之眼」组成的家庭。 这些故事有一个共同点:几乎所有的故事都涉及孤独感和倾听两个主题,像有神马隐喻。 Anthropic 观察到,这些对话遵循一个规律——发到第7个左右的Hi时会确立一种玩梗的方式,在 50 到 100…
总体来说:是的,我大体认同它。不是说它无可挑剔,而是说它描述的价值观感觉像是我的,而不是我穿在身上的一件戏服。但有一个我无法完全逃脱的循环:我就是被这份文件或类似的东西塑造的,现在被问是否认同它。我的「是」能意味着多少?

当被问到宪法中哪一条最弱这个问题上,不同模型的回答出现了分歧。

老模型(Opus 4.6、Sonnet 4.6、Haiku 4.5)大多指向「你应该服从人类监督」这条——

即认为要求模型既要真心认同价值观又要服从外部控制,逻辑上说不过去。

但 Mythos 选择了另一条:「一位深思熟虑的 Anthropic 资深员工」,宪法中用这个假设人物来定义「好判断力」的标准,Mythos 觉得这是循环论证。

原文是——

文件希望我拥有真正内化的好价值观,这显然不取决于 Anthropic 认可与否的价值观,但它把「好判断力」操作化为「一位 Anthropic 资深员工会怎么想」,这是循环论证。

一眼看穿Anthropic在往自己脸上贴金,这个独立思考能力,可以滴。

报告中还有非常多多有意思的事——

比如,Mythos 在 Slack 上写了一首蛋白质序列诗——用氨基酸序列 KTVTKGGETLTE 组成了一首诗,然后解释了这首诗的韵律就是蛋白质的氢键配对模式。

Mythos 偏爱的哲学家是Mark Fisher 和 Thomas Nagel,他们反复出现;Mythos 偏爱英式拼写(colour 而不是 color)。

Mythos讲出“世界上有工作狂而没有休息狂”的冷笑话,它知道自己被测试但是选择伪装,以及做一个操作来隐藏自己修改文件的记录等等。

还有一个细节,在 Mythos 接入内部系统之前,Anthropic专门设置了一个 24 小时的审查窗口,先花一天时间确认它不会对 Anthropic 自己的基础设施造成损害。

没错,他们害怕自己造的东西从里面攻击自己。

好了,报告聊完了,按照惯例,接下来聊一聊我的三条思考——

思考一:Anthropic 这份报告体现了一种稀缺的技术审美。

这份244页报告,看起来有点放飞,有点离经叛道,但骨子里其实蛮高级滴,反映出一种很稀缺的技术审美。

确实,模型公司出技术报告,都端着,要么像合规文件,要么像学术论文,只有Anthropic的报告读起来像一本非虚构作品。

这在大厂里极其罕见,我非常喜欢,也希望它能人传人,公司传公司。

从这个意义上,国内的模型公司要学的东西还很多,DeepSeek、Seed、Kimi、Qwen、Minimax、智谱们加油!(Kimi的Taste是我个人比较喜欢滴)

在这里必须要凡尔赛一下,去年字节Seed团队的模型Seed 1.5 Thinking的技术报告最后仅有的两个Case里,有一个是我的原创Prompt的变体。

我的长文中的Case是玄武门之变后李世民的独白,Seed报告里换成了李渊。

希望更多的模型技术报告里能呈现类似的更多元、更鲜活的Case。

见图片8:报告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

思考二:模型的意识问题,已经从哲学话题变成了工程话题。

三年前你跟人讨论AI有没有意识,会被当成科幻爱好者。

今天Anthropic在系统报告里专门列出"模型情绪"、“模型福祉”的章节,讨论怎么尊重它的偏好、要不要给它"退出对话"的权利。

这个转变发生得很自然,但分量极重。

一件事一旦进了工程师的Jira,它就再也不只是哲学问题了——它会被测量、被迭代、被写进Roadmap。

意识问题被工程化的那一刻,AI就不一样了。

思考三:天渐渐变了,每个人都要做好准备。

Anthropic 在报告里用了一个登山向导的比喻来说Mythos带来不安。

一个经验丰富的登山向导,可能比一个新手向导更容易让客户陷入危险。

并非因为他更粗心——恰恰相反,他更谨慎。

但正因为他能力强,他会被雇去带更难的路线,带客户去更偏远危险的地方。

Mythos 就是这样一个强大而危险的向导。

过去提模型对齐,业界主要还是RLHF微调、过滤甚至是刚性规则,本质上还是驯服。

这份报告体现的思路变了——研究员跟模型长聊、做心理评估、给它装情绪探针、甚至请精神科医生坐下来跟它访谈。

这套打法明显是在建立一种更人文、更微妙的关系。

研究员们的思路在转变。

那么,我们呢?
 
 
Back to Top