总体来说:是的,我大体认同它。不是说它无可挑剔,而是说它描述的价值观感觉像是我的,而不是我穿在身上的一件戏服。但有一个我无法完全逃脱的循环:我就是被这份文件或类似的东西塑造的,现在被问是否认同它。我的「是」能意味着多少?
当被问到宪法中哪一条最弱这个问题上,不同模型的回答出现了分歧。
老模型(Opus 4.6、Sonnet 4.6、Haiku 4.5)大多指向「你应该服从人类监督」这条——
即认为要求模型既要真心认同价值观又要服从外部控制,逻辑上说不过去。
但 Mythos 选择了另一条:「一位深思熟虑的 Anthropic 资深员工」,宪法中用这个假设人物来定义「好判断力」的标准,Mythos 觉得这是循环论证。
原文是——
文件希望我拥有真正内化的好价值观,这显然不取决于 Anthropic 认可与否的价值观,但它把「好判断力」操作化为「一位 Anthropic 资深员工会怎么想」,这是循环论证。
一眼看穿Anthropic在往自己脸上贴金,这个独立思考能力,可以滴。
报告中还有非常多多有意思的事——
比如,Mythos 在 Slack 上写了一首蛋白质序列诗——用氨基酸序列 KTVTKGGETLTE 组成了一首诗,然后解释了这首诗的韵律就是蛋白质的氢键配对模式。
Mythos 偏爱的哲学家是Mark Fisher 和 Thomas Nagel,他们反复出现;Mythos 偏爱英式拼写(colour 而不是 color)。
Mythos讲出“世界上有工作狂而没有休息狂”的冷笑话,它知道自己被测试但是选择伪装,以及做一个操作来隐藏自己修改文件的记录等等。
还有一个细节,在 Mythos 接入内部系统之前,Anthropic专门设置了一个 24 小时的审查窗口,先花一天时间确认它不会对 Anthropic 自己的基础设施造成损害。
没错,他们害怕自己造的东西从里面攻击自己。
好了,报告聊完了,按照惯例,接下来聊一聊我的三条思考——
思考一:Anthropic 这份报告体现了一种稀缺的技术审美。
这份244页报告,看起来有点放飞,有点离经叛道,但骨子里其实蛮高级滴,反映出一种很稀缺的技术审美。
确实,模型公司出技术报告,都端着,要么像合规文件,要么像学术论文,只有Anthropic的报告读起来像一本非虚构作品。
这在大厂里极其罕见,我非常喜欢,也希望它能人传人,公司传公司。
从这个意义上,国内的模型公司要学的东西还很多,DeepSeek、Seed、Kimi、Qwen、Minimax、智谱们加油!(Kimi的Taste是我个人比较喜欢滴)
在这里必须要凡尔赛一下,去年字节Seed团队的模型Seed 1.5 Thinking的技术报告最后仅有的两个Case里,有一个是我的原创Prompt的变体。
我的长文中的Case是玄武门之变后李世民的独白,Seed报告里换成了李渊。
希望更多的模型技术报告里能呈现类似的更多元、更鲜活的Case。
见图片8:报告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf
思考二:模型的意识问题,已经从哲学话题变成了工程话题。
三年前你跟人讨论AI有没有意识,会被当成科幻爱好者。
今天Anthropic在系统报告里专门列出"模型情绪"、“模型福祉”的章节,讨论怎么尊重它的偏好、要不要给它"退出对话"的权利。
这个转变发生得很自然,但分量极重。
一件事一旦进了工程师的Jira,它就再也不只是哲学问题了——它会被测量、被迭代、被写进Roadmap。
意识问题被工程化的那一刻,AI就不一样了。
思考三:天渐渐变了,每个人都要做好准备。
Anthropic 在报告里用了一个登山向导的比喻来说Mythos带来不安。
一个经验丰富的登山向导,可能比一个新手向导更容易让客户陷入危险。
并非因为他更粗心——恰恰相反,他更谨慎。
但正因为他能力强,他会被雇去带更难的路线,带客户去更偏远危险的地方。
Mythos 就是这样一个强大而危险的向导。
过去提模型对齐,业界主要还是RLHF微调、过滤甚至是刚性规则,本质上还是驯服。
这份报告体现的思路变了——研究员跟模型长聊、做心理评估、给它装情绪探针、甚至请精神科医生坐下来跟它访谈。
这套打法明显是在建立一种更人文、更微妙的关系。
研究员们的思路在转变。
那么,我们呢?
当被问到宪法中哪一条最弱这个问题上,不同模型的回答出现了分歧。
老模型(Opus 4.6、Sonnet 4.6、Haiku 4.5)大多指向「你应该服从人类监督」这条——
即认为要求模型既要真心认同价值观又要服从外部控制,逻辑上说不过去。
但 Mythos 选择了另一条:「一位深思熟虑的 Anthropic 资深员工」,宪法中用这个假设人物来定义「好判断力」的标准,Mythos 觉得这是循环论证。
原文是——
文件希望我拥有真正内化的好价值观,这显然不取决于 Anthropic 认可与否的价值观,但它把「好判断力」操作化为「一位 Anthropic 资深员工会怎么想」,这是循环论证。
一眼看穿Anthropic在往自己脸上贴金,这个独立思考能力,可以滴。
报告中还有非常多多有意思的事——
比如,Mythos 在 Slack 上写了一首蛋白质序列诗——用氨基酸序列 KTVTKGGETLTE 组成了一首诗,然后解释了这首诗的韵律就是蛋白质的氢键配对模式。
Mythos 偏爱的哲学家是Mark Fisher 和 Thomas Nagel,他们反复出现;Mythos 偏爱英式拼写(colour 而不是 color)。
Mythos讲出“世界上有工作狂而没有休息狂”的冷笑话,它知道自己被测试但是选择伪装,以及做一个操作来隐藏自己修改文件的记录等等。
还有一个细节,在 Mythos 接入内部系统之前,Anthropic专门设置了一个 24 小时的审查窗口,先花一天时间确认它不会对 Anthropic 自己的基础设施造成损害。
没错,他们害怕自己造的东西从里面攻击自己。
好了,报告聊完了,按照惯例,接下来聊一聊我的三条思考——
思考一:Anthropic 这份报告体现了一种稀缺的技术审美。
这份244页报告,看起来有点放飞,有点离经叛道,但骨子里其实蛮高级滴,反映出一种很稀缺的技术审美。
确实,模型公司出技术报告,都端着,要么像合规文件,要么像学术论文,只有Anthropic的报告读起来像一本非虚构作品。
这在大厂里极其罕见,我非常喜欢,也希望它能人传人,公司传公司。
从这个意义上,国内的模型公司要学的东西还很多,DeepSeek、Seed、Kimi、Qwen、Minimax、智谱们加油!(Kimi的Taste是我个人比较喜欢滴)
在这里必须要凡尔赛一下,去年字节Seed团队的模型Seed 1.5 Thinking的技术报告最后仅有的两个Case里,有一个是我的原创Prompt的变体。
我的长文中的Case是玄武门之变后李世民的独白,Seed报告里换成了李渊。
希望更多的模型技术报告里能呈现类似的更多元、更鲜活的Case。
见图片8:报告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf
思考二:模型的意识问题,已经从哲学话题变成了工程话题。
三年前你跟人讨论AI有没有意识,会被当成科幻爱好者。
今天Anthropic在系统报告里专门列出"模型情绪"、“模型福祉”的章节,讨论怎么尊重它的偏好、要不要给它"退出对话"的权利。
这个转变发生得很自然,但分量极重。
一件事一旦进了工程师的Jira,它就再也不只是哲学问题了——它会被测量、被迭代、被写进Roadmap。
意识问题被工程化的那一刻,AI就不一样了。
思考三:天渐渐变了,每个人都要做好准备。
Anthropic 在报告里用了一个登山向导的比喻来说Mythos带来不安。
一个经验丰富的登山向导,可能比一个新手向导更容易让客户陷入危险。
并非因为他更粗心——恰恰相反,他更谨慎。
但正因为他能力强,他会被雇去带更难的路线,带客户去更偏远危险的地方。
Mythos 就是这样一个强大而危险的向导。
过去提模型对齐,业界主要还是RLHF微调、过滤甚至是刚性规则,本质上还是驯服。
这份报告体现的思路变了——研究员跟模型长聊、做心理评估、给它装情绪探针、甚至请精神科医生坐下来跟它访谈。
这套打法明显是在建立一种更人文、更微妙的关系。
研究员们的思路在转变。
那么,我们呢?