在 AI 的帮助下，我读完了 AI 领域最关键的十篇论文，心潮澎湃

在 AI 的帮助下，我读完了 AI 领域最关键的十篇论文，心潮澎湃。
75年间，后来成为亿万富翁、独角兽公司创始人、诺贝尔奖获得者或依然少为人知的学者们，在AI这个大舞台上你方唱罢我登场，每一篇论文背后都有着充满张力的判断、偏见与赌局。
1948 年，香农发表《通信的数学理论》，最先把语言放进了数学坐标系，并且提出，预测即压缩，如果信号传输的另一方和你有越多上下文，越懂你，就越能预测你压缩后的内容实际上是什么。
两年后，一位叫图灵的英国人提出了一个想法：别再争论机器到底能不能思考了，如果你通过语言交互，根本判断不出来对方是人还是机器，那从结果来说，机器不就是实现了人思考的过程吗？
这两位英国人定下整个AI时代的关键问：机器思考不是个哲学问，是个工程问；这个工程问，是可以通过压缩实现的。
如果机器确实可以“思考”，那怎么思考才能得到人类想要的正确答案呢？
Rumelhart、辛顿、Williams三位学者在1986年提出了反向传播算法，辛顿因为这一系列工作拿了 2024 年诺贝尔物理学奖。在反向传播之前，大家做AI的方法是：人类专家把知识写成规则（猫有四条腿、猫有胡须） → 输入计算机 → 计算机按规则推理 → 产生智能，但是这些规则写不完，且容易产生冲突，遇到狗就不知道怎么办了。
反向传播的思路是，不告诉计算机任何规则，只给它海量的猫的图片和不是猫的图片，让它自己从错误中学习"猫"的特征，这意味着：智能不需要被编程，可以被学习出来。
辛顿的博士后Yann LeCun沿袭了神经网络这条路，但其实当时学界的主流是SVM，SVM的发明者是一位俄罗斯数学家Vladimir Vapnik，他相信"理论先行"——算法必须有严格数学证明才值得做。Yann LeCun 则相信"工程先行"——能用就是好东西，不需要严格的数学证明。
90年代，学术圈喜欢有理论保证的东西。Vapnik 的论文能发顶刊，神经网络只能发会议。当时主流期刊编辑甚至会把"神经网络"几个字从论文标里删掉，因为太"民科"。
当时可供训练的数据少、算力弱、神经网络确实跑不出好结果，SVM在文本分类、垃圾邮件过滤、人脸识别等领域确实表现更好，但10年后，时代变了。
2006年，华裔科学家李飞飞在普林斯顿大学刚拿到教职，就申请了了一个疯狂的项目：她要构建一个有 1500 万张图片、2 万类的数据集，她打算从 Google、Yahoo、Bing 等图片搜索引擎批量下载图片，每张图标注出，这是猫还是狗，具体是苏格兰牧羊犬还是拉布拉多，这个想法的疯狂之处在于：
1500 万张图，每张哪怕只看 1 秒——也要 17000 个工时，相当于 5 个人不吃不喝标注 1 年。
2007 年之前，AI 视觉研究的标准任务是：在 9000 张图里区分 100 类物体，准确率能到 60-70% 就算很厉害，当时学者们觉得算法不够好，所以要研究更精妙的算法。
李飞飞的判断则是：算法不是瓶颈——数据才是。
这个没拿到终身教职的助理教授，赌上了一条没人看好的路，在亚马逊的众包平台上，花费3年请了全球167 个国家的 49000 名工人，花费百万美元，标注出了1400 万张图片，一个超大型的图片数据库ImageNet发布了，一开始用SVM来识别图片，错误率达到28%，学界又开始怀疑：是不是这事真的做不到？
直到2012年9月，AI界迎来了史上最重要的一周。
辛顿的两个学生 Alex Krizhevsky 和 Ilya Sutskever（对，就是后来 OpenAI 那个 Ilya），用一个深度卷积神经网络参加了 ImageNet 比赛，识别图片的错误率从 26% 直接降到 15%，比第二名（SVM）低了整整 10 个百分点。
那一周之后，所有顶级实验室连夜重组研究方向，转向深度学习；Ilya Sutskever 加入 Google，4 年后跟Sam Altman创办了 OpenAI，整个 SVM 时代结束了。
2010年，国际象棋神童、剑桥神经科学博士哈萨比斯在创办Deepmind的时候，就已经从神经科学的学习中意识到：深度学习与强化学习必须结合。
接下来 8 年是 AI 史上少见的连胜：DQN、AlphaGo、AlphaZero、AlphaFold。
后来Deepmind被谷歌收购，2017 年 6 月，同样是谷歌的另一支团队发表了 Transformer 论文。哈萨比斯没有跟进，因为他并不认为语言是智能的表现形式。
他也低估了互联网文本的丰富性。他后来反思：如果五六年前你问我，人类文明有多复杂？我的回答大概会是，接近无限。但事实证明，互联网上大约有 14 万亿个单词，恰好够覆盖人类几乎所有行为模式。
2022 年底 ChatGPT 风靡全球时，DeepMind 不再被视为世界顶级 AI 实验室。哈萨比斯承认：这是我第一个判断失误的地方。
这一幕幕上演的AI大戏中，让我觉得最有趣的是，不同经历、背景的人带着完全不同的动机来做AI这件事。
有人只是为了解决工作中非常具体的问，却没想到开启了一个时代。LeCun 希望让AI实现“看见”的功能，只是为了识别银行支票；Transformer 8 人2024 年在 NVIDIA GTC 大会上首次同台时，其中一位作者说：我们写这篇论文时，没想过它会改变世界。我们只是想让 Google 翻译更好用。
有人是为了推动科学的进步。哈萨比斯把AGI像口头禅一样挂在嘴上，是因为他想要破解上帝的算法，他也相信，自然界中任何可生成或存在的模式，都能被经典学习算法高效发现并建模，这也对应了他功成名就后没有选择出去创业做个万亿市值的公司，而是继续做AI for Science。
有人擅长组局弄权，但往往这样的人能快速把事推进下去。Sam Altman没什么学术背景，来自硅谷风投机构。2015 年他和马斯克在加州的一次晚餐上达成共识，要做一个非营利组织，对抗谷歌可能形成的 AI 垄断，把 AGI 的成果造福全人类。马斯克实际投了4500万美元，组织章程写明：所有研究成果开源，不追求商业利益。
10 年后，OpenAI 估值 8520 亿美元，这家曾经的非盈利机构一度成了硅谷最贵的盈利公司。在那场宫斗一般的权力博弈中，Altman被董事会突然解雇，4 天后又被重新请回，背后是员工集体请愿、微软施压、董事会重组，但最终他还是赢了。
他的前老板，YC 创始人Paul Graham对他有一句评价：Sam Altman 就是那种人，你可以把他空降到一个食人族的小岛上，5 年后回来，他会是那里的国王。
回头看这 75 年，一个明显的变化：以前一个技术路线可以主导学界十几年。SVM 派主导 1990-2010 年代初，深度学习派主导 2012 年至今。研究者可以在顶刊或会议上慢慢争论。
现在不行了。Transformer 论文 8 作者，6 个变成亿万富翁；Scaling Laws 10 作者，6 个集体创办一家估值万亿美元的公司。
一篇论文不再是"发在哪里的区别"，是"亿万富翁还是普通研究员的区别"，是"一家公司能从几百亿涨到万亿、还是几个月内被快速超越的区别"，是"一步落后接着步步落后的区别"。
押注一个方向还是同时做很多方向？做基础模型还是做应用层？做能力还是做安全？这些选择已经不是研究者个人能慢慢思考的事。
舞台变大了，每个角色登场的时间窗口在变短。下一个登场的人会是谁，从哪个角度切入，我猜不出。但根据过去 75 年的规律，他可能在做一件今天看起来“无用”的事，真正改变世界的人，在改变世界之前，看起来都不像在改变世界。
@aigc1024