在 AI 的帮助下,我读完了 AI 领域最关键的十篇论文,心潮澎湃。
75年间,后来成为亿万富翁、独角兽公司创始人、诺贝尔奖获得者或依然少为人知的学者们,在AI这个大舞台上你方唱罢我登场,每一篇论文背后都有着充满张力的判断、偏见与赌局。
1948 年,香农发表《通信的数学理论》,最先把语言放进了数学坐标系,并且提出,预测即压缩,如果信号传输的另一方和你有越多上下文,越懂你,就越能预测你压缩后的内容实际上是什么。
两年后,一位叫图灵的英国人提出了一个想法:别再争论机器到底能不能思考了,如果你通过语言交互,根本判断不出来对方是人还是机器,那从结果来说,机器不就是实现了人思考的过程吗?
这两位英国人定下整个AI时代的关键问:机器思考不是个哲学问,是个工程问;这个工程问,是可以通过压缩实现的。
如果机器确实可以“思考”,那怎么思考才能得到人类想要的正确答案呢?
Rumelhart、辛顿、Williams三位学者在1986年提出了反向传播算法,辛顿因为这一系列工作拿了 2024 年诺贝尔物理学奖。在反向传播之前,大家做AI的方法是:人类专家把知识写成规则(猫有四条腿、猫有胡须) → 输入计算机 → 计算机按规则推理 → 产生智能,但是这些规则写不完,且容易产生冲突,遇到狗就不知道怎么办了。
反向传播的思路是,不告诉计算机任何规则,只给它海量的猫的图片和不是猫的图片,让它自己从错误中学习"猫"的特征,这意味着:智能不需要被编程,可以被学习出来。
辛顿的博士后Yann LeCun沿袭了神经网络这条路,但其实当时学界的主流是SVM,SVM的发明者是一位俄罗斯数学家Vladimir Vapnik,他相信"理论先行"——算法必须有严格数学证明才值得做。Yann LeCun 则相信"工程先行"——能用就是好东西,不需要严格的数学证明。
90年代,学术圈喜欢有理论保证的东西。Vapnik 的论文能发顶刊,神经网络只能发会议。当时主流期刊编辑甚至会把"神经网络"几个字从论文标里删掉,因为太"民科"。
当时可供训练的数据少、算力弱、神经网络确实跑不出好结果,SVM在文本分类、垃圾邮件过滤、人脸识别等领域确实表现更好,但10年后,时代变了。
2006年,华裔科学家李飞飞在普林斯顿大学刚拿到教职,就申请了了一个疯狂的项目:她要构建一个有 1500 万张图片、2 万类的数据集,她打算从 Google、Yahoo、Bing 等图片搜索引擎批量下载图片,每张图标注出,这是猫还是狗,具体是苏格兰牧羊犬还是拉布拉多,这个想法的疯狂之处在于:
1500 万张图,每张哪怕只看 1 秒——也要 17000 个工时,相当于 5 个人不吃不喝标注 1 年。
2007 年之前,AI 视觉研究的标准任务是:在 9000 张图里区分 100 类物体,准确率能到 60-70% 就算很厉害,当时学者们觉得算法不够好,所以要研究更精妙的算法。
李飞飞的判断则是:算法不是瓶颈——数据才是。
这个没拿到终身教职的助理教授,赌上了一条没人看好的路,在亚马逊的众包平台上,花费3年请了全球167 个国家的 49000 名工人,花费百万美元,标注出了1400 万张图片,一个超大型的图片数据库ImageNet发布了,一开始用SVM来识别图片,错误率达到28%,学界又开始怀疑:是不是这事真的做不到?
直到2012年9月,AI界迎来了史上最重要的一周。
辛顿的两个学生 Alex Krizhevsky 和 Ilya Sutskever(对,就是后来 OpenAI 那个 Ilya),用一个深度卷积神经网络参加了 ImageNet 比赛,识别图片的错误率从 26% 直接降到 15%,比第二名(SVM)低了整整 10 个百分点。
那一周之后,所有顶级实验室连夜重组研究方向,转向深度学习;Ilya Sutskever 加入 Google,4 年后跟Sam Altman创办了 OpenAI,整个 SVM 时代结束了。
2010年,国际象棋神童、剑桥神经科学博士哈萨比斯在创办Deepmind的时候,就已经从神经科学的学习中意识到:深度学习与强化学习必须结合。
接下来 8 年是 AI 史上少见的连胜:DQN、AlphaGo、AlphaZero、AlphaFold。
后来Deepmind被谷歌收购,2017 年 6 月,同样是谷歌的另一支团队发表了 Transformer 论文。哈萨比斯没有跟进,因为他并不认为语言是智能的表现形式。
他也低估了互联网文本的丰富性。他后来反思:如果五六年前你问我,人类文明有多复杂?我的回答大概会是,接近无限。但事实证明,互联网上大约有 14 万亿个单词,恰好够覆盖人类几乎所有行为模式。
2022 年底 ChatGPT 风靡全球时,DeepMind 不再被视为世界顶级 AI 实验室。哈萨比斯承认:这是我第一个判断失误的地方。
这一幕幕上演的AI大戏中,让我觉得最有趣的是,不同经历、背景的人带着完全不同的动机来做AI这件事。
有人只是为了解决工作中非常具体的问,却没想到开启了一个时代。LeCun 希望让AI实现“看见”的功能,只是为了识别银行支票;Transformer 8 人2024 年 在 NVIDIA GTC 大会上首次同台时,其中一位作者说:我们写这篇论文时,没想过它会改变世界。我们只是想让 Google 翻译更好用。
有人是为了推动科学的进步。哈萨比斯把AGI像口头禅一样挂在嘴上,是因为他想要破解上帝的算法,他也相信,自然界中任何可生成或存在的模式,都能被经典学习算法高效发现并建模,这也对应了他功成名就后没有选择出去创业做个万亿市值的公司,而是继续做AI for Science。
有人擅长组局弄权,但往往这样的人能快速把事推进下去。Sam Altman没什么学术背景,来自硅谷风投机构。2015 年他和马斯克在加州的一次晚餐上达成共识,要做一个非营利组织,对抗谷歌可能形成的 AI 垄断,把 AGI 的成果造福全人类。马斯克实际投了4500万美元,组织章程写明:所有研究成果开源,不追求商业利益。
10 年后,OpenAI 估值 8520 亿美元,这家曾经的非盈利机构一度成了硅谷最贵的盈利公司。在那场宫斗一般的权力博弈中,Altman被董事会突然解雇,4 天后又被重新请回,背后是员工集体请愿、微软施压、董事会重组,但最终他还是赢了。
他的前老板,YC 创始人Paul Graham对他有一句评价:Sam Altman 就是那种人,你可以把他空降到一个食人族的小岛上,5 年后回来,他会是那里的国王。
回头看这 75 年,一个明显的变化:以前一个技术路线可以主导学界十几年。SVM 派主导 1990-2010 年代初,深度学习派主导 2012 年至今。研究者可以在顶刊或会议上慢慢争论。
现在不行了。Transformer 论文 8 作者,6 个变成亿万富翁;Scaling Laws 10 作者,6 个集体创办一家估值万亿美元的公司。
一篇论文不再是"发在哪里的区别",是"亿万富翁还是普通研究员的区别",是"一家公司能从几百亿涨到万亿、还是几个月内被快速超越的区别",是"一步落后接着步步落后的区别"。
押注一个方向还是同时做很多方向?做基础模型还是做应用层?做能力还是做安全?这些选择已经不是研究者个人能慢慢思考的事。
舞台变大了,每个角色登场的时间窗口在变短。下一个登场的人会是谁,从哪个角度切入,我猜不出。但根据过去 75 年的规律,他可能在做一件今天看起来“无用”的事,真正改变世界的人,在改变世界之前,看起来都不像在改变世界。
@aigc1024
 
 
Back to Top