游戏百科

强化学习之父,给大模型判了“死刑”

国庆假期的朋友圈,被OpenAI的Sora2刷了屏。

然而,就在全球科技界为大模型的迭代欢呼时,有位老头却发出了刺耳的警告:‌“大语言模型是错误的起点,是条死胡同。”

他是理查德·萨顿——‌强化学习之父、2024年图灵奖,AlphaGo击败李世石背后的理论奠基人。

萨顿此举,‌犹如你一直信赖的投资顾问突然宣告:他过去十年推荐的黄金策略,其实走进了死胡同。‌

更戏剧性的是,他原本被视为‌“算力至上”理论的旗手‌。OpenAI、谷歌这些巨头疯狂烧钱堆参数,很大程度上正是受他的论文《苦涩的教训》启发。

如今,这位祖师爷却‌亲手颠覆了自己的理论遗产‌。

1

没人看好的“边缘领域”

萨顿虽然被尊为“强化学习之父”,但比起AI圈其他大佬——比如“深度学习之父”辛顿、“卷积网络之父”杨立昆,他的名字普通人很少听说。

这位留着络腮胡的学者,更像武侠小说里藏经阁的“扫地僧”:身怀绝技却常年坐着冷板凳。

强化学习在AI领域的历史,又长又曲折。

强化学习的核心思想其实很简单:‌让AI像人类婴儿一样,通过不断试错来学习‌。比如小孩学走路,没人教“先抬左脚再迈右脚”,摔多了自然就会了。

这门技术的源头,能一直摸到AI刚起步的时候。1947年,图灵在伦敦数学学会演讲时就说过,“我们需要的是一台能从经验里学习的机器”。

到了1950年,图灵又在著名论文《计算机器与智能》里追问:“机器能像人类一样思考吗?”

虽然早期也有过小突破,比如AI先驱阿瑟·萨缪尔在1950年代做出了西洋跳棋程序——这可是世界上最早能自己学棋的计算机程序之一。

但强化学习的发展一直慢吞吞的,没掀起什么大浪。

萨顿后来回忆,70年代末他跟着导师巴托研究AI时,情况特别难:“我们翻遍了其他领域的资料,想找类似的研究,结果几乎没有。可我们觉得,这事总得有人做啊,它该成为一个专门的领域。”

于是他俩咬着牙坚持,还写了本教科书,就想让更多人注意到这个方向。

“这不是当时热门的专家系统,也不是监督学习,可我们一直觉得它很重要。我们没夸大其词,就想把这个想法简单直白地说清楚。”

萨顿提到的“专家系统”和“监督学习”,在当时是机器学习的“主流选手”。

打个比方:监督学习就像老师把标准答案一条条标好,喂给学生背——机器只要吃够了标注好的数据,就能变聪明;可强化学习不一样,它更像教小孩学走路,机器得自己试着走、摔了跟头看反馈,再调整姿势,靠无数次“试错”,慢慢找到对的方法。

图|萨顿称人类进化到AI是不可避免的

萨顿博士毕业时,工业界正是AI热潮,好多人都往里面挤,他却选了留在学术界。

那时候强化学习还没多少人关注,可他没动摇,一直守在这个领域里。

萨顿总说,心理学是他研究AI的“秘密武器”。

他本科在斯坦福大学学的是心理学,他说:“在‘学习’这件事上,尤其是想搞懂学习的基本原理,心理学家想得最透。他们花了那么多功夫,提出了好多重要的想法。”

在他早期的论文里,常能看到心理学的影子:从“经典条件反射”、神经科学这些方向找灵感,再把人类“从经验里学东西”的逻辑,一点点搬到计算机里。

之后几十年,他和导师巴托一起写了好多开创性的论文,提出了“时序差分学习”“演员—评论家模型”这些强化学习的核心理论。

1998年,《强化学习导论》出版了——这书直接把强化学习变成了一门独立的学科,到现在,已经被引用超过7.5万次了。

正因为有跨学科的背景,萨顿想机器学习的问题时,总是带着对人性的理解和观察。

而“做出一个能像人一样思考的智能机器”,也成了他一辈子想实现的目标。

1

他的学生赢了李在石

2016年3月,强化学习终于迎来了它的“高光时刻”。

那一年,AlphaGo以4比1的战绩打败了围棋世界冠军、职业九段棋手李世石,一下子声名大噪。

而AlphaGo背后最关键的技术,就是萨顿提出的强化学习算法。

AlphaGo团队里有4位萨顿的学生,其中首席科学家席尔瓦是萨顿的大弟子,他曾在阿尔伯塔大学跟随萨顿学习强化学习。

AlphaGo在学习了数百万盘人类围棋棋谱后,又经过无数次自我对弈,在不断试错、长远规划、优化策略的过程中自主探索,最终创造出了“神之37手”——在第二局第37手时,下出了一步让所有人类都大为惊讶的白棋。

这一步棋让李世石当场愣住,陷入长时间的思考,甚至起身离席。

图|AlphaGo打败了世界围棋冠军李在石

围棋界的顶级高手和解说员们,都没想到AlphaGo会在那个位置落子。因为在人类棋手的经验里,这步棋下得“莫名其妙”。赛后李世石也承认,自己压根儿就没考虑过这个走法。

一夜之间,强化学习这门学科成了众人瞩目的焦点。

在打败李世石后的第二年,DeepMind团队公布了AlphaGoZero。它与AlphaGo最大的区别在于,不再需要人类数据。

也就是说,它一开始就没接触过人类棋谱。AlphaGoZero从零开始学习,短短3天内,就通过自我对弈成为了顶级高手,和旧版AlphaGo对战,战绩是100比0。这再次引起了舆论的轰动。

然而,高光过后,强化学习又逐渐陷入了沉寂。

同样是图灵奖得主的AI科学家杨立昆一直是强化学习的批评者。2016年,他提出了一个有名的蛋糕比喻:“如果人工智能是一块蛋糕,无监督学习就是蛋糕胚,监督学习是蛋糕表面的糖霜,而强化学习则只是顶上的樱桃。”

他认为,强化学习这种方法需要进行大量的试验,效率非常低。他甚至多次在公开场合表示:“应该放弃强化模型,或者至少尽量少用它。”

面对这些争论,萨顿没有正面回应。

2019年,萨顿在个人网站上发表了一篇仅1000多字却影响深远的短文《苦涩的教训》。

和一般的学术分享不同,这篇文章更像是他几十年思考后沉淀下来的哲学感悟。

文章剖析了人工智能研究七十年来最深刻的悖论:人类对自身智慧的过度迷恋,恰恰成了机器智能发展的一大阻碍。

萨顿认为,过去70年来,AI研究走过的最大弯路,就是过于依赖人类已有的经验和知识。这样做虽然能带来短期的性能提升,但从长远来看,只会阻碍研究的持续进步。

他希望人们关注长期价值,注重基础研究和通用方法,而不要被短期利益蒙蔽了前进的方向。

1

把科技巨头们,架在火上烤

萨顿这篇被赞誉为“AI圣经”的文章,常常被人误读。

许多人把萨顿视为“算力至上”的旗手,却忽略了他文章里最核心的前提——只有那些直接从经验中获得的算法,才具有无限扩展的潜力。

按照这种被误读的理解,那些依赖海量人类文本数据训练出来的大语言模型,似乎就符合了“苦涩的教训”所描述的情况。

但萨顿本人并不认同这种看法。他认为,大语言模型本质上只是在模仿人类的数据。一旦高质量的人类数据被用完了,大语言模型的发展就会遇到瓶颈,难以再进一步。

“苦涩的教训”一次次地上演,而AI领域的狂欢却仍在继续。

不过,就连他自己也没想到,再次让强化学习声名大噪的,竟然是一股来自东方的力量。

2025年1月,DeepSeek发布了R1版本,成功实现了依靠纯强化学习来提升大模型的推理能力。DeepSeek一推出,就赢得了全球用户的喜爱。

让业界震惊的是,它的训练和运行成本远远低于同类模型,性价比之高,被许多观察者称为“不可思议”。

在DeepSeek的官方论文中,研究人员讲述了一个有趣的细节:当训练DeepSeek-R1-Zero做数学方程时,它突然冒出一句“Wait,wait,Wait.That'sanahamomentIcanflaghere(等等、等等,这是一个我可以在这里标记的顿悟时刻)”。

这一时刻,让人感觉机器在强化学习的过程中,仿佛也有了类似人类灵感迸发的瞬间。

在1980年代,萨顿和巴托被一些人视为“对一个优雅但注定失败的想法痴迷的人”。让机器像人和动物那样从经验中学会行为,这在当时听起来就像是天方夜谭。

然而,40多年后的今天,这个曾经被看作是“边缘想法”的观念,却成了当今AI领域的支柱之一。

2025年春天,萨顿和他的博士生导师安德鲁·巴托(AndrewBarto)因为“为强化学习奠定了概念与算法基础”,共同获得了图灵奖。

有人说,这是对他们多年努力的迟到奖励。

从1947年图灵第一次提出“我们想要的是一台能够从经验中学习的机器”,一直到78年后的今天,图灵奖才颁给了两位毕生致力于解决这一问题的科学家。

获奖当天,萨顿在专访中表示:“人工智能是一场马拉松,不是短跑。我们还有很长的路要走,AI最具影响力的部分还没有到来。”

今年5月,他和弟子席尔瓦合作发表了一篇题为《欢迎来到体验时代》的论文。

他们把机器学习的发展分成了三个阶段:首先是“模拟时代”,在这个封闭的环境里,数据可以由多个智能体互相博弈而自动生成;第二阶段是数据时代,ChatGPT就是代表;第三阶段是“经验时代”,AlphaProof是这一阶段的代表,它发现了人类未曾发现过的定理证明方法。

萨顿认为,我们即将到达“人类数据时代”的终点。因为大多数高质量的数据源已经被消耗得差不多了,我们开始触及人类数据的极限。AI需要从“模仿人类”走向“探索经验世界”。

正是基于这些理论,萨顿开始不断向科技巨头们发出警告。在9月底的一次深度访谈中,他称:“单纯堆砌算力的大模型,可能永远无法实现通用智能。”

他直言不讳地指出,大语言模型是一个“错误的起点”,是一条“死胡同”。

这话的分量,不亚于牛顿晚年说“引力这事儿,我可能想错了”。简直把那些狂砸几千亿美元堆参数的科技巨头们,架在了火上烤。

这并非萨顿第一次为行业降温。今年3月,他和导师安德鲁·巴托共同获得图灵奖后,便在采访中批评一些AI公司的行为“不负责任”,称这些公司受商业利益驱使,将未经充分测试的模型推向市场。

值得注意的是,图灵奖的奖金正是由谷歌资助的,而谷歌旗下的一些AI公司正是萨顿批判的对象。

点个“爱心”,再走吧

评论列表

蹉跎
蹉跎 2
2025-10-10 15:59
即便死刑,我觉得也可以取代搜索引擎了

生命 回复 10-11 17:02
还没被取代?

生命
生命 2
2025-10-11 17:03
师父元婴徒儿大飞升!
Meme蜜米
Meme蜜米 1
2025-10-10 14:58
难怪LLM模型和人类使用语言进行思考的方式这么相似[呲牙笑]
用户16xxx16
用户16xxx16 1
2025-10-10 18:12
Bntonio
Bntonio 1
2025-10-11 10:28
但我觉得这是一个必要的过程,没有大语言模型,人类如何跟AI进行沟通呢?

生命 回复 10-11 17:02
放心,AI知道怎么与愚蠢的人类沟通。。。

Bntonio 回复 生命 10-11 17:19
那你让那些大公司们转向吧,你看他们愿不愿意啰。一种看得见摸得着,并且实践中的确很有效果。一种,至少在沟通方面没看见多大用处。语言沟通可不是下棋那种简单的规则,你打算用什么方式让AI学会与人类沟通?