AI的“路线”之争:从技术到信仰
这是一位在AI领域受到普遍尊敬的人。
他从2001年起就担任人工智能促进协会(AAAI)会士,当时对他的提名介绍是:“因其在机器学习的诸多领域,包括强化学习、时间差分技术和神经网络做出了重大贡献。”
2024年,他与他的老师巴托(Andrew Barto)共同获得了年度图灵奖。颁奖者计算机协会(ACM)针对他的介绍是:“因其发展了强化学习(Reinforcement Learning)的概念和算法基础。”
他,就是加拿大计算机科学家、被誉为现代计算强化学习创始人之一的理查德·萨顿(Richard Stuart Sutton)。
然而,正是这位“强化学习之父”、AI业内“大咖”级的人物,却在2025年9月26日接受独立记者帕特尔(Dwarkesh Patel,以AI深度采访而闻名)的采访中,对自己所熟悉的领域“大开杀戒”。
萨顿的观点十分鲜明:当今炙手可热的ChatGPT大语言模型(LLM)所遵循的道路,其实是死路一条!
此观点一出,业界震惊,众皆愕然。
这也为原本就“树大招风”的ChatGPT的未来走向之争,平添变数。
之前,针对当前AI市场的“泡沫”说,一时间众说纷纭。以硅谷科技精英为代表的技术派对此持乐观态度,他们普遍认为AI的价值需要通过不断的技术垄断性投入加以实现;而以华尔街金融精英为代表的资本则秉持现实主义,对此保有警惕。
现任OpenAI董事长、身为“80后”的泰勒(Bret Taylor)的话具有一定代表性:“人工智能的确会像互联网一样,在未来创造巨大的经济价值。但我同时也认为:我们正处于AI泡沫之中。”
但无论如何,AI 已被精英们视为“现代互联网时代最大规模的基础设施计划”,甚至堪比当年“电力革命”的早期阶段!此说也许并不为过。因为以AI为代表的新经济,正在打破以往增长潜力的界限,它的云服务可以为全球数十亿用户提供算力,而新增一个用户的服务成本几乎可以忽略不计。鉴于软件和数字产品可以被无限复制与分发,完全不受物理库存和物流的限制,故而必将导致传统产业生产函数的重构。
最新研究表明,AI应当被视为一种全新的生产要素,它具有与传统要素截然不同的经济特征:传统资本要素存在边际报酬递减规律,而AI作为一种知识密集型要素,随着使用规模的扩大,其边际产出不降反升;传统生产要素需要外部投入才能增加,而AI可以通过自我学习和迭代改进来提升自身性能。
如果一个如此重要的划时代产物,竟存在有重大缺陷,那么后果将会如何?
正因为如此,萨顿充满冷峻的预言尤其显得格外刺耳!只不过,萨顿不是针对市场与应用开刀,而是直接撼动AI的底层逻辑——向其所依赖的大语言模型说“不”!
那么,萨顿凭什么说以ChatGPT为代表AI大语言模型是“死路一条”?
这就涉及到萨顿数十年来一直思考的问题:智能的本质是什么?它的目标何在?
如果用一句话来概括萨顿的观点,那就是:大语言模型仅仅是模仿人类语言的工具,它缺乏对世界的理解和目标导向的行为,因此无法通过经验学习来实现其智能。
说穿了,大语言模型只是一个没有目标的模仿者!
让我们退回到上世纪80年代,当不少人仍然认为AI就是靠程序员写一大堆规则的时候,萨顿就已经开始尝试一套完全不同的东西。他的核心思路十分朴素:真正的智能不是靠别人教会的,而是靠自己试出来的。就像小松鼠学着开坚果,它不知道正确答案,只能自己去试。试对了,它就能得到奖励(吃到坚果),并记住了这个行为;试错了,就没有任何奖励,它就知道此法无效,下不为例。这个过程就是萨顿所说的强化学习。
这个思路似乎又笨又慢,但萨顿却坚信:这才是真正通往通用人工智能(AGI)的唯一道路。因为宇宙间的生物,从松鼠到人类,都是这样学会生存的。这其中的核心观点是:智能,源于经验而非教导。
这正是萨顿与今天整个大语言模型浪潮最根本的分歧所在!
只是,理论很丰满,但现实很骨感。这现实就是:昔日萨顿所言,貌似正在被现实的大语言模型叙事全面碾压!不是吗?这个大语言模型的逻辑既简单又粗暴:既然人类最值得称道的是知识,那么把人类有史以来所有的文字、代码、对话,以及整个互联网几万亿的Token(LLM中文本的最小计算单位)全都“喂”给一个巨大的神经网络不就行了。于是乎,人们看到这样的结果:一个“无所不能”的怪物出现了,它会为你写诗,能与你聊天,还能给你画画,为你写代码,所表现出的能力似乎远超一般人,它甚至还能在国际数学奥林匹克竞赛上拿金牌!据说作家刘慈欣在一次访谈中说到他的一次经历。当时他正在构思一篇长篇小说,听说AI的本事后决定试一试。当他把他的构思“喂”给AI、并命其为自己完成一篇小说后,AI给出的结果让他大吃一惊。他坦言:“比我写的还好!我还写吗?”
早在6年前,萨顿就写过一篇名为《惨痛的教训》(The Better Lesson)的文章。文中他说:“AI研究70年的历史告诉我们,别总想搞那些人类自己觉得精妙的小技巧,到头来真正管用的,还是用更强的算力去处理更多的数据。这种简单、可扩展的笨方法,最终总能打败那些需要人类智慧精心设计的巧方法。”
可如今的大语言模型,好像正是萨顿论点的实现:堆算力,堆数据,最后,智能喷涌而出。这条通向AGI的“康庄大道”似乎已经被Open AI和谷歌们找到了。
如此一来,萨顿的“死路一条”岂不是自相矛盾?
君不见,大语言模型不就是因为它在海量的学习数据中建立了一个关于我们这个世界的模型吗?它模仿了数万亿的人类语言。在这个过程中,它难道学不会语言背后那个世界运行的规律吗?就好像你读完了莎士比亚全集、自然就对人性有了更深的理解一样,一个读完了整个互联网的AI、它对于世界的理解不是已经超越任何一个人了吗?从这个角度来看,大语言模型不仅是对“惨痛教训”的胜利,更是构建通用人工智能最合理的起点。我们可以先通过模仿学习,给模型一个关于世界运作的、极其强大的先验知识,然后再让它去与这个世界互动,进行萨顿你所说的那种经验学习,先上学、再工作,这逻辑难道有问题吗?
有,而且问题很大!
其实,萨顿对大语言模型的反击非常精准。
在萨顿看来:大语言模型的根本问题在于:它不具备学习任何真实世界的结构,而只是统计地学习文字之间的关系,如下一个词可能是什么?它并不知道词语所代表的是什么,也不了解那些词背后的世界,它只是记忆和模仿。例如,你给它一句话“今天天气真”,它就会预测下一个最可能的词是“好”,它预测对了,就得到一个内部的奖励,然后调整自己的参数。但萨顿一针见血地指出:这根本不算一个真正的目标!它只是被动地、机械地模仿在训练数据中看到的人类语言模式,它说的对与错、好与坏,在真实世界里是得不到反馈的。
真正的智能,必须要学会与环境互动。它需要试探、犯错、获得反馈并据此改进自己的预测和行为。这才是智能成长的唯一途径。而大语言模型只是在巨大的文本库里找规律,它们没有任何行动、目标和后果。由于没有行动,也就失去了学习的根基。
虽然人类通过语言和书本学习了很多,并从中理解世界,但那只是人类学习的一部分。我们之所以能从语言、文字中获得知识,是因为我们早已在现实世界中通过感知和行动建立了深层结构。因为我们看过无数次东西掉下来,知道重力是什么感觉,所以才能理解“球掉下来”这句话。但大语言模型没有这样的经验,它只是统计“球”“掉”“下来”常常连在一起,因而它的理解完全是表面化的。
智能的核心是与世界的互动。这也是强化学习存在的原因。智能体必须是动态的,通过感受结果来调整自己,它是一个有真实世界参与的闭环过程。
那么,“与世界互动”到底是什么意思?意思就是:智能必须是一个与时间相连的过程。它不是一次性的输入与输出,而是一条不断延伸的轨迹。智能体在这条轨迹上行动,感受世界的反馈,再据此更新对未来的预测。因为我们学习的目的不仅仅是为了重复过去,更是为了预测未来。预测越准确,行动就越有效,这正是强化学习与其他学习范式的区别。
有人说,大语言模型也能预测下一个词呀。可在萨顿看来,那是无目标的预测。它预测下一个词只是因为那是训练任务,它并不知道“为什么”要预测,也不知道预测得更好会带来什么后果。而智能体的预测是有目的的:它是为了得到更多的奖励,为了生存,为了达成某个目标。
没有目标,就没有真正的学习。
从这个意义上说,大语言模型就像是只知背诵答案的学生,它没有一个关于什么是“对”的根本定义,因为在真实世界里,一个行为的“对”或“不对”,取决于它是否能帮助你达成在真实世界里的一个目标,比如松鼠拿到坚果、人类赢得一盘棋。如果没有这个来自于真正世界的基准真相,大语言模型就成了一个在语言符号迷宫里打转的幽灵,它永远无法真正知道它在说什么。
这就是大语言模型最著名的“原罪”——幻觉。也就是人们常说的“一本正经地胡说八道”。
大语言模型为什么会胡说八道?
不少人以为:是因为在训练数据里面有错误的信息。但萨顿说:No!这只是表面原因。真正的根本在于它学习的方式!
大语言模型的学习,本质上就是统计学的模式匹配。它看到“马”和“骑”这两个词经常一起出现时,就学会了人可以骑马。但如果它在数据里看到了科幻小说,里面写着宇航员骑着恐龙,它也会把这个模式记下来。在大语言看来,人骑马和宇航员骑恐龙只是两个概率不同的语言模式,它没有能力去判断哪个更符合物理世界的真实情况,因为它从来没有亲身体验过这个世界。
由此引出了一个深刻的观点:究竟是“通过模仿语言”来学习世界,还是“通过与世界互动”来学习世界,这是两种完全不同的路径。
一个婴儿会亲手去摸、去摔东西,他知道东西往下掉,是他通过经验建立起来的关于重力的世界模型,这是牢不可破的。而大语言模型,它只是读到了关于重力的描述,如果有人写了篇文章说重力是假的,它可能也会信以为真。所以萨顿才会说:大语言模型根本就没有建立起真正的世界模型。它所建立的,只是一个人类会如何描述世界的模型;它所模仿的,是我们这些有世界模型的人,而不是世界本身。这两者差之毫厘,谬之千里!
论到此,主持人帕特尔开始挑战萨顿:人类小孩子不也是从模仿开始学习的吗?他模仿父母说话,模仿大人走路,这不就是一种模仿学习吗?
这个问题涉及到了一个关键——学习到底是什么?
萨顿对此直接回答:不!当然不!你仔细观察一个婴儿,在他生命最初的几个月里,他做的最多的是什么?是挥舞手脚,转动眼睛,发出各种不成调的声音,他是在模仿谁吗?没有,他是在进行一场宏大的、无目标的自我探索,他在测试自己的身体能做什么,以及这个世界会对他的行为做出什么反应,这才是学习最原始、最核心的驱动力——主动地试错和探索!萨顿甚至认为,在整个动物心理学里,根本就没有模仿学习这一基本的学习过程。
人类,就是这样学习的。
很早以前萨顿就意识到:监督学习不足以支撑人工智能或解释智能行为,而由“行为的享乐”所驱动的试错学习,才是必要的。这也是他热衷于强化学习的兴趣所在。因为那种“有人告诉你正确答案是什么”的监督学习,在自然界中几乎不存在!而人类的模仿行为以及后来的学校教育,都只是建立在这个最底层的经验学习系统之上的一层薄薄的文化装饰。
如此颠覆的观点!
在萨顿眼里,大语言模型所依赖的监督学习和模仿学习,不过是一种非自然的学习方式。这种建立在非自然基础上的智能,其根基或许根本就没有人们想象的这么牢固、坚实。
不过之前人们普遍认为:萨顿的“惨痛教训”并非是反对大语言模型,恰恰相反,是在为其“背书”。不是吗?AI的最终胜利永远是通用可拓展的方法,诸如利用海量算力和数据,而不是依赖人类知识的小技巧。大语言模型正是通过放弃过去那种需要语言学家、逻辑学家去设计规则的符号AI,转用暴力计算来征服智能。
人们可能太过迷恋大语言模型的规模、算力和数据了,却恰恰忘记了智能最关键的特征是目标的自我导向性(self-directedness)。真正的智能不是被动吸收世界的统计模式,而是主动地去探索世界、选择行动、更新信念。这是一种动态的存在方式。
所以萨顿说:你们都错解了我的意思,我所说的“惨痛教训”的真正含义是:任何依赖人类智慧作为主要输入方法,最终都会碰到天花板,而真正可以拓展的,是那些可以从经验中直接学习的方法。
当大语言模型是倚靠整个互联网(其背后是人类数千年来知识的总和)进行训练时,这种依赖注定是走不远的。萨顿预言:大语言模型很快就会达到它扩展的极限,也就是互联网上所有高质量数据的极限。到那时它的进步就会停滞。
而真正可以无限扩展、无限学习的,是在经验中的不断试错与不断预测,这就是萨顿所强调的强化学习。
想当年“深思公司”(Deep Mind)的AlphaGo作为AI的代表,曾一举击败了世界围棋第一人李世石,令全球哗然。但可能很少有人知道AlphaGo家族内部的进化是如何完成的。而作为AlphaGo背后核心思想的源头之一,萨顿的理论完全被AlphaGo的进化过程完美印证。
我们不妨看看AlphaGo是怎样做到的。
最早的AlphaGo采取了两条腿走路的方针:1)先学习海量的人类顶尖棋手的棋谱,即通过模仿学习先把自己变成一个具有顶级水平的人类棋手模仿者;2)开始使用强化学习的方法进行左右互搏,即:自己跟自己下棋。在模仿的基础上寻找超越人类的下法,这就是打败李世石的版本。
但“深思”的科学家们觉得还不够纯粹。学习人类棋谱会不会反倒限制了AI的想象力呢?于是Alpha Zero诞生了。Alpha Zero的革命性在于:它完全不学习人类的任何棋谱!你只要告诉它围棋的规则,然后让它自己跟自己下棋,从一个完全随机、胡乱落子的婴儿开始,结果,只经过三天的自我对弈,从零开始的Alpha Zero竟以100:0的傲人战绩碾压了曾经击败李世石的前辈版本。更有趣的是,它下出的棋完全摆脱了人类几千年围棋历史的定式思维框架,充满了天马行空的想象力。难怪一众职业高手惊呼:这是来自于外星的棋谱!
AlphaGo的例子告诉人们:人类的知识既是AI的助推器,也可能是它的天花板。通过模仿人类,AI可以迅速达到人类的水平,但是要超越人类,抵达一个全新的智能境界,它必须摆脱人类知识的束缚,从最基本的原则出发,通过与环境直接互动,去探索智能的无限可能性。
如此看来,大语言模型就像初代的AlphaGo,它把模拟人类这件事做到了极致,所以它看起来无所不知,非常强大,但它的所有知识都局限在人类已经创造出来的巨大棋谱里,也就是整个互联网。而萨顿想要的是能像Alpha Zero一样的AI,它不依赖于过去的数据,而是能够面向未来,通过持续的、自主的经验学习,去解决那些互联网上根本就没有答案的新问题,去创造出真正的、前所未有的新知识。
如此,针对AI未来的两条道路之争,最本质的区别在于:一个是知识的消费者,另一个是知识的创造者。
不过,人类真的可以创造“知识”吗?
批评归批评,但如果反问萨顿:你心目中的那个理想,也就是能够创造知识的AGI,到底应该是个什么样子?
对此萨顿的回答是:一个真正的智能体必须具有四个核心部分:
1)策略(policy),就是在当前情况下我应该做什么?这是它的行动指南;
2)价值函数(value function),它是对未来长期奖励的预测。比如说下棋时吃掉对方一个子,虽然不是最终胜利,但我的价值函数会告诉我:赢棋的概率变大了。如此一来,就把一个长远的目标分成了一系列短期的、可衡量的阶段性反馈;
3)感知(perception),也就是如何理解自己所处的状态与环境;
4)世界的状态转移模型(transition model of the world),这是最关键的、关于因果的知识。它甚至是一种信念。这个模型不是靠别人怎么说来建立的,而是靠自己一次次试错,从经验中总结出来的,比如我推了一下杯子,杯子就会掉下去摔碎,等等。
让我们再次回到时间。时间是一切智能的框架。理解时间就是理解因果。没有时间就没有“行动导致结果”的概念。强化学习中的价值函数(value function)就是在时间维度上学习的。它告诉智能体:当前的行为会对未来造成怎样的影响。这是一种贯穿时间的理解方式。大语言模型没有这个能力,它在每一步都“忘记”过去,也不真正规划未来。从这个意义上,“死路”之说不仅仅针对技术路线,而已经上升到了哲学层面。
在这个的框架里,智能体是一个主动的、面向未来的学习者。它有明确的目标,通过价值函数体现;它通过与世界的互动来建立自己关于因果的理解,即世界模型;然后不断地优化自己的行为和策略。
这套系统与大语言模型那种被动的、基于历史数据的下一个词的预测系统,在哲学层面上已经是两个完全不同的“物种”了。
然而,萨顿所描绘的蓝图尽管美好,但也面临着巨大挑战,其中最大的难点就是“泛化和迁移”。
什么意思?
意思就是我们怎么能够让AI在一个任务中学到知识,并能有效地迁移到下一个任务中。比如:一个学会了玩围棋的AI,是否能把下棋的智慧迁移到商业决策或者科学研究上?
萨顿坦承,目前我们还没有找到很好的自动化方法来解决这个问题。
同样困难的还有:如何在深度学习模型中避免“灾难性遗忘”?也就是说,你教了它一个新东西,它可能就把以前学过的旧东西给忘光了。这表明它的知识体系仍然非常脆弱,无法融会贯通。而大语言模型反倒擅长此道,它能够同时处理语言、代码、数学,展现出惊人的泛化能力。你让它解决一个它从来没有见过的奥数题,它能够通过组合不同的数学概念来找到答案。
所以这场争论的焦点在于:大语言模型似乎已经展现出通用的潜力,但底层逻辑可能是脆弱、不可靠的;而萨顿的强化学习路线,底层逻辑固然坚实,但在如何实现通用和泛化上,还有很长的路要走。
两条道路,谁的路更稳?谁能走得更远?结论依然是开放的。
那么,什么是通用智能呢?按照萨顿的观点:通用智能的核心是由目标导向的学习能力。它必须满足三个条件:1)能够在复杂环境中自主行动;2)能够根据行动结果调整行为策略;3)能够长期积累经验、形成对世界的理解。
三个中但凡缺失一个,所得到的就不过是一个非常擅长特定任务的系统,而非通用智能。
至于大语言模型在AI发展史上的价值,萨顿将其归入有用的工具一类,它可以辅助人类完成特定任务,比如文本生成、语言理解或数据整理。但它无法通向通用智能。
谈到未来10到20年AI 研究的重点,萨顿认为:重点是与环境互动、建立可学习的世界模型以及强化长期目标导向的行为。
说到大语言模型在社会中的表现,萨顿认为它具有两面性:一方面它可以自动化一些重复性工作、进行辅助教育、生成文本内容,从而为人们带来便利;但另一方面人们也容易被它表面的“智能”所迷惑,产生“AI 有意识”的误导。而这种误导势必导致错误的信任,也就是说:人,有可能让AI决策重要事务,却忽视了其本质只是统计模式匹配的局限。
有人担心这种误导可能引发伦理问题,例如在医疗、法律或安全等领域。萨顿对此十分认同:“这是一个现实问题,大语言模型有可能生成貌似合理、但却是错误的答案,这在关键领域会带来严重后果。人们必须意识到:它没有理解力!也没有责任感!
回到本文最初的“泡沫”之说,针对当今AI热潮带来的投资和研究方向问题,萨顿坦言:“有些热潮过于偏重短期收益和技术炫酷,却忽略了真正智能的本质,这是机会,也是风险。尽管人们可在资金和公众兴趣的推动下迅速发展其技术,但如果方向错了,最终得到的也许只是制造了一种表面的繁荣,谈不上真正的科学进步。
在访谈的最后,萨顿提出了“AI继承”的问题。他用清晰的逻辑和几乎无可辩驳的论证,试图来描绘AI留给人类的终局。
首先,人类社会没有统一的意志。各个国家、组织、个人之间充满了竞争和冲突。我们永远不可能达成这样一个全球共识:我们停止发展更强的AI吧。这就如同今天的核武器。竞争,永远会驱使技术向前;
其次,我们最终会弄明白智能是怎么工作的,科学的进步不可阻挡,人类迟早会破解智能的密码(萨顿有点过于乐观了吧);
第三,智能的发展不会止步于人类水平。一旦我们“创造”出与人相当的AGI,我们就能够利用它来创造比它更强的智能。这个过程会加速,最终通向远远超越人类的超级智能;
最后,从长远看,最智能的东西最终总会获得最多的资源和权力,这也是进化与历史的基本法则。
如果说之前讨论的还只是技术路线与哲学之争,那么话到于此,就直接关乎到信仰了。
萨顿由此得出结论:人类作为地球上最智能的东西,将不可避免地把这个位置继承给一个更智能的存在。无论是纯粹的AI,还是被AI增强了的新人类!
这结论听起来真的有点恐怖,令人不安,如同科幻片里的末日预言。
然而,萨顿的视角却异常冷静,略带乐观。他邀请我们把视角从“以人类为中心”提升到“以宇宙为中心”的高度。他认为:人类、动物、植物,乃至我们所有的生命,都属于宇宙复制者的时代。我们通过DNA的复制来繁衍,但我们其实并不完全理解我们自身的智能是如何工作的?我们能够生孩子,但我们甚至设计不出一个大脑。而现在,我们正在亲手开启宇宙的一个全新阶段——设计者时代。我们正在设计AI,而这些AI本身就是智能。它们未来也能够自己去设计更强的AI。而在这个时代,智能将不再通过缓慢的、充满偶然性的生物进化来传承,而是通过快速的、有目的的工程设计来迭代。这是宇宙从尘埃到恒星、从生命到智能体之后,又一次伟大的跃迁。我们不应该把它看成是人类的终结,而是把它看成我们作为孕育者最伟大的成就。
“不以人类为中心”,不依靠人类有限的知识,这听起来正是信仰的起点。只不过,人类应该本着什么样的标准去设计?才能确保这个世界是善的?人类的这次跃迁,伟大也好,渺小也罢,究竟靠什么来驱动?人类真的能孕育出超越人类自身的、美好的未来吗?
如果说,萨顿的分析有着技术层面的冷静、哲学层面的宏大,同时还带有一丝人类社会层面的冷酷的话,那么在这里有意将其上升到对信仰的叩问!
最后,主持人提出了一个非常现实的挑战:就算是我们人类的后代,我们也会担心。毕竟纳粹也是人类!如果下一代人类都是纳粹,难道我们不应该感到恐惧吗?
我们当然希望给我们的孩子——无论是人类还是AI——安稳的、亲社会的、正直的价值观,这才是问题的核心!我们真正担心的,不是出现比我们更强的智能,而是这更强智能将拥有什么样的价值观?它的目标会是什么?而这,恰恰又回到了最初争论的起点——目标。
而目标,真的是一个我们可以去设计、去塑造的东西吗?我们又该依据什么来定义一个对人类有益的、正直的、安全的奖励呢?况且,我对能否出现全面超出人类的智能深表怀疑。
如果做不到,我们还愿意回到大语言模型路线吗?当模仿人类在互联网上留下的所有语言时,人们又该如何面对互联网中那些充满偏见、谎言、仇恨与智慧的大染缸呢?删帖吗?删什么呢?谁说了算?
显而易见,一个以模仿大染缸为目的的智能,其价值观一定是混乱的、不可预测的,甚至是危险的。
所以,这场技术路线之争,到头来终归变成了一场价值观之争:我们是想要一个我们自己能够尝试去定义其善的AI?还是一个只能够被动反映我们人性中所有的善与恶的AI?
萨顿没有给出答案。他反倒留给人们一个灵魂拷问:
“这些未来的超级智能,我们是把它看作我们自己的后代、因而为它感到骄傲呢?还是把它们看作我们的替代者、对其感到恐惧呢?”
看起来好像这是一个我们可以做出的选择。但同时,这又是一个关乎我们物种存亡的本能反应与挑战,既然如此,这又怎能是一个选择呢?该是一个没有选择的选择才是!
这是萨顿留给所有人最深刻的思考。