张晋中

注册日期:2024-12-16
访问总量:47322次

menu网络日志正文menu

世界模型的本质:从康德、胡塞尔到自动驾驶的哲学与工程之路


发表时间:+-

你正开着一个看不见的内部世界

你坐在车里,手握方向盘,脚下在油门和刹车之间轻轻切换。前方的道路在午后的光线里延伸,车流像一条缓慢流动的河,红灯的数字在倒数,旁边那辆卡车似乎有些犹豫。你并不会觉得自己正在做什么复杂的事情,只是自然地开着车,甚至还能和同伴聊几句无关紧要的话。

可如果把时间放慢,你会发现事情并没有那么简单。在你抬头看路、扫一眼仪表盘、再瞥一眼后视镜的短短几秒钟里,你的大脑已经完成了无数次预测。你在估计前车的速度,在判断它是否会突然刹车,在揣测那辆卡车下一秒会不会切入你的车道。你甚至在心里默默计算红灯变绿的时间,而这一切发生得如此自然,以至于你根本意识不到自己正在运行一个庞大而精密的内部模型。这个模型,在今天的技术语境里,有一个名字——世界模型

你以为自己在“看世界”,其实你是在用世界模型预测世界。

这种说法听起来有些反直觉。我们习惯把感知理解为一种被动的过程,好像世界在那里,我们只是把它“接收”进来。眼睛像摄像头,耳朵像麦克风,大脑像一块硬盘,把外界的信息原封不动地存下来。但越来越多的神经科学、心理学和认知科学研究表明,事实可能恰恰相反。我们并不是在接收一个完整的世界,而是在不断生成一个对世界的猜测,然后用感官输入去修正这个猜测。你看到的,并不是世界本身,而是一个被大脑实时构造出来的版本。

这就像你在黑暗中摸索一个物体的形状。你伸出手,心里先有一个大致的猜测——可能是圆的,可能是方的。当你触碰到它的时候,手指传来的感觉要么证实你的猜测,要么让你修正它。你从来不会直接“知道”那是什么,你只是在不断地猜测、触碰、调整、再猜测。日常的感知也是如此,只是速度快到让你误以为一切都是直接的。那个在你大脑中不断被修正的猜测,就是你的世界模型。

先验结构:世界在你“看见”之前就已经被组织好了

这个想法并不是现代科学的发明。几百年前,就有人已经在思考类似的问题,只是他们没有神经科学和计算机,只能用思辨去触及这些边界。

康德是其中走得最远的人之一。他在十八世纪就指出,人类对世界的经验并不是对“物自身”的直接接触,而是世界在某种先天结构中的呈现。你之所以能看到远近、前后、顺序,是因为你的认知系统本身就带着这些结构。空间、时间、因果,并不是从经验中慢慢抽取出来的,它们更像是一种脚手架,让经验得以被组织起来。没有这个脚手架,经验就是一团无法分辨的混沌。这个脚手架,是“先天形式”,而在今天的语言里,它可以被看作世界模型的底层架构。

你无法跳出这个结构,就像鱼无法跳出水去理解水的存在。你出生时并不知道什么是空间,但你看到的世界已经是有空间的。你没有学过什么是因果,但你会自然地认为“这个发生,是因为那个发生”。这些并不是你后天学会的结论,而是你认识世界的前提条件。康德把它们叫做“先验形式”。放在今天的语境里,这些先验形式就可以被看作一个世界模型的底层架构——那些你不需要学习就已经拥有的、关于世界如何运作的基本假设。

想象一个婴儿第一次睁开眼睛。他不会看到“一团光线在视网膜上投射出倒像”这样的事,他直接就看到了一张脸,一个轮廓,一个在空间中存在的东西。这本身就是一个奇迹:大脑已经把毫无结构的光信号,翻译成了有远近、有形状、有边界、有颜色的世界。这个翻译过程不是后天学会的,而是神经系统天生就具备的能力。它就像一套预装的软件,在你第一次开机的时候就已经在那里了。这个预装的软件,就是一个初始化的世界模型。

康德告诉我们,世界必须被放在某种结构之中才能被你“认识”。你没有“先看到世界,再后来才有结构”,你是在结构中“看见”世界。你看到的,不是“世界本身”,而是“在先验结构中的世界”。

意向性:意识从来不是空白,它总是指向某个对象

如果说康德告诉我们“世界必须被放在什么样的结构里”,那么后来的一位哲学家胡塞尔则提醒我们另一个重要的事实:意识从来不是空白的。你不会只是“意识”,你总是“意识到某物”。你的注意、你的思考、你的感知,永远带着方向。你在开车时不会平均地关注整个世界,你的视线像一束光,总是落在前车、红灯、行人、路口,而不是远处的广告牌或天上的云。你可以试试看,当你刻意去关注那些无关紧要的细节时,你会发现你几乎无法同时安全地驾驶。

这种“指向性”有一个专门的术语,叫做意向性。它不是说你有什么意图或目的,而是说意识的结构本身就是有方向的。就像磁针总是指向北方一样,意识总是指向某个对象。你无法拥有一个“没有对象”的意识,就像你无法拥有一个“不指向任何东西”的视线。即使你在发呆,你的意识也指向某种模糊的感受或飘忽的念头。它永远在指向什么,永远在关注什么。在一个世界模型里,这种意向性对应着注意力机制——模型不会平等地处理所有输入,它总是把计算资源集中在某些更重要的地方。

把康德的先验结构和胡塞尔的意向性放在一起,你会得到一个相当完整的图景:我们并不是被动地接收世界,而是在一个带有固定结构、同时又具有方向性的系统中,与世界持续互动。结构决定了我们能看到什么样的世界,方向决定了我们此刻在看世界的哪个部分。这个系统,就是一个正在运行中的世界模型。

胡塞尔让我们意识到,意识不是“空”,而是“有方向”。你不是在“看一个世界”,你是在“看向世界的某个部分”。

预测加工:世界在误差最小化中被不断生成

你把“先验结构”和“意向性”放在一起,解释了“世界必须被怎样组织”“世界必须被怎样指向”。但你还不知道这个系统具体是如何运转的。结构是如何被使用的?方向是如何被执行的?大脑到底在做什么?

直到现代神经科学提出“预测加工”这个框架,事情才变得可以计算、可以写成算法。

预测加工的思想其实很朴素。大脑并不是在等待外界输入然后被动反应,而是在主动生成对世界的预测。感官输入的作用不是提供完整信息,而是用来纠正预测。大脑先假设“世界大概是这样的”,然后从外界获取一点信息,再去比较“实际”和“预测”之间的差距。如果差距很小,就说明预测还不错,当前的模型可以继续使用。如果差距很大,就说明需要调整模型,让下一次的预测更准一些。

这个过程每时每刻都在发生。你走路的时候,大脑在预测下一步脚会踩到哪里,地面的硬度是多少。你接住一个飞来的球,大脑在预测球的轨迹,你的手移动过去,并不是在追踪球的位置,而是在奔向它将要出现的位置。你听一个人说话,大脑在预测他接下来会说什么词,所以你才能在对方口齿不清的时候依然听懂他的意思。所有这些预测,都依赖于你内心那个不断更新的世界模型。

大脑并不是在“接收世界”,而是在用世界模型不断修正自己对世界的预测。

当这一切被写成工程语言时,它变得异常清晰。预测,是模型的输出。输入,是传感器传来的数据。预测误差,是两者之间的差值。学习,是让这个差值变小的过程。整个系统的运作,本质上就是一个不断优化的过程,一个让内部世界模型越来越贴近外部世界的过程。

在人类的“认识机制”和 AI 的“学习机制”之间,预测加工搭起了一座桥:我们在两个领域里,都通过“预测-误差-更新”这一流程,来进行对世界的认知与建模。

世界模型:从哲学概念到可运行的工程构件

就在这一刻,一个重要的转变发生了。康德和胡塞尔提出的那些问题,本来是纯粹的哲学问题,是关于认识、意识和世界关系的根本性问题。它们被讨论了数百年,产生了无数流派和观点,却从未有过一个公认的答案。但一旦你接受了预测加工的框架,这些问题就可以被转写成工程问题。你不再需要回答“先验结构从哪里来”,你只需要在模型中引入合适的归纳偏置——比如卷积层假设空间局部性,循环层假设时间连续性。你不再需要解释“意向性是什么”,你只需要设计一个注意力机制,让系统能够动态地聚焦于输入的某些部分。你不再需要讨论“主体如何接触世界”,你只需要让模型在预测误差的驱动下不断更新自己的参数。

哲学问题没有被解决,它们在某种意义上被形式化和转写成了另一种语言。而世界模型,就是这种转写之后的结果。

这正是近年来“世界模型”这个概念真正有意思的地方。在大语言模型之后,人们开始越来越多地谈论世界模型。如果说大语言模型是在语言空间中进行模式匹配,那么世界模型则试图捕捉更一般的结构——空间、时间、物体、因果关系,以及这些结构如何在时间中持续演化。大语言模型知道“苹果”后面经常出现“是红色的”,但它并不真正理解苹果从树上掉下来会怎样。世界模型试图去理解的就是这种“物理的常识”。

你可以把世界模型理解为一个系统,它并不只是生成文本或识别图像,而是试图在内部构建一个关于“世界如何运作”的表示。它不仅要知道“人们通常怎么说”,还要知道“东西通常怎么动”。一个真正的世界模型应该能够回答这样的问题:如果我把这个杯子推到桌子边缘,接下来会发生什么?如果我松开手,这个球会往哪个方向落?如果前面的车突然刹车,我离它还有多远?

这些问题听起来简单,但对于一个纯粹从语言或图像中学习的系统来说,它们并不简单。因为这些问题涉及的不是统计规律,而是物理规律,是空间、时间和因果关系的深层结构。一个真正的世界模型,应该能够在内部模拟这些过程,而不是仅仅记住一些常见的模式。这就是为什么所有做自动驾驶、机器人和具身智能的实验室,都在拼命构建更好的世界模型。

世界模型在自动驾驶中长成什么样子

在自动驾驶中,这一点表现得尤其直观。当系统判断一辆卡车是否会切入你的车道时,它并不是在调用某条固定的规则——“卡车变道需要打转向灯”之类,而是在内部运行一个动态的世界模型。这个模型表示空间关系,追踪物体运动,关注关键目标,并对未来几秒钟的轨迹做出预测。它的结构中包含某种“先验”——比如物体不会凭空消失,运动是连续的,速度不会瞬间突变。它的计算中体现某种“意向性”——注意力被分配给了那些最可能影响自身安全的物体。它的优化目标则是不断减少预测误差,让内部模型的预测尽可能贴近传感器传来的真实数据。

在结构上,哲学中的那些抽象概念,在这里变成了可以运行的组件。先验结构变成了网络架构中的归纳偏置,意向性变成了注意力机制,预测加工变成了损失函数与反向传播。一个神经网络的一次前向计算,就像是一段被压缩过的“认识论代码”。它在一瞬间完成了康德和胡塞尔花了几十年才描述清楚的那些过程。而所有这些组件组合在一起,就是我们今天所说的世界模型。

这并不意味着哲学已经被取代。相反,它意味着哲学的某些问题被搬到了一个不同的领域。过去,人们试图通过思辨去理解“人是如何认识世界的”,写下厚厚的著作,提出一个个概念和范畴。而现在,人们开始通过构建世界模型,让机器表现出类似的认知能力。在这个过程中,我们不再执着于回答那些终极问题——比如“物自身是否存在”或者“意识如何产生”——而是先让系统跑起来,再在运行中观察它的行为和性质。这是一种完全不同的态度。哲学在追问“为什么”,工程在追问“怎么做”。

世界模型的哲学位置:从洞穴到“可计算的现实”

你坐在车里,一脚油门,一脚刹车。你觉得自己在看路,在判断,在决策。但也许更准确的说法是:你在不断运行自己的世界模型,然后用感官输入去修正这个模型。你的大脑在做这件事,你的车里的计算系统也在做这件事。你们在做的事情,在结构上是相似的:都在用内部模型去模拟外部世界,都在把注意力分配给最相关的信息,都在不断缩小预测和现实之间的差距。

这让人想起一个古老的哲学比喻。柏拉图说,我们像是被锁在洞穴里的囚徒,只能看到墙上的影子,却从未见过真正的光源。康德说,我们永远无法直接接触“物自身”,只能接触到经过先验形式加工过的“现象”。而今天,当我们谈论世界模型的时候,我们其实在说另一件事:也许重要的不是影子还是实物,而是我们是否拥有一个足够好的模型,让我们在这个世界中安全地、有效地、有意义地行动。

在这一点上,哲学和工程走到了一起。哲学家通过思辨告诉我们,我们永远无法直接触及世界本身。工程师通过实践告诉我们,也许我们并不需要。一个足够好的世界模型,一个在不断校准中越来越贴近外部世界的内部表征,可能已经足够了。我们不需要知道“真正的卡车”是什么,我们只需要准确预测那辆卡车下一秒会去哪里。

哲学并没有结束,它只是换了一种形式继续存在。当我们写下一个模型结构,定义一个损失函数,设计一个注意力机制的时候,我们也许并没有意识到,我们正在以另一种方式回应那些几百年前提出的问题。只是这一次,我们不再试图用语言去回答,而是用世界模型去逼近。我们不再争论“先验是否可能”,而是直接设计归纳偏置。我们不再辨析“意向性的本质”,而是直接实现注意力机制。我们把抽象的概念变成了具体的代码,把思辨的命题变成了可运行的流程。

也许有一天,我们会重新回到那些问题:先验究竟从何而来,意向性是否可以被完全还原,意识与世界之间到底是什么关系。这些问题不会消失,它们是人类思想永远的地平线。但在此之前,工程已经先走了一步。自动驾驶汽车在路上行驶,机器人在仓库里搬运货物,游戏 AI 在虚拟世界里与玩家互动。它们都在运行某种形式的世界模型,都在用预测去弥补感知的不足,都在用误差来驱动学习。

我们不再只是思考世界,我们开始构造世界的模型。我们不再只是讨论认知,我们开始实现某种可运行的认知过程。这是一个微妙但深刻的转变。它意味着,认识论不再仅仅是哲学的一个分支,它同时成为了计算机科学和神经工程的一个研究领域。而世界模型,就是这个交叉地带上最核心的概念。

在这个意义上,哲学并没有结束。它只是,变成了工程。而工程本身,又反过来向我们提出了新的哲学问题:当一个系统的世界模型足够好,好到它可以在复杂环境中像人一样行动,我们是否应该认为它“理解”了这个世界?这个问题,康德没有问过,胡塞尔也没有问过。但现在,它摆在了每一个从事人工智能研究的人面前。

你坐在车里,看着前方的道路延伸向远方。你并不知道这辆车的自动驾驶系统内部正在运行着怎样的世界模型,就像你并不完全清楚自己的大脑中正在发生什么。但你知道一件事:无论是你还是它,都在努力让那个内部的模型更贴近外部真实的世界。误差被不断缩小,预测被不断校准,世界被不断生成。

而我们,从未直接见过这个世界。我们只是带着自己的世界模型,在黑暗中摸索,然后小心翼翼地、一次又一次地,让自己更接近那个永远无法真正抵达真实。


浏览(73)
thumb_up(0)
评论(0)
  • 当前共有0条评论