世界模型的本质：从康德、胡塞尔到自动驾驶的哲学与工程之路

发表时间：2026-04-04 15:36

你正开着一个看不见的内部世界

你坐在车里，手握方向盘，脚下在油门和刹车之间轻轻切换。前方的道路在午后的光线里延伸，车流像一条缓慢流动的河，红灯的数字在倒数，旁边那辆卡车似乎有些犹豫。你并不会觉得自己正在做什么复杂的事情，只是自然地开着车，甚至还能和同伴聊几句无关紧要的话。

可如果把时间放慢，你会发现事情并没有那么简单。在你抬头看路、扫一眼仪表盘、再瞥一眼后视镜的短短几秒钟里，你的大脑已经完成了无数次预测。你在估计前车的速度，在判断它是否会突然刹车，在揣测那辆卡车下一秒会不会切入你的车道。你甚至在心里默默计算红灯变绿的时间，而这一切发生得如此自然，以至于你根本意识不到自己正在运行一个庞大而精密的内部模型。这个模型，在今天的技术语境里，有一个名字——世界模型。

你以为自己在“看世界”，其实你是在用世界模型预测世界。

这种说法听起来有些反直觉。我们习惯把感知理解为一种被动的过程，好像世界在那里，我们只是把它“接收”进来。眼睛像摄像头，耳朵像麦克风，大脑像一块硬盘，把外界的信息原封不动地存下来。但越来越多的神经科学、心理学和认知科学研究表明，事实可能恰恰相反。我们并不是在接收一个完整的世界，而是在不断生成一个对世界的猜测，然后用感官输入去修正这个猜测。你看到的，并不是世界本身，而是一个被大脑实时构造出来的版本。

这就像你在黑暗中摸索一个物体的形状。你伸出手，心里先有一个大致的猜测——可能是圆的，可能是方的。当你触碰到它的时候，手指传来的感觉要么证实你的猜测，要么让你修正它。你从来不会直接“知道”那是什么，你只是在不断地猜测、触碰、调整、再猜测。日常的感知也是如此，只是速度快到让你误以为一切都是直接的。那个在你大脑中不断被修正的猜测，就是你的世界模型。

先验结构：世界在你“看见”之前就已经被组织好了

这个想法并不是现代科学的发明。几百年前，就有人已经在思考类似的问题，只是他们没有神经科学和计算机，只能用思辨去触及这些边界。

康德是其中走得最远的人之一。他在十八世纪就指出，人类对世界的经验并不是对“物自身”的直接接触，而是世界在某种先天结构中的呈现。你之所以能看到远近、前后、顺序，是因为你的认知系统本身就带着这些结构。空间、时间、因果，并不是从经验中慢慢抽取出来的，它们更像是一种脚手架，让经验得以被组织起来。没有这个脚手架，经验就是一团无法分辨的混沌。这个脚手架，是“先天形式”，而在今天的语言里，它可以被看作世界模型的底层架构。

你无法跳出这个结构，就像鱼无法跳出水去理解水的存在。你出生时并不知道什么是空间，但你看到的世界已经是有空间的。你没有学过什么是因果，但你会自然地认为“这个发生，是因为那个发生”。这些并不是你后天学会的结论，而是你认识世界的前提条件。康德把它们叫做“先验形式”。放在今天的语境里，这些先验形式就可以被看作一个世界模型的底层架构——那些你不需要学习就已经拥有的、关于世界如何运作的基本假设。

想象一个婴儿第一次睁开眼睛。他不会看到“一团光线在视网膜上投射出倒像”这样的事，他直接就看到了一张脸，一个轮廓，一个在空间中存在的东西。这本身就是一个奇迹：大脑已经把毫无结构的光信号，翻译成了有远近、有形状、有边界、有颜色的世界。这个翻译过程不是后天学会的，而是神经系统天生就具备的能力。它就像一套预装的软件，在你第一次开机的时候就已经在那里了。这个预装的软件，就是一个初始化的世界模型。

康德告诉我们，世界必须被放在某种结构之中才能被你“认识”。你没有“先看到世界，再后来才有结构”，你是在结构中“看见”世界。你看到的，不是“世界本身”，而是“在先验结构中的世界”。

意向性：意识从来不是空白，它总是指向某个对象

如果说康德告诉我们“世界必须被放在什么样的结构里”，那么后来的一位哲学家胡塞尔则提醒我们另一个重要的事实：意识从来不是空白的。你不会只是“意识”，你总是“意识到某物”。你的注意、你的思考、你的感知，永远带着方向。你在开车时不会平均地关注整个世界，你的视线像一束光，总是落在前车、红灯、行人、路口，而不是远处的广告牌或天上的云。你可以试试看，当你刻意去关注那些无关紧要的细节时，你会发现你几乎无法同时安全地驾驶。

这种“指向性”有一个专门的术语，叫做意向性。它不是说你有什么意图或目的，而是说意识的结构本身就是有方向的。就像磁针总是指向北方一样，意识总是指向某个对象。你无法拥有一个“没有对象”的意识，就像你无法拥有一个“不指向任何东西”的视线。即使你在发呆，你的意识也指向某种模糊的感受或飘忽的念头。它永远在指向什么，永远在关注什么。在一个世界模型里，这种意向性对应着注意力机制——模型不会平等地处理所有输入，它总是把计算资源集中在某些更重要的地方。

把康德的先验结构和胡塞尔的意向性放在一起，你会得到一个相当完整的图景：我们并不是被动地接收世界，而是在一个带有固定结构、同时又具有方向性的系统中，与世界持续互动。结构决定了我们能看到什么样的世界，方向决定了我们此刻在看世界的哪个部分。这个系统，就是一个正在运行中的世界模型。

胡塞尔让我们意识到，意识不是“空”，而是“有方向”。你不是在“看一个世界”，你是在“看向世界的某个部分”。

预测加工：世界在误差最小化中被不断生成

你把“先验结构”和“意向性”放在一起，解释了“世界必须被怎样组织”和“世界必须被怎样指向”。但你还不知道这个系统具体是如何运转的。结构是如何被使用的？方向是如何被执行的？大脑到底在做什么？

直到现代神经科学提出“预测加工”这个框架，事情才变得可以计算、可以写成算法。

预测加工的思想其实很朴素。大脑并不是在等待外界输入然后被动反应，而是在主动生成对世界的预测。感官输入的作用不是提供完整信息，而是用来纠正预测。大脑先假设“世界大概是这样的”，然后从外界获取一点信息，再去比较“实际”和“预测”之间的差距。如果差距很小，就说明预测还不错，当前的模型可以继续使用。如果差距很大，就说明需要调整模型，让下一次的预测更准一些。

这个过程每时每刻都在发生。你走路的时候，大脑在预测下一步脚会踩到哪里，地面的硬度是多少。你接住一个飞来的球，大脑在预测球的轨迹，你的手移动过去，并不是在追踪球的位置，而是在奔向它将要出现的位置。你听一个人说话，大脑在预测他接下来会说什么词，所以你才能在对方口齿不清的时候依然听懂他的意思。所有这些预测，都依赖于你内心那个不断更新的世界模型。

大脑并不是在“接收世界”，而是在用世界模型不断修正自己对世界的预测。

当这一切被写成工程语言时，它变得异常清晰。预测，是模型的输出。输入，是传感器传来的数据。预测误差，是两者之间的差值。学习，是让这个差值变小的过程。整个系统的运作，本质上就是一个不断优化的过程，一个让内部世界模型越来越贴近外部世界的过程。

在人类的“认识机制”和 AI 的“学习机制”之间，预测加工搭起了一座桥：我们在两个领域里，都通过“预测-误差-更新”这一流程，来进行对世界的认知与建模。

世界模型：从哲学概念到可运行的工程构件

就在这一刻，一个重要的转变发生了。康德和胡塞尔提出的那些问题，本来是纯粹的哲学问题，是关于认识、意识和世界关系的根本性问题。它们被讨论了数百年，产生了无数流派和观点，却从未有过一个公认的答案。但一旦你接受了预测加工的框架，这些问题就可以被转写成工程问题。你不再需要回答“先验结构从哪里来”，你只需要在模型中引入合适的归纳偏置——比如卷积层假设空间局部性，循环层假设时间连续性。你不再需要解释“意向性是什么”，你只需要设计一个注意力机制，让系统能够动态地聚焦于输入的某些部分。你不再需要讨论“主体如何接触世界”，你只需要让模型在预测误差的驱动下不断更新自己的参数。

哲学问题没有被解决，它们在某种意义上被形式化和转写成了另一种语言。而世界模型，就是这种转写之后的结果。

这正是近年来“世界模型”这个概念真正有意思的地方。在大语言模型之后，人们开始越来越多地谈论世界模型。如果说大语言模型是在语言空间中进行模式匹配，那么世界模型则试图捕捉更一般的结构——空间、时间、物体、因果关系，以及这些结构如何在时间中持续演化。大语言模型知道“苹果”后面经常出现“是红色的”，但它并不真正理解苹果从树上掉下来会怎样。世界模型试图去理解的就是这种“物理的常识”。

你可以把世界模型理解为一个系统，它并不只是生成文本或识别图像，而是试图在内部构建一个关于“世界如何运作”的表示。它不仅要知道“人们通常怎么说”，还要知道“东西通常怎么动”。一个真正的世界模型应该能够回答这样的问题：如果我把这个杯子推到桌子边缘，接下来会发生什么？如果我松开手，这个球会往哪个方向落？如果前面的车突然刹车，我离它还有多远？

这些问题听起来简单，但对于一个纯粹从语言或图像中学习的系统来说，它们并不简单。因为这些问题涉及的不是统计规律，而是物理规律，是空间、时间和因果关系的深层结构。一个真正的世界模型，应该能够在内部模拟这些过程，而不是仅仅记住一些常见的模式。这就是为什么所有做自动驾驶、机器人和具身智能的实验室，都在拼命构建更好的世界模型。

世界模型在自动驾驶中长成什么样子

在自动驾驶中，这一点表现得尤其直观。当系统判断一辆卡车是否会切入你的车道时，它并不是在调用某条固定的规则——“卡车变道需要打转向灯”之类，而是在内部运行一个动态的世界模型。这个模型表示空间关系，追踪物体运动，关注关键目标，并对未来几秒钟的轨迹做出预测。它的结构中包含某种“先验”——比如物体不会凭空消失，运动是连续的，速度不会瞬间突变。它的计算中体现某种“意向性”——注意力被分配给了那些最可能影响自身安全的物体。它的优化目标则是不断减少预测误差，让内部模型的预测尽可能贴近传感器传来的真实数据。

在结构上，哲学中的那些抽象概念，在这里变成了可以运行的组件。先验结构变成了网络架构中的归纳偏置，意向性变成了注意力机制，预测加工变成了损失函数与反向传播。一个神经网络的一次前向计算，就像是一段被压缩过的“认识论代码”。它在一瞬间完成了康德和胡塞尔花了几十年才描述清楚的那些过程。而所有这些组件组合在一起，就是我们今天所说的世界模型。

这并不意味着哲学已经被取代。相反，它意味着哲学的某些问题被搬到了一个不同的领域。过去，人们试图通过思辨去理解“人是如何认识世界的”，写下厚厚的著作，提出一个个概念和范畴。而现在，人们开始通过构建世界模型，让机器表现出类似的认知能力。在这个过程中，我们不再执着于回答那些终极问题——比如“物自身是否存在”或者“意识如何产生”——而是先让系统跑起来，再在运行中观察它的行为和性质。这是一种完全不同的态度。哲学在追问“为什么”，工程在追问“怎么做”。

世界模型的哲学位置：从洞穴到“可计算的现实”

你坐在车里，一脚油门，一脚刹车。你觉得自己在看路，在判断，在决策。但也许更准确的说法是：你在不断运行自己的世界模型，然后用感官输入去修正这个模型。你的大脑在做这件事，你的车里的计算系统也在做这件事。你们在做的事情，在结构上是相似的：都在用内部模型去模拟外部世界，都在把注意力分配给最相关的信息，都在不断缩小预测和现实之间的差距。

这让人想起一个古老的哲学比喻。柏拉图说，我们像是被锁在洞穴里的囚徒，只能看到墙上的影子，却从未见过真正的光源。康德说，我们永远无法直接接触“物自身”，只能接触到经过先验形式加工过的“现象”。而今天，当我们谈论世界模型的时候，我们其实在说另一件事：也许重要的不是影子还是实物，而是我们是否拥有一个足够好的模型，让我们在这个世界中安全地、有效地、有意义地行动。

在这一点上，哲学和工程走到了一起。哲学家通过思辨告诉我们，我们永远无法直接触及世界本身。工程师通过实践告诉我们，也许我们并不需要。一个足够好的世界模型，一个在不断校准中越来越贴近外部世界的内部表征，可能已经足够了。我们不需要知道“真正的卡车”是什么，我们只需要准确预测那辆卡车下一秒会去哪里。

哲学并没有结束，它只是换了一种形式继续存在。当我们写下一个模型结构，定义一个损失函数，设计一个注意力机制的时候，我们也许并没有意识到，我们正在以另一种方式回应那些几百年前提出的问题。只是这一次，我们不再试图用语言去回答，而是用世界模型去逼近。我们不再争论“先验是否可能”，而是直接设计归纳偏置。我们不再辨析“意向性的本质”，而是直接实现注意力机制。我们把抽象的概念变成了具体的代码，把思辨的命题变成了可运行的流程。

也许有一天，我们会重新回到那些问题：先验究竟从何而来，意向性是否可以被完全还原，意识与世界之间到底是什么关系。这些问题不会消失，它们是人类思想永远的地平线。但在此之前，工程已经先走了一步。自动驾驶汽车在路上行驶，机器人在仓库里搬运货物，游戏 AI 在虚拟世界里与玩家互动。它们都在运行某种形式的世界模型，都在用预测去弥补感知的不足，都在用误差来驱动学习。

我们不再只是思考世界，我们开始构造世界的模型。我们不再只是讨论认知，我们开始实现某种可运行的认知过程。这是一个微妙但深刻的转变。它意味着，认识论不再仅仅是哲学的一个分支，它同时成为了计算机科学和神经工程的一个研究领域。而世界模型，就是这个交叉地带上最核心的概念。

在这个意义上，哲学并没有结束。它只是，变成了工程。而工程本身，又反过来向我们提出了新的哲学问题：当一个系统的世界模型足够好，好到它可以在复杂环境中像人一样行动，我们是否应该认为它“理解”了这个世界？这个问题，康德没有问过，胡塞尔也没有问过。但现在，它摆在了每一个从事人工智能研究的人面前。

你坐在车里，看着前方的道路延伸向远方。你并不知道这辆车的自动驾驶系统内部正在运行着怎样的世界模型，就像你并不完全清楚自己的大脑中正在发生什么。但你知道一件事：无论是你还是它，都在努力让那个内部的模型更贴近外部真实的世界。误差被不断缩小，预测被不断校准，世界被不断生成。

而我们，从未直接见过这个世界。我们只是带着自己的世界模型，在黑暗中摸索，然后小心翼翼地、一次又一次地，让自己更接近那个永远无法真正抵达真实。