论文信息: "Current World Models Lack a Persistent State Core" — Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju。arXiv:2606.20545v1,2026年6月18日发表。
一、问题的提出:你盯着月亮的时候,月亮才在轨道上吗?
想象一个简单的场景:你站在窗前看到一辆红色小汽车沿着街道驶向远方,然后你转过身去泡了一杯茶。等你再次望向窗外时,那辆小汽车应该在哪里?任何一个正常人的直觉都会告诉你:它已经开到了更远的地方,甚至可能已经消失在下一个街角了。物理世界不会因为你停止观察而暂停——月亮不会因为没人看它就脱离轨道,河水也不会因为你闭上眼睛就停止流动。
然而,当我们把同样的场景交给当前最先进的世界模型来处理时,结果却令人大跌眼镜。2026年6月,来自多个机构的研究者联合发表了一篇题为"Current World Models Lack a Persistent State Core"的论文,首次系统性地揭示了一个被长期忽视的根本缺陷:现有的世界模型并不具备真正的"持久状态内核"。换言之,它们不会在你移开摄像头之后继续推进世界的演化——它们本质上只是一台高级的跟踪摄影机,会在你重新观察时把物体"恢复"到你最后看到它的状态,而不是让它在你观察不到的时间段里继续完成物理运动。
这个问题有多严重?研究者设计了一个名为WRBench(World-state Reconstruction Bench)的全新基准测试,对23个主流世界模型进行了9600段视频的大规模评测,结果发现:这个缺陷是普遍的、顽固的,与模型的架构、参数规模和控制范式都无关。无论你用扩散模型还是自回归模型,无论你给模型增加多少参数量、用多精细的几何先验,它都不能让一个不在画面中的物体继续按照物理规律运动。
这个发现的含义远比表面上的技术细节更深刻——它暗示着,我们当下对"世界模型"的理解可能从根本上就是不完整的。
二、世界模型到底应该是什么?
"世界模型"这个概念最早可以追溯到Kenneth Craik在1943年提出的思想实验,后来被Yann LeCun在2022年的一篇关于自主机器智能的路线图中重新激活。在LeCun的框架中,世界模型是实现通用人工智能(AGI)的关键组件之一:一个智能体需要在内部构建一个关于外部世界如何运作的心理模型,才能进行有效的规划和推理。
在过去几年中,Sora、Kling、可灵等视频生成模型被很多人称为"世界模型"的雏形,因为它们能够生成看起来相当逼真的物理世界视频。但这篇论文的作者们提出了一个尖锐的质疑:生成逼真的帧(frames)和理解世界的运行规则,完全是两码事。
他们给出的定义更加严格:一个真正合格的世界模型必须拥有一个"持久的世界状态"(persistent world state),这个状态在时间维度上连续演化,并且与观测(即摄像头画面)解耦。具体来说,这意味着:
第一,物体的存在性独立于观察。即使一个物体暂时离开了摄像头的视野,它仍然存在于世界状态中,并继续按照物理规律运动。
第二,事件的因果链条不会因为中断观察而断裂。如果你启动了一个事件(比如一个球被抛向空中),然后移开了摄像头,等你再看的时候,这个事件应该已经推进到了下一个阶段(球已经落地并在弹跳),而不是停留在你最后看到的画面。
第三,不同视角下观察到的世界状态应该是自洽的。如果你在时刻A观察了某个物体,然后在时刻B用另一个角度去观察它,两次观察之间隐含的物理演化应该是一致的。
用更通俗的话说:一个真正的世界模型应该像一台物理模拟器一样工作——它维护着整个场景中所有物体的位置、速度、状态等信息,并且按照物理定律持续更新这些信息,无论是否有摄像头在拍摄。
这里有一个值得深入讨论的类比。经典物理学有一个基本假设叫做"观测独立性"——物理定律的运作不依赖于是否有人在观测。这个假设在宏观世界中是如此基本,以至于我们通常不会去质疑它。但当世界模型需要在内部重建物理世界时,这个假设就变成了一个需要被显式实现的工程目标。论文的标题"当没有人在看的时候,当前的世界模型缺乏一个持久的状态核心"正是在挑战这个假设的实现现状。
从认知发展的角度来看,人类婴儿在大约8到12个月时就开始发展"物体恒存性"(object permanence)的认知能力——知道一个物体在被遮挡后仍然存在。这被认为是婴儿认知发展的一个重要里程碑。然而,当前最先进的世界模型,尽管经过了海量视频数据的训练,却仍然在这个最基本的认知测试中失败了。这说明模型学到的更多是"物体在画面中是什么样子",而不是"物体在世界中如何存在"。
三、WRBench:如何测试世界模型的"心智"
为了精确测量这个缺陷的严重程度,研究者设计了WRBench——一个将摄像头移动视为"可观测性干预"的系统性诊断基准。这个设计的核心思路非常巧妙:利用摄像头的运动来创造"观察中断"的时间窗口,然后检验世界模型在这个窗口中的行为是否符合物理常识。
WRBench的评测流程被分解为一个人类校准的评估链(human-calibrated chain),包含三个递进的层次:
第一层:交互执行精度(Interaction Execution Accuracy)。 首先要确认模型是否正确执行了指令要求的摄像头运动——比如平移、旋转、缩放等。如果模型连基本的摄像头控制都做不对,后面的测试就没有意义了。这层测试类似于检查一个学生是否能按照老师的指令移动手中的摄像机。
第二层:场景连续性与可识别性(Scene Continuity and Identifiability)。 在摄像头运动的过程中,场景是否保持了空间上的连续性?同一个物体在不同帧中是否被正确识别为同一个物体?这测试的是模型在"观察中"的基本保真度。如果一个物体在摄像头稍微移动后就变了颜色或者形状,那说明模型连基本的外观维护都做不好。
第三层:回归一致性(Returning Consistency)——这是最关键的测试。 摄像头先观察某个物体或事件,然后移开(创造出一个"不可见时间窗口"),最后再移回来观察同一个目标。这时要检查的是:目标物体的状态是否反映了在"不可见时间窗口"中发生的合理物理演化?
举例来说:假设我们让一个世界模型生成一个球从桌上滚落的场景。摄像头先看到球在桌子边缘,然后摄像头向上移动(拍摄天花板),持续若干秒,最后再移回桌面方向。一个具备持久状态内核的世界模型应该显示球已经滚落到了地上——因为引力不会因为摄像头没在看就暂停。但实验结果表明,现有模型几乎无一例外地显示球仍然在桌子边缘,或者直接跳到一个最终状态,中间的物理演化过程完全缺失。
WRBench的实验规模也相当可观:9600段视频,来自23个不同的世界模型,覆盖了四种主流的控制范式。这四种范式包括基于文本条件的生成、基于摄像头轨迹的生成、基于结构化控制信号的生成以及混合控制方式。如此广泛的覆盖确保了结论的普遍性——这不是某个特定模型或某条特定技术路线的个别问题,而是整个领域的系统性盲区。
值得注意的是,WRBench的设计哲学本身就值得学习。在AI评测领域,很多基准测试都是"给一个输入,看输出对不对"的静态模式。但WRBench采用了一种"干预-观测"的动态模式:通过摄像头运动来主动干预可观测性,然后观察模型的行为变化。这种范式更接近科学实验中的"对照实验"思想,也更能揭示模型的内在机制而非表面能力。
四、实验结果:一个令人不安的一致性
如果这个缺陷只是某些特定模型的问题,那它可能只是工程上的不足,可以通过更好的训练来弥补。但WRBench的评测结果揭示的是一个系统性的、跨越所有技术路线的共性问题。
发现一:现有模型本质上都是"跟踪镜头"。 在摄像头移开又移回来的场景中,所有模型都倾向于将回归目标"恢复"到最后观察到的状态,而不是推进事件的演化。换句话说,这些模型的记忆更像是一张静态照片而不是一个动态的物理模拟——它们记得物体最后的样子,但不会想象它在不可见期间经历了什么。
这种行为模式可以用一个类比来理解:想象你在看一部电影,导演在某个场景中让镜头暂时离开了主角。当镜头再切回来时,你应该看到主角已经完成了之前正在做的事情——比如从门口走到了房间中央。但当前世界模型的做法更像是:镜头移开时主角被"冻结"了,镜头移回来时主角从门口重新开始走。这不是电影,这是一张被反复播放的幻灯片。
发现二:该缺陷与模型架构无关。 基于扩散模型的方法(如各类视频扩散网络)和基于自回归模型的方法(如各类视频Transformer)表现出了同样的失败模式。这意味着问题不在于具体的网络结构设计,而在于整体建模范式——无论是通过迭代去噪还是逐token生成,当前的视频生成范式都没有真正建立起对世界状态的持续追踪。
这个发现尤其值得深思。在过去几年中,视频生成领域经历了从GAN到扩散模型、再到自回归模型的技术路线迭代。每一次范式转换都带来了画质、时长、可控性等方面的显著提升。但WRBench的结果表明,这些范式转换在"状态持久性"这个维度上几乎没有带来任何改善。这说明,状态持久性可能是一个需要独立关注的能力维度,而不是可以通过提升其他维度来"附带"获得的。
发现三:参数规模的增加没有带来根本性改善。 在评测的23个模型中,参数量从几亿到几百亿不等,但"持久状态一致性"的得分并没有随参数规模的增长而出现显著提升。这打破了"只要模型足够大就能解决一切问题"的直觉。
这一发现与近年来"规模定律"(scaling law)在AI领域的影响力形成了直接冲突。在语言模型领域,规模定律被反复验证——模型越大、数据越多、训练时间越长,性能就越好。这个经验规律已经深刻影响了产业界的投资决策和研究者的资源分配。但WRBench暗示,在世界模型领域,规模定律可能有其适用边界。状态持久性是一种结构性的能力,它需要的不是更多的参数来"记忆"更多的视觉模式,而是一种根本不同的计算机制来维护和更新世界状态。
发现四:更精细的控制信号也无法弥补。 一些模型引入了深度图、法线图、语义分割图等丰富的几何先验信息来指导视频生成,在场景保真度方面确实有所提升,但在"回归一致性"这一核心指标上依然表现不佳。这说明,即使你给了模型更多关于世界外观的信息,它仍然缺乏对世界如何随时间演化的内在理解。
这里存在一个根本性的区分:静态几何信息(深度图、法线图等)描述的是"世界此刻是什么形状",但状态持久性需要的是"世界下一刻会变成什么形状"。前者是空间信息,后者是时间信息;前者是观察的结果,后者是因果推理的结果。当前的控制信号体系严重偏向前者,几乎完全没有提供后者。
发现五:控制范式的差异只影响表层指标。 不同控制范式在第一层和第二层评测中确实表现不同——比如基于轨迹的控制在摄像头执行精度上明显优于基于文本的控制——但在最关键的第三层"回归一致性"上,所有范式都近乎失败。这进一步证实了问题的根源在于世界状态的建模,而非控制信号的表达能力。
五、为什么会这样?从技术根源上分析
要理解为什么当前的世界模型普遍缺乏持久状态内核,我们需要回到这些模型的基本工作原理。
当前的视频生成模型,无论是扩散模型还是自回归模型,其核心机制都可以概括为"根据已有信息预测下一帧(或下一组帧)"。在训练过程中,模型学习的是视频帧之间的统计关联:给定前面的若干帧,预测接下来的画面应该长什么样。这种训练范式天然地将世界建模为一个"从观察到观察"的映射,而不是"从状态到状态"的演化。
具体来说,当前模型存在以下几个层面的技术限制:
(一)隐式状态表示的局限。 现有模型通常将世界状态隐式地编码在特征图或注意力权重中,没有一个显式的、结构化的状态表示来追踪场景中每个物体的位置、速度和状态。这种隐式表示在持续观察时还可以工作(因为相邻帧之间的变化很小,模型可以通过局部插值来"维持"外观),但一旦出现观察中断,隐式表示中的信息就会迅速退化,因为模型没有一个可以独立于观测持续更新的"世界数据库"。
举个例子,想象你用手指在沙地上画一幅画。只要你一直看着画,你可以不断修补和维护它。但一旦你闭上眼睛,风吹过沙地改变了图案,你再睁开眼时就需要重新猜测之前画了什么。隐式状态表示就像是沙地上的画——它依赖于持续的观察来维持自身的连贯性。
(二)训练目标与真实需求的错位。 视频生成模型的标准训练目标是像素级或特征级的重建损失——即模型生成的帧要尽可能接近真实视频的帧。这个目标在观察连续时是可以的,但它完全没有对"观察中断期间的物理一致性"施加任何约束。模型可以在训练数据中看到无数个"球从桌上滚落"的视频片段,但它从未被显式地训练去"理解"球在不可见期间经历了怎样的运动轨迹。
这种错位的根源在于训练数据的结构。标准的视频训练数据是连续的帧序列,每一帧都有明确的像素值。但"物体在不可见期间发生了什么"这个问题的答案,在训练数据中是找不到直接对应物的——因为训练视频中的每一帧都是被"观察"到的。要训练模型具备"不可见期间的物理推理"能力,需要全新的训练范式,比如利用物理模拟器来生成"中间状态"的监督信号。
(三)因果推理能力的缺失。 物理世界的演化本质上是一个因果过程:物体的运动由力和初始条件决定,事件的发生遵循因果链。但当前的视频生成模型是在海量数据上进行相关性学习的,它们擅长捕捉"什么样的画面通常跟在什么样的画面之后",但不擅长理解"为什么"。当观察中断打破了视觉上的连续性时,相关性学习就无法提供足够的信息来推断中断期间发生了什么,因为这种推断需要的是因果推理而非统计相关性。
这个区分可以用一个经典的哲学问题来说明:公鸡每天早上打鸣,太阳每天早上升起。统计相关性会告诉你"公鸡打鸣"和"太阳升起"高度相关。但因果推理才能告诉你"太阳升起不是因为公鸡打鸣"。同样,当前的世界模型知道"球在桌子边缘"之后通常会出现"球在地上"的画面,但它们不一定理解"球掉到地上是因为重力把它拉下来的"。当摄像头移开打破了这种统计关联时,模型就失去了推理的依据。
(四)物理模拟器与视频渲染器之间的鸿沟。 从某种意义上说,一个理想的视频世界模型应该等价于一个物理模拟器加上一个渲染器。物理模拟器负责维护和更新世界状态,渲染器负责将状态转化为可视化的画面。但当前的模型试图用一个统一的网络来同时完成这两个任务,导致物理推理被淹没在视觉渲染的细节中。特别是当模型参数被优化为"生成好看的画面"时,物理一致性往往成为被牺牲的对象。
这种"一锅煮"的设计哲学在工程上是有道理的——端到端的系统通常比模块化的系统更容易训练和优化。但WRBench的结果暗示,端到端的范式在物理状态推理这个任务上可能已经碰到了天花板。也许我们需要重新引入模块化的设计,让物理推理和视觉渲染各司其职。
六、这个发现对AI发展的意义
对"大力出奇迹"范式的挑战。 过去几年,AI领域的主流信念之一是"规模定律"(scaling law):只要不断增加模型参数、数据量和计算资源,模型的能力就会持续提升。这个信念在语言模型领域确实得到了很多验证,但WRBench的结果表明,在世界模型领域,规模定律可能有其边界。物理状态的持久演化能力似乎不是通过扩大规模就能"涌现"出来的,它需要更根本的架构创新。
这对产业界的影响是直接的。目前,多家公司正在投入数十亿美元来训练更大规模的视频世界模型,期望通过"堆算力"来逼近物理理解。如果状态持久性确实不在规模定律的覆盖范围内,那么这些投资的回报可能远低于预期。研究资源可能需要更多地分配到架构创新和训练范式创新上,而不是单纯的规模扩张。
对具身智能的影响。 如果世界模型要被用于机器人规划和决策——这是LeCun构想中的核心应用场景——那么缺乏持久状态内核将是一个致命缺陷。一个机器人不能只在"看到"物体的时候才认为它存在;它需要能够推理不可见物体的当前状态,才能做出有效的抓取、避障和路径规划决策。
想象一个家庭服务机器人在厨房里做饭。它打开了冰箱门拿出了鸡蛋,然后转身去拿碗。在转身的过程中,鸡蛋暂时离开了机器人的视野。一个具备持久状态内核的世界模型会告诉机器人"鸡蛋还在你手里",但一个缺乏这种能力的模型可能会"忘记"鸡蛋的存在——这对于一个需要在真实世界中工作的机器人来说是不可接受的。
对视频生成技术路线的启示。 当前的视频生成技术追求的是"生成更长、更逼真、更可控的视频",但WRBench的结果表明,这些目标可能还不足以构建真正的世界模型。我们需要重新思考世界模型的评估标准——不只是"看起来对不对",还要"推理起来对不对"。
这可能催生一个全新的研究子领域——"物理一致的视频生成",它与当前的"高保真视频生成"有着不同的目标函数和评估标准。这个子领域可能需要融合计算机视觉、物理模拟和因果推理等多个领域的技术。
对物理理解的重新审视。 这篇论文从一个侧面揭示了当前AI系统与人类认知之间的一个关键差异:人类从很小的时候就发展出了朴素物理学(naive physics)的能力——我们知道物体在被遮挡后仍然存在,我们知道力会改变物体的运动状态。这种"物体恒存性"(object permanence)的认知发展在婴儿约8-12个月时就开始显现。而当前的世界模型,尽管经过了海量视频数据的训练,却仍然缺乏这种基本的认知能力。
这个对比暗示,从视频数据中学习物理规律可能是一条根本上受限的路径。人类的朴素物理学不仅仅是从视觉经验中学到的——它还融合了触觉(抓握物体时感受到的重量和阻力)、本体感觉(身体运动时感受到的加速度和平衡)以及与物理世界的主动交互(推动、投掷、碰撞物体)。纯粹的视频学习可能缺少了物理理解所需的这些关键模态和交互形式。
七、可能的解决方向
虽然论文本身主要聚焦于问题的诊断而非解决方案的提出,但结合当前的技术趋势和论文中的讨论,可以推断出几条可能的改进方向。
引入显式的物理状态追踪。 一种直接的思路是在视频生成框架中引入一个显式的物理状态模块,负责维护场景中所有物体的物理属性(位置、速度、旋转角等),并在每一帧生成之前先更新物理状态。这种"先推理物理,再渲染画面"的两阶段范式可以从根本上解决持久状态的问题,但代价是需要更强的物理模拟能力和更复杂的系统设计。
这种方案的一个潜在挑战是:如何让物理状态模块和视觉渲染模块之间进行有效的信息交换?物理状态通常用数值向量来表示(比如三维坐标、速度向量),而视觉渲染需要的是像素级的细节(纹理、光照、阴影)。两者之间的信息鸿沟需要精心设计的接口来弥合。
借鉴游戏引擎的架构。 现代游戏引擎(如Unreal Engine、Unity)天然具备持久状态管理的能力:场景中的每个物体都有其独立的状态,物理引擎负责在每一帧更新这些状态,渲染器只负责将当前状态可视化。将这种"状态-物理-渲染"的三层架构引入到神经网络世界模型中,是一个值得探索的方向。
实际上,已经有一些研究者在尝试用神经网络来替代游戏引擎中的各个组件——用神经网络渲染器替代传统的光栅化渲染器,用神经网络物理模拟器替代传统的数值积分器。但这些工作的重点通常是提升单个组件的效率或质量,而不是系统性地解决状态持久性的问题。论文的发现可能会推动这个方向的研究者更多地关注组件之间的状态传递和一致性维护。
开发新的训练范式。 当前的训练目标主要关注视觉保真度,需要引入新的训练信号来显式地奖励物理一致性。这可能包括:利用物理模拟器生成的"真值"来监督模型的状态推理能力,设计需要"理解中断期间发生了什么"的训练任务,或者在损失函数中加入对因果一致性的约束。
一个具体的实现方案是"对比训练":给模型展示两段视频——一段是物理正确的(球在不可见期间继续下落),另一段是物理错误的(球在不可见期间被冻结)——让模型学会区分两者。这种训练方式不需要模型从零开始学习物理定律,只需要它学会识别哪些行为是物理合理的、哪些不是。
多模态状态表示。 将世界状态用多种模态来表示(视觉特征+物理参数+语义标签),而不是单纯依赖像素空间,可能有助于模型发展出更结构化的世界理解。这种思路与当前视觉-语言模型中"图像+文本"的多模态范式是一脉相承的,但将其扩展到了物理维度。
引入时间步的显式建模。 当前模型对时间的处理往往是隐式的(通过位置编码或时间嵌入),但一个具备持久状态的世界模型需要对时间步有更精确的显式建模——不仅要知道"现在是第几帧",还要知道"两帧之间经过了多长时间",以便正确地更新物理状态。一个球在0.03秒内下落的距离和在3秒内下落的距离是完全不同的,模型需要能够区分这两种情况。
八、与其他相关工作的对比
这篇论文并不是第一个指出世界模型存在物理一致性问题的工作,但它是最系统、最具说服力的诊断性研究。
在此之前,一些研究者通过设计特定的测试场景来检验视频生成模型的物理理解能力——比如生成物体在重力作用下运动的场景、碰撞场景等。但这些测试往往是零散的、case-by-case的,缺乏系统性的评估框架。WRBench的优势在于它提供了一个可重复、可扩展、且经过人类校准的评估流水线,使得不同模型之间的比较变得严格和公平。
另一个相关的研究方向是"物理启发的视频生成"——在模型中引入物理先验(如牛顿力学方程、碰撞检测规则等)。这些方法在特定场景下确实能够改善物理一致性,但WRBench的结果暗示,局部的物理先验注入可能不足以解决全局的状态持久化问题。你需要的不只是"让球按照重力加速度下落",而是"让世界在不可见时继续运转"。
与物理模拟领域的工作相比,这篇论文也提供了有趣的视角。传统的物理模拟器(如MuJoCo、PyBullet)天生就具备持久状态,因为它们的底层就是基于状态更新的数值积分。但这些模拟器在视觉真实感上远不如神经网络生成模型。论文的工作暗示,未来的方向可能是在神经网络的灵活性和物理模拟器的状态管理能力之间找到一个结合点。
最近的一些工作尝试将物理模拟器的输出作为视频生成模型的"指导信号"——先用物理模拟器计算出物体的运动轨迹,然后用视频生成模型来渲染出视觉上逼真的画面。这种"物理模拟+神经渲染"的混合方案在WRBench的评测框架下可能会有明显的优势,因为它天然具备了状态持久性。但这种方案也面临着自己的挑战:如何处理物理模拟器无法精确建模的复杂场景(如流体、布料、柔性物体)?如何在物理模拟的精度和视觉渲染的自由度之间取得平衡?
九、更广泛的哲学思考
这篇论文还引发了一些更深层的哲学问题。
什么是真正的"理解"物理? 如果一个模型可以生成一段看起来完美符合物理规律的视频,但它并不在内部维护一个持续演化的世界状态,那么它算不算"理解"了物理?这篇论文给出的回答是:不算。仅仅在视觉上模拟物理现象和真正理解物理规律之间存在本质差异——前者是表面的模仿,后者是内部模型的构建。这个区分与哲学中关于"行为主义"vs"内在主义"的争论有着有趣的对应关系。
行为主义者会说:如果一个系统在所有可观察的行为上都与一个真正理解物理的系统无法区分,那它就是理解物理的。但论文的反驳是:WRBench恰恰证明了这些系统在"回归一致性"这个可观察的行为上是可以被区分的——它们不是在所有情况下都表现得像一个理解物理的系统。
观察者在物理系统中的地位。 论文将摄像头运动视为一种"可观测性干预",这个视角将观察者的角色引入了世界模型的评估框架。在经典物理学中,观察者的存在与否不会影响物理系统的行为(这正是论文标题"当没有人在看时,月亮仍然在轨道上"所表达的含义)。但在当前的世界模型中,观察者(摄像头)的有无却直接影响了物理系统的行为——这是一种量子力学式的"观测依赖性",但它不应该存在于宏观物理世界模型中。
这个类比虽然有些夸张,但它确实触及了一个深层次的问题:当前的世界模型在某种意义上是"观测中心"的——它们的世界表征是围绕摄像头(即观测者)来构建的,而不是围绕独立于观测者的世界状态来构建的。要构建真正的世界模型,需要完成从"观测中心"到"世界中心"的范式转换。
从模式识别到因果推理的跃迁。 当前AI系统的核心能力仍然是模式识别——在海量数据中学习统计规律。但真正的物理理解需要因果推理——知道力是运动的原因,知道碰撞是动量传递的原因。论文的发现从一个实证的角度表明,纯粹的模式识别还不足以构建具备物理直觉的AI系统,因果推理的引入可能是不可避免的。
这个观点与Judea Pearl在过去二十年中一直倡导的"因果革命"遥相呼应。Pearl认为,当前的机器学习本质上只是在做"曲线拟合"——找到输入和输出之间的相关关系——而真正的智能需要能够回答"如果我做了X会怎样"这类反事实问题。论文中摄像头移开又移回来的场景,本质上就是一个反事实问题:"如果摄像头没有移开,这段时间里物体的运动会是怎样的?"当前模型无法回答这类问题,正是因为它们缺乏因果推理能力。
十、结语:世界模型的"成人礼"
这篇论文的核心贡献不在于提出了一种新的模型或算法,而在于它第一次用严格的、系统性的方法证明了一个此前只存在于直觉中的问题。正如论文中所表达的:"稳健的世界状态演化并不会从更清晰的画面、更精确的控制、更丰富的几何先验或单纯更大的参数量中自然获得。"这句话的分量很重,因为它意味着当前世界模型发展的一些主流方向可能需要根本性的重新审视。
WRBench作为首个专注于"状态持久性"的诊断基准,为未来的研究提供了一个清晰的标尺。研究者们呼吁,物理状态核的稳定性和世界线在视角干预下的一致性应当成为世界模型设计的"一等目标"——也就是说,一个世界模型应该捕捉"世界将如何展开",而不仅仅是"下一帧看起来是什么样"。
从更长远的视角来看,这项工作可能会被视为世界模型研究从"视觉仿真"阶段迈向"物理认知"阶段的一个重要路标。世界模型的最终目标不是生成漂亮的视频,而是构建一个能够进行真正物理推理的内部世界。而要达到这个目标,我们首先需要诚实地面对现有技术的根本局限——这篇论文做的事情正是这个。
论文的核心信息可以用一句话总结:如果你的世界模型在你不看它的时候就停止了运转,那它就不叫世界模型,它叫屏幕保护程序。
论文链接:arXiv:2606.20545v1
评论