当前世界模型缺少持久状态核心：当摄像机离开后，世界还在运行吗？

TL;DR

世界模型被视为通向通用人工智能的关键一步，但现有模型在渲染令人信服的画面时忽略了一个根本问题：它们能否维持一个不依赖于观察的世界状态？就像月亮在没人看它时依然沿轨道运行一样，真正的世界模型需要一个持续演化的内部状态。研究团队提出了WRBench——首个系统性诊断基准，将摄像机运动视为对可观测性的干预，通过"离开-返回"测试评估世界模型的状态一致性。在对23个模型、9600个视频的评估中，一个顽固的发现浮出水面：现有系统将观察到的世界当作跟踪镜头来维持，当目标离开视野后再返回时，模型只是从离开时的状态"恢复"而非继续推进事件。这一缺陷跨越了控制范式、模型家族和参数规模的界限，表明更清晰的画面、更精确的控制、更丰富的几何先验或更庞大的参数量都无法自动解决状态一致性问题。

论文信息

标题: Current World Models Lack a Persistent State Core
作者: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju
发表日期: 2026年6月18日
arXiv ID: 2606.20545v1
分类: 计算机视觉 (cs.CV)
页数: 39页，16幅图
链接: arxiv.org/abs/2606.20545v1

研究背景与动机

"我不看月亮的时候，月亮还在那里吗？"——这个古老的哲学问题，在2026年的世界模型研究中获得了一个全新的、出人意料的技术含义。

世界模型（World Model）正在成为人工智能领域最炙手可热的研究方向之一。从OpenAI的Sora到Google DeepMind的Genie系列，从Meta的VideoPoet到各大实验室竞相发布的视频生成模型，世界模型被广泛认为是实现通用人工智能（AGI）的关键路径之一。其基本假设是：如果一个AI系统能够准确地模拟和预测物理世界的运行方式，那么它就具备了理解和推理现实世界的能力——无论是驾驶汽车、操控机器人，还是进行科学发现。

2024-2026年间，世界模型领域经历了爆发式的发展。视频生成模型的质量突飞猛进——从模糊、短小的片段到高分辨率、长时序的逼真视频。从最初的几帧到数十秒甚至数分钟的连贯画面。从简单的图像插值到支持文本控制、摄像机控制、风格迁移等多种交互方式。这些进步让许多人乐观地认为，世界模型正在快速接近"理解物理世界"的目标。

然而，在这片繁荣景象之下，一个根本性的问题被系统性地忽视了。现有世界模型的评估几乎完全聚焦于"表面属性"——生成画面的保真度（是否清晰逼真）、运动的流畅性（是否自然无抖动）、摄像机的可控性（是否按照指令移动视角）。这些指标回答的是"下一帧看起来像不像真的"，而不是"这个世界在我不看它的时候是否还在正常运行"。

用一个具体的例子来说明。假设你让一个世界模型模拟"一个人把球扔向墙壁，球弹回来"的场景。摄像机跟踪球的飞行轨迹，球在画面中移动——这部分现有模型可以做得很好。但如果你在球飞向墙壁的过程中移开摄像机（比如转向拍摄旁边的一盆花），然后在几秒钟后再把摄像机转回球的位置，会发生什么？

在一个真正理解物理的世界模型中，球应该已经撞到墙壁并反弹回来——即使摄像机没有看到这个过程，物理定律依然在运行，事件依然在推进。但现实是：现有模型几乎无一例外地会从球离开视野时的状态"恢复"——球会出现在它离开时的位置，仿佛中间什么都没发生过。这就像一部电影暂停后再继续播放，而不是一个真实世界的持续模拟。

这种现象揭示了一个深层的问题：现有世界模型本质上是一个"跟踪镜头生成器"，而不是一个"世界模拟器"。它们记住的是"上一帧长什么样"，而不是"世界处于什么状态，接下来应该发生什么"。

哲学家们对"观察者独立性"的讨论由来已久。在量子力学的哥本哈根诠释中，观察确实会影响被观察的对象——但即使在这个框架下，宏观物体（如月亮）的运动也不依赖于是否有人观察。爱因斯坦曾用"月亮在没人看它时是否存在的"这个问题来质疑量子力学的某些诠释，虽然这个讨论在物理学中仍然开放，但在世界模型的语境下，答案必须是肯定的：一个真正的世界模型，必须在没有观察者的情况下继续运行其内部状态。

更技术性地说，真正的世界模型应该维护一个"状态核"（state kernel）——一个不依赖于观察的、持续演化的内部世界状态。这个状态核应该类似于物理引擎中的状态表示：即使渲染器关闭了，物理引擎依然在计算物体的位置、速度和相互作用。当渲染器重新开启时，它从物理引擎获取最新状态，而不是从上一帧的画面中猜测。

这就是WRBench研究的出发点。研究团队的核心论点是：世界模型的设计目标不应该是"如何让下一帧更好看"，而应该是"如何让世界在没有被观察的时候继续正确运行"。这一视角的转变，对世界模型的评估标准、架构设计和训练目标都提出了全新的要求。

核心发现

WRBench：首个面向状态一致性的诊断基准

研究团队设计了WRBench（World-state Return Benchmark），这是一个系统性的诊断框架，用于评估世界模型在"观察中断"场景下的表现。其核心设计思想是将摄像机运动从"渲染控制工具"重新定义为"可观测性干预手段"。

WRBench的评估流程分为三个阶段，形成一个"人类校准的评估链"：

阶段一：交互执行（Interaction Execution）。 首先评估摄像机是否按照请求执行了指定的运动轨迹。这一步确认模型对摄像机指令的遵从性——如果模型连"向左平移"这样的基本指令都执行不好，后续评估就没有意义。WRBench对多种摄像机运动类型进行了系统化编码，包括平移（上下左右前后）、旋转（俯仰、偏航、翻滚）、变焦（推拉）以及这些运动的组合。

阶段二：场景连续性（Scene Continuity）。 在摄像机移动过程中，评估场景是否保持连续和可识别。物体是否保持其身份？空间关系是否合理？光照和阴影是否一致？这一步确保模型在"可见"的范围内至少能维持基本的场景一致性。

阶段三：返回一致性（Return Consistency）——核心创新。 这是WRBench最关键的设计。在场景中设置一个特定的事件（如"球被抛出"、"蜡烛在燃烧"、"积木塔被推倒"），然后让摄像机执行一个"离开-返回"轨迹：先移开，看向别处，等待一段时间，再转回原来的视角。关键问题是：返回时看到的目标状态是否与"如果摄像机一直看着，事件应该发展到的状态"一致？

例如，如果一个事件是"蜡烛正在燃烧，预计10秒后烧完"，摄像机在第3秒移开，第8秒转回。在真实世界中，蜡烛应该已经烧了8秒，还剩2秒的蜡。但如果模型只是"暂停再播放"，返回时蜡烛的状态可能是第3秒时的状态——刚烧了一小部分。WRBench正是通过这类精心设计的测试场景来暴露模型的真实能力。

23个模型的大规模评估

研究团队对23个世界模型进行了全面评估，这些模型涵盖了四种主流的控制范式：

纯文本控制模型（Text-to-Video）：通过自然语言描述生成视频，如某些版本的扩散模型。
摄像机参数控制模型（Camera-parameter Controlled）：通过摄像机位姿矩阵或参数精确控制视角。
混合控制模型（Hybrid Control）：结合文本描述和摄像机控制。
物理引擎辅助模型（Physics-engine Aided）：利用物理引擎提供先验知识辅助生成。

评估涵盖了9600个视频样本，涉及多种场景类型（室内/室外、简单/复杂）、多种事件类型（离散事件如物体碰撞、连续事件如水流、周期事件如钟摆摆动）、多种离开时长（从几秒到十几秒）和多种摄像机运动轨迹。

一个顽固的核心发现

跨越所有控制范式、所有模型家族、所有参数规模的增量，一个发现反复出现且表现得极为顽固：

现有世界模型将观察到的世界当作"跟踪镜头"来维持，当目标离开视野后再返回时，模型只是从离开时的状态"恢复"而非继续推进事件。

具体而言，这种"状态冻结"现象表现为以下几种模式：

模式一：直接状态回退。 返回时目标处于离开时的精确状态，仿佛时间在离开期间停止了。例如，一个正在下落的球在离开时处于半空中，返回时仍然在半空中的同一位置。

模式二：近似状态回退。 返回时目标状态与离开时略有不同（可能因为模型的随机性），但明显没有按照物理规律继续演化。球可能稍微移动了一点，但明显不是自由落体运动应有的位移。

模式三：状态跳变。 返回时目标突然出现在一个新位置，但中间没有连续的运动轨迹——就像电影中的跳切（jump cut）一样。球可能突然出现在地面上，但没有连续的弹跳过程。

模式四：身份混淆。 在复杂场景中，返回时目标物体可能发生身份变化——被错误地识别为另一个物体，或者纹理和外观发生了不合理的改变。

这些失败模式在不同的模型中表现形式各异，但本质上指向同一个根本缺陷：模型缺乏一个不依赖于观察的、持续演化的内部状态表示。

状态一致性不随规模提升而改善

WRBench评估中最重要的发现之一是：状态一致性问题无法通过简单地增加模型规模来解决。研究团队比较了同一模型家族中不同规模的版本（从数十亿参数到数百亿参数），发现返回一致性得分几乎没有显著改善。这意味着问题不在于"模型还不够大"或"训练数据还不够多"，而在于模型架构和训练目标中根本性地缺失了状态持续演化的能力。

类似地，更清晰的画面质量（更高的PSNR、LPIPS得分）、更精确的摄像机控制（更小的位姿误差）、更丰富的几何先验（如深度估计、法线预测的辅助训练）都不能自动改善状态一致性。这些改进只提升了"表面属性"，没有触及"状态核"这个深层结构。

这就像一个只会画静态风景画的画家——你可以给他更好的画笔（更高分辨率）、更好的颜料（更丰富的色彩）、更好的参考照片（更精确的先验），但他本质上仍然在画"快照"而不是在模拟"过程"。要让他理解"画中世界在你转头看别处时还在运行"，需要的是全新的思维方式，而不是更好的工具。

技术方法详解

WRBench的评估架构

WRBench的设计哲学可以用一个比喻来理解：想象你在测试一个管家是否真的理解你的家。你不是检查他擦桌子擦得多干净（表面属性），而是测试你离开房间后再回来时，他是否记得继续做你交代的事情（状态一致性）。

在技术实现上，WRBench的工作流程如下：

场景构造。 研究团队构建了一系列精心设计的测试场景，每个场景包含三个要素：（1）初始场景描述——定义场景中的物体、位置和初始状态；（2）触发事件——在模拟开始时启动一个特定的物理事件（如推倒一个积木塔、点燃一根蜡烛、扔出一个球）；（3）摄像机轨迹——定义一个"离开-返回"路径，在特定时刻让摄像机移开并在稍后返回。

生成与采样。 对每个测试场景和每个被评估模型，WRBench使用相同的初始帧（通常由高保真渲染引擎生成）、相同的文本描述（如果模型支持文本控制）和相同的摄像机参数序列来驱动视频生成。模型需要生成完整的视频序列，包括离开期间（摄像机看向别处）和返回期间（摄像机转回原始视角）的内容。

三阶段评估链。 生成的视频通过一个三阶段的自动化评估流程进行打分：

交互执行得分（S_exec）：使用位姿估计和光流分析，验证生成视频中的摄像机运动是否与请求的轨迹匹配。不匹配的视频将被标记并降低后续评估的可信度。
场景连续性得分（S_cont）：在摄像机可见的范围内，使用物体检测、特征匹配和感知一致性指标，评估场景是否保持连续和合理。物体是否在视野中保持身份？运动是否自然？空间关系是否正确？
返回一致性得分（S_ret）：这是最关键的得分。在摄像机返回时，WRBench比较"实际看到的目标状态"与"基于物理规律推算的期望状态"之间的差异。如果事件是"球自由下落5秒"，期望状态是球落在地面上弹起几次后的静止位置。实际状态越接近期望，得分越高。为了校准期望状态，研究团队使用了高保真物理引擎模拟作为参考——这些参考模拟持续运行，不受摄像机位置的影响。

WRBench还引入了"人类校准"机制。研究团队收集了人类观察者对返回一致性的人工评分，用于验证自动化指标与人类判断的相关性。结果显示，WRBench的自动化指标与人类评分具有较高的相关性，确保了评估结果的可靠性。

返回一致性的理论框架

从理论角度看，WRBench的评估框架可以形式化为以下模型。设世界状态为S(t)，观察函数为O(S, c)，其中c是摄像机参数。一个理想的"世界模型"应该维护一个状态转移函数f: S(t) → S(t+Δt)，使得即使观察O(S, c)不可用（摄像机看向别处），状态依然按f演化。

现实中的世界模型实际上实现的是一个"观察条件生成"函数g: (O_last, c_next) → O_next，即给定上一次的观察和下一个摄像机参数，生成下一次的观察。这种函数g与真正的状态转移函数f之间的根本区别在于：g依赖于最近的观察O_last，而不维护独立的世界状态S。当观察中断一段时间后，g只有"最后一帧"的信息，无法推断中间发生了什么，只能"猜测"或"插值"。

WRBench的返回一致性测试正是暴露g和f之间差距的诊断工具。当离开时间短时，差距较小（因为状态变化不大，猜测较准确）；当离开时间长或事件发展速度快时，差距急剧增大——这正是现有模型失败最严重的场景。

评估指标体系

WRBench的多维评估指标体系包括：

摄像机轨迹遵循度。 使用估计的摄像机位姿与请求的轨迹之间的L2距离和旋转角度误差来衡量。这一指标确保模型至少能正确执行摄像机指令。

帧级感知一致性。 使用CLIP等视觉-语言模型的嵌入空间距离，以及FID（Fréchet Inception Distance）等分布距离指标，评估相邻帧之间的语义和感知一致性。

物体级身份保持。 使用目标跟踪算法评估物体在视频序列中是否保持身份。物体是否被正确地持续跟踪？是否有不合理的出现或消失？

事件级状态一致性。 这是WRBench的核心指标。通过比较返回时观察到的目标状态与物理引擎推算的期望状态，计算状态一致性得分。这一指标的计算涉及物体位置、速度、旋转、形变等多个物理量的比较。

人类校准相关性。 所有自动化指标都与人类评分进行了相关性校验，确保指标的有效性和可靠性。

实验结果分析

跨范式的一致性失败

在四种控制范式中，返回一致性得分（S_ret）都显著低于交互执行得分（S_exec）和场景连续性得分（S_cont）。这意味着模型可以在摄像机移动时保持画面好看（S_exec和S_cont较高），但在摄像机返回时无法维持状态一致性（S_ret很低）。这种差距在所有范式中都存在，表明问题不是某个特定技术路线的缺陷，而是当前世界模型范式的共同盲区。

离开时长的影响

返回一致性得分随离开时长单调下降。在短离开（1-2秒）时，部分模型还能维持一定的一致性（因为状态变化小，"猜测"相对准确）。但随着离开时间增加到5秒、10秒甚至更长，一致性得分急剧下降。这与理论预测一致：离开时间越长，状态演化越远，"从最后一帧猜测"的误差越大。

事件复杂度的影响

简单的物理事件（如自由落体）比复杂事件（如多物体碰撞链）更容易处理，但即使在最简单的事件上，现有模型的表现也远不及物理引擎的参考模拟。这说明问题不在于"物理太复杂无法学习"，而在于模型根本缺乏持续状态演化的机制。

规模效应的缺失

这是最令人深思的发现。研究团队比较了同一模型家族（如某扩散模型系列）的小型、中型和大型版本，参数量从约10亿到约100亿不等。在画面质量指标上，更大的模型确实表现更好（更清晰、更逼真）。但在返回一致性指标上，三个规模的模型几乎没有显著差异。这一结果强烈暗示：增加参数量不能解决状态一致性问题，因为问题不在于"模型能力不足"，而在于"模型架构设计缺失了状态核"。

这就像给一个只会画快照的画家更多的画笔和更大的画布——他画的快照会更精细，但他仍然不会画"连续的过程"。要让他理解"世界在你不看的时候还在运行"，需要教他一种全新的思维方式，而不是给他更多的资源。

不同事件类型的分析

WRBench中包含了多种事件类型，分析不同事件类型的表现差异可以提供有价值的洞见：

离散事件（如碰撞、断裂、倒塌）：这类事件有一个明确的"触发时刻"和"结果状态"。模型在离开期间无法推断是否发生了碰撞以及碰撞后的结果，返回时往往呈现"未碰撞"的状态——球停在墙上而不是弹回来。

连续事件（如水流、烟雾、火焰）：这类事件没有明确的触发点，但状态在持续变化。模型在返回时通常呈现冻结的状态——蜡烛火焰的大小和形状与离开时完全相同，没有燃烧进展。

周期事件（如钟摆、秋千、旋转）：这类事件具有可预测的周期性。理论上，如果模型理解了周期规律，应该能推断返回时的状态相位。但实验显示，模型仍然从离开时的状态恢复，而非推算正确的相位——这表明模型连基本的周期性规律都没有内化。

与现有工作对比

WRBench的评估视角与现有世界模型基准形成了鲜明的对比，揭示了当前评估体系的一个系统性盲区。

现有基准的局限

VBench（Video Benchmark）等主流基准主要评估视频的视觉质量——分辨率、帧率、时间一致性、语义对齐等。这些指标衡量的是"生成的视频看起来好不好"，不涉及"世界状态是否正确演化"。

EvalCrafter等基准引入了更多维度的评估，包括运动质量、摄像机控制精度等，但仍然聚焦于"可见范围内"的表现，没有测试"不可见期间"的状态演化。

PhysBench等面向物理规律的基准开始关注物理合理性（如重力、碰撞是否符合物理定律），但评估仍然基于可见帧——如果物理规律在可见时被正确模拟，就给出高分，而不测试不可见时是否保持一致。

WRBench的独特贡献

WRBench的核心创新在于将评估从"渲染质量"扩展到"状态一致性"，从"可见范围内"扩展到"不可见期间"。这种评估视角的转变具有以下意义：

诊断能力。 WRBench能够识别现有基准无法发现的深层缺陷。一个在VBench上得分很高的模型，可能在WRBench上暴露出严重的一致性问题——因为它能生成漂亮的快照，但不能维持世界状态。

可操作性。 WRBench的三阶段评估链为模型改进提供了明确的诊断信息：是摄像机控制有问题（S_exec低），还是场景连续性不好（S_cont低），还是状态核缺失（S_ret低但S_exec和S_cont高）？这种诊断粒度对于指导架构改进非常有价值。

人类校准。 通过与人类判断的相关性验证，WRBench确保了评估结果与人类直觉的一致性，避免了"优化了指标但不符合人类预期"的常见陷阱。

与物理引擎的对比

研究团队使用高保真物理引擎（如MuJoCo、Isaac Gym）作为参考基线。物理引擎天然维护了完整的状态表示——即使渲染器关闭，物理引擎仍在计算物体的位置、速度和相互作用。当渲染器重新开启时，物理引擎提供最新状态。WRBench的返回一致性评估正是在测试世界模型是否具备类似的能力。

实验结果清楚地表明：物理引擎在所有测试场景上都能达到近乎完美的返回一致性（因为状态始终在持续演化），而所有被测试的神经网络世界模型都远低于这一水平。这一对比从侧面验证了WRBench的评估框架的有效性。

潜在应用与影响

对世界模型架构设计的启示

WRBench的发现对世界模型的架构设计提出了明确的改进方向。未来的模型可能需要引入以下组件之一或多个：

独立状态表示层。 在模型架构中明确引入一个独立的状态表示模块，该模块维护物体的位置、速度、旋转等物理量，不依赖于当前的视觉观察。这个模块类似于物理引擎的状态容器，但由神经网络驱动，可以处理物理引擎难以建模的复杂现象（如软体变形、流体行为、光照变化）。

状态预测与渲染分离。 将"世界状态应该是什么"（状态预测）和"画面应该看起来什么样"（渲染）解耦。状态预测模块持续运行，维护世界状态；渲染模块根据状态和摄像机参数生成画面。这种解耦确保即使没有渲染请求，状态也在持续演化。

时间因果推理模块。 引入显式的时间因果推理能力，使模型能够理解"因为球在t=0时被以速度v抛出，所以在t=5s时它应该在位置p"。这种因果推理不依赖于视觉观察，而是基于对物理规律的内化理解。

对机器人学的影响

世界模型在机器人领域有广泛应用——机器人需要"想象"行动的后果来规划行为。如果世界模型不具备状态持续演化的能力，机器人在"闭眼"（传感器暂时不可用）时就无法预测世界的变化。例如，一个正在操作物体的机械臂如果暂时被遮挡了视野，它需要知道物体在这段时间内可能发生了什么变化（如滑动、倾倒）。WRBench的发现表明，当前的世界模型在这一场景下是不可靠的，这对机器人安全和可靠性有重要影响。

对自动驾驶的启示

自动驾驶系统越来越多地使用世界模型来预测其他车辆和行人的行为。如果世界模型不具备状态持续演化的能力，在传感器暂时被遮挡（如通过隧道、被大车遮挡）时，系统就无法正确预测遮挡区域的变化。例如，一辆车在进入隧道后，系统需要知道它在隧道中继续前进，而不是"停在"隧道入口。WRBench的状态一致性评估正是这类场景的系统化测试。

对AI评估范式的影响

WRBench可能推动AI评估从"性能导向"向"一致性导向"的范式转变。当前AI领域的评估主要关注"做得多好"——分数有多高、精度有多准、画面有多美。WRBench提醒我们，"一致性"同样重要——世界模型不仅要能生成令人信服的输出，还要在所有条件下保持输出的物理一致性。这种评估理念可能扩展到其他AI领域——如语言模型的事实一致性、推理模型的逻辑一致性等。

对认知科学的启示

WRBench的发现与认知科学中关于"物体恒常性"（object permanence）的研究形成了有趣的呼应。人类婴儿在约8-12个月时发展出物体恒常性——理解物体在不可见时仍然存在。WRBench的评估本质上是在测试世界模型是否具备类似的能力。当前模型的失败表明，即使在经过海量数据训练后，神经网络仍然没有自发地发展出物体恒常性——这可能需要架构层面的显式设计。

局限性与未来方向

当前研究的局限

场景类型的覆盖。 WRBench目前的测试场景主要集中在物理事件（物体运动、碰撞、燃烧等），对化学变化（如溶解、腐蚀）、生物行为（如生长、运动）、社会交互（如对话、协作）等更复杂的状态演化类型尚未涉及。未来需要扩展场景覆盖范围。

评估指标的局限。 返回一致性的评估依赖于物理引擎推算的"期望状态"，这在简单物理场景中是合理的，但在复杂场景中（如多物体交互、非刚体变形）可能难以精确计算。期望状态的定义本身可能存在模糊性。

模型选择的代表性。 虽然评估了23个模型，但世界模型领域的更新速度极快，新模型不断涌现。评估结果的时效性需要持续更新。

泛化性的假设。 WRBench的测试场景是在特定条件下构造的，模型在这些场景上的表现能否代表其在真实世界应用中的表现，还需要进一步验证。

未来研究方向

状态核架构的探索。 最直接的研究方向是设计和实现具有"状态核"的世界模型架构。这可能涉及物理引擎与神经网络的深度耦合——物理引擎提供状态演化的骨架，神经网络处理物理引擎难以建模的细节（如外观、纹理、复杂交互）。

自监督状态学习。 探索不依赖物理引擎标注的自监督方法来学习状态表示。例如，通过"预测未来帧"的自监督任务，迫使模型学习状态的持续演化。但如何确保学到的状态表示具有物理一致性（而不仅仅是统计相关性），是一个开放问题。

WRBench的扩展与标准化。 将WRBench扩展到更多场景类型、更多评估维度、更大规模的模型评估，使其成为世界模型评估的标准工具。

人机协作评估。 进一步完善人类评估与自动化指标之间的校准，探索人类判断在哪些维度上与自动化指标一致、哪些维度上存在分歧。

状态一致性的训练目标。 将返回一致性作为显式的训练损失函数引入世界模型的训练过程，而非仅作为事后评估指标。这可能需要设计新的训练数据生成流程——包含大量"离开-返回"场景的训练样本。

物理先验的整合。 探索如何将物理定律（守恒律、对称性、因果关系等）作为显式先验整合到世界模型中，而不是期望模型从数据中自发地"发现"这些规律。物理学几百年的知识积累可能比海量数据更高效。

总结

WRBench研究揭示了当前世界模型的一个深层缺陷：它们缺少一个不依赖于观察的持久状态核心。当摄像机离开后再返回时，现有模型无一例外地从离开时的状态"恢复"而非继续推进事件——这种"跟踪镜头"行为跨越了控制范式、模型家族和参数规模的界限，更清晰的画面和更大的参数量都无法自动解决这一问题。

这一发现的意义超越了技术细节。它提醒我们，"看起来像真的"和"真的在运行"之间存在本质的鸿沟。世界模型的目标应该是模拟世界如何展开，而不是模拟下一帧看起来如何。状态核的稳定性、世界线在视角干预下的一致性，应该成为世界模型设计的一等公民目标。

从更宏观的角度看，这项研究代表了AI评估从"表象评估"向"本质评估"的重要转变。正如哲学家区分"看起来懂了"和"真的懂了"，WRBench区分了"看起来在模拟世界"和"真的在模拟世界"。这种评估视角的转变，将推动世界模型从"高级渲染器"向"真正的世界模拟器"演进，为通向通用人工智能的道路上扫除一个关键障碍。