当摄像机移开后世界就停止了：现有世界模型缺乏持久状态内核

TL;DR

当前所有主流世界模型——无论它们采用扩散、自回归还是混合架构——在生成视频时都无法维持物理世界的"离线演化"能力。研究者提出了WRBench基准测试，通过操控摄像机视角来模拟"观测中断"，发现被测的23个模型在9600段视频中几乎全部表现出同一个致命缺陷：当摄像机移开再回来时，物体停在了被遗忘的那一刻，而不是按照物理规律继续演化。这说明现有世界模型本质上是"跟踪拍摄器"而非真正的世界模拟器。

论文信息

论文标题: Current World Models Lack a Persistent State Core
作者: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju
发表日期: 2026年6月18日
arXiv编号: 2606.20545v1
论文链接: https://arxiv.org/abs/2606.20545v1
页数: 39页，含16张图表
领域: 计算机视觉 (cs.CV)

研究背景与动机

世界模型的愿景

"世界模型"这个概念近年来在人工智能研究中的地位急剧上升。它的核心设想是：让机器像人类一样，拥有一幅关于物理世界的内在图景。人类不需要一直盯着桌上的杯子，也能知道它不会自己飞起来；我们离开房间再回来，球还在按照惯性滚动。这种"不看也能知道发生了什么"的能力，正是智能体理解和操控环境的根基。

从Yann LeCun的自主机器智能蓝图，到Sora等视频生成模型的爆发，世界模型已经从理论概念变成了实际可触的产品形态。然而，一个根本性的问题一直被掩盖在华丽的生成质量指标之下：这些模型真的在"理解"世界的运行方式，还是仅仅在"预测下一帧画面"？

现有评估体系的盲区

目前主流的世界模型评估基准包括VBench、EvalCrafter、WorldScore等。它们衡量什么？画面清晰度、运动流畅性、摄像机可控性、时间一致性。这些指标确实重要，但它们有一个共同的盲区：它们全部关注"在观测期间发生了什么"，从不追问"当不被观测时世界是否还在运行"。

打个比方，这就像用"窗户擦得干不干净"来评估一栋建筑的结构安全性。窗户当然重要，但它完全无法回答"这栋楼在没有人在的时候会不会自己塌掉"这个根本问题。

观测中断测试的灵感

论文作者提出了一个简洁而深刻的测试思路：用摄像机的移开和返回来模拟"观测中断"。这直接借鉴了量子力学中的一个经典思想实验——薛定谔的猫（虽然论文本身没有直接引用这个类比）。在物理世界中，月亮不会因为没有人看它就停止绕地球运转；但现有世界模型生成的"月亮"，在你把"摄像机"移开再转回来时，可能会停在它被遗忘的位置。

这个测试的核心逻辑是：如果一个模型真正理解了物理世界，那么物体在不被观测的期间应该继续按照物理规律演化，而不是"暂停"等待被重新观测。

核心发现

论文提出了WRBench（World-state Reasoning Benchmark），并对23个世界模型进行了大规模测试。这些模型覆盖了四种主流控制范式：

文本到视频（T2V）模型：通过文字描述生成视频
图像到视频（I2V）模型：从静态图片生成动态视频
摄像机可控模型：支持指定摄像机运动轨迹
3D感知模型：带有几何先验或3D重建能力的模型

测试共生成了9600段视频。核心发现可以总结为一个贯穿所有模型的致命缺陷：

所有现有世界模型都把观测中的世界当作"跟踪拍摄"来处理。当摄像机移开后又返回时，物体会以被遗忘那一刻的状态重新出现，而不是按照物理规律继续演化。

具体来说，想象这样一个场景：你拍到一个球从斜坡上滚下。摄像机转向别处10秒钟，然后转回来看斜坡。在真实物理世界中，球早就滚到了坡底甚至更远的地方。但在现有世界模型生成的视频中，当你转回来时，球还停在被移开视线那一刻的位置，好像时间在那一刻被按下了暂停键。

更关键的是，这个缺陷不随以下任何因素改善：

模型规模增大：更大参数量的模型同样表现糟糕
画面质量提升：更清晰的图像不意味着更好的物理理解
控制精度提高：更精确的摄像机控制无法弥补状态维护能力的缺失
架构范式不同：无论是扩散模型、自回归模型还是混合方法，都无法幸免

这一发现的冲击力在于：它表明当前整个世界模型研究范式可能在追逐错误的目标。

技术方法详解

WRBench的设计哲学

WRBench的设计可以用一个类比来理解。想象你在测试一个自动驾驶模拟器：

传统基准测试就像问："这个模拟器画出来的路好看吗？车轮转得自然吗？光影逼真吗？"

WRBench则问了一个完全不同的问题："当你闭上眼睛5秒钟再睁开，车还在往前开吗？还是停在你闭眼那一刻的位置？"

这种评估思路的转换从根本上改变了对"好的世界模型"的定义标准。

三步评估链

WRBench构建了一条人类可校准的评估链条（human-calibrated evaluation chain），包含三个递进层次：

第一层：摄像机交互执行度（Camera Interaction Execution）

测试问题：摄像机是否按照请求的方式运动了？

这听起来简单，但实际上很多模型连"把镜头往左移20度"这样基本的指令都执行不好。这一层是一个门槛测试，淘汰那些连基本摄像机控制都做不好的模型。类比来说，这就像测试一个机器人是否能听懂"往前走三步"这个命令——这是一个最低限度的能力验证。

第二层：场景连续性与可辨识度（Scene Continuity and Identifiability）

测试问题：在摄像机持续运动期间，场景是否保持连续和可辨识？

也就是说，当镜头扫过一个房间时，物体应该保持一致的外观和合理的空间关系，而不是突然变形或消失。这一层测试的是"在观测期间世界是否稳定"。类比来说，这就像测试一个导航系统——你沿着路往前走，两边的建筑不应该突然变成完全不同的东西。

第三层：事件一致性（Event Consistency）

测试问题：当你把镜头转开再转回来时，物体的状态是否与你离开时设定的事件发展一致？

这是最核心、也是现有模型全部失败的测试。论文作者将这种测试设计为：先展示一个正在进行的事件（比如球正在滚动），然后通过摄像机运动"移开视线"一段时间，再转回来看同一个物体。理想情况下，物体应该在你不在的那段时间里继续演化。

视角干预作为观测中断

论文中最精妙的方法论设计在于将"摄像机运动"重新诠释为"对可观测性的干预"（intervention on observability）。传统上，摄像机运动被视为一个生成任务中的控制信号。但在WRBench中，摄像机运动被赋予了更深的含义：它是测试模型是否维护了一个独立于观测的世界状态的工具。

这就像用遥控器切换电视频道来测试"电视剧在你不看的时候是否还在播放"。如果你切到体育频道看了10分钟再切回来，电视剧里的角色应该又经历了10分钟的剧情发展，而不是停在你切走的那一帧。

人工校准机制

WRBench的评估指标经过了人工校准。研究者招募了人类标注者来判断：什么样的"状态延续"是合理的？什么样的变化是物理上说得通的？通过这种方式，评估标准不仅仅基于像素级的相似度，而是基于人类对物理世界的直觉理解。

这种方法的优势在于：它避免了纯粹数学指标可能带来的误导。比如，一个模型可能在像素级相似度上得分很高（物体外观没变），但物理状态完全错误（物体应该移动但没动）。

实验结果分析

测试覆盖范围

论文对23个模型进行了系统测试。这些模型的选择经过了精心设计，覆盖了当前世界模型的四大主要技术路线：

文本到视频生成模型（如Sora类系统）
图像到视频生成模型（从单张图片生成视频序列）
摄像机可控模型（允许用户指定镜头运动轨迹）
3D感知模型（具有显式3D几何理解能力的系统）

每种范式代表了不同的技术假设和架构选择，因此如果所有范式都表现出同样的缺陷，那就说明问题不在于某个具体实现，而在于整个研究方向上的根本性缺失。

核心数据解读

9600段视频的测试结果呈现出一个压倒性的模式：

在第一层（摄像机执行度）上，不同模型之间存在显著差异。有些模型能较好地执行摄像机指令，有些则经常偏离预期。这表明摄像机控制本身已经是一个被较好解决或至少被积极研究的问题。

在第二层（场景连续性）上，表现差异进一步缩小。多数模型在持续观测期间能维持相当不错的场景一致性。这也是现有基准测试主要衡量的维度，所以在这个维度上表现好并不令人意外。

然而，在第三层（事件一致性）上，所有模型无一例外地表现糟糕。当摄像机移开再返回时，物体几乎总是以被遗忘那一刻的状态重新出现。这个发现的统计显著性不言而喻——9600段视频、23个模型、四种范式，没有一个能通过这个测试。

模型规模的影响

论文特别考察了模型规模与第三层测试表现之间的关系。结果令人警醒：更大的模型并没有表现出更好的状态维护能力。这意味着问题不是"我们需要训练更大的模型"，而是"当前的训练目标和架构设计从根本上不包含状态持久性这一能力"。

类比来说，这就像发现一个计算器不管增加多少位数精度，都无法进行文字处理——因为计算器的设计目标就不是处理文字。

控制范式的影响

四种控制范式之间在第三层测试上的表现差异微乎其微。这进一步强化了论文的核心论点：这不是某个特定技术路线的问题，而是整个世界模型评估体系和设计哲学的系统性缺陷。

与现有工作对比

现有基准测试的局限

当前世界模型领域的主流基准测试可以分为几类：

VBench和EvalCrafter：专注于视频生成质量评估，包括画面清晰度、运动自然度、时间一致性等。这些指标有用，但它们只评估"看起来对不对"，不评估"物理上对不对"。

WorldScore：引入了更多维度的评估，包括空间理解和物理合理性。但它仍然主要关注可观测期间的表现，不涉及离线状态维持。

物理理解测试：一些研究尝试测试模型对重力、碰撞等物理规律的理解。但这些测试通常是在受控条件下进行的，不涉及观测中断场景。

WRBench的独特之处在于，它将"观测中断"作为一个独立的评估维度提了出来，这是之前所有基准测试都没有涉及的。

与其他世界模型研究的关系

近年来，世界模型研究主要沿着几条路线发展：

视频预测：预测下一帧或未来几帧
可控生成：在生成过程中引入控制信号
3D感知：引入显式几何表示
物理模拟：尝试将物理引擎与神经网络结合

这些方向都在推进，但它们的评估方式都存在同样的盲区。WRBench的出现相当于在这个领域投下了一颗重磅炸弹——它不仅提出了新测试，还指出所有现有方向可能都在解决错误的问题。

与强化学习世界模型的对比

值得注意的是，强化学习领域中的世界模型（如Dreamer系列）在设计上就包含了状态维护的概念——它们维护一个隐状态向量来追踪环境状态，即使在没有观测的时候也能继续更新。但这些模型的"世界"通常是简化的、低维的，与视频生成模型的高维像素空间完全不同。

论文暗示了一个可能的研究方向：能否将强化学习世界模型中"显式状态维护"的设计思想引入到视频生成世界模型中？这是一个有待探索的开放问题。

潜在应用与影响

对具身智能的影响

世界模型最直接的应用场景是具身智能——让机器人在脑中"想象"行动的后果，再决定如何执行。但WRBench的发现揭示了一个严重问题：如果机器人通过世界模型来规划行动，当它暂时不看某个物体时（比如转身处理另一个任务），模型无法正确维护那个物体的状态。机器人转回来时，可能会"以为"物体还在原来的位置，导致规划错误。

这不仅仅是精度问题，而是安全性问题。想象一个服务机器人在厨房里做饭——它转过身去切菜，同时锅里的水在沸腾。如果世界模型不能正确维护"水在沸腾"这个状态，机器人转回来时可能会做出错误判断。

对自动驾驶的影响

自动驾驶系统越来越多地依赖世界模型来预测周围车辆和行人的行为。当自动驾驶车辆的传感器暂时被遮挡（比如经过隧道或大型车辆旁）时，系统需要在"脑中"继续追踪被遮挡的物体。WRBench的发现表明，当前基于视频生成的世界模型可能无法胜任这个任务。

对游戏和虚拟现实的影响

游戏行业正在积极探索用AI生成游戏世界。理想情况下，一个世界模型驱动的游戏应该在玩家回头看时呈现一个持续演化的世界——NPC继续做他们的事情，物理事件继续发生。但WRBench表明，当前技术可能只能做到"玩家看到什么就生成什么"，而无法维护一个独立于玩家视角的世界状态。

对AGI路线图的影响

论文的发现对通用人工智能（AGI）的路线图有深远影响。世界模型被认为是通往AGI的关键路径之一，但WRBench表明，当前世界模型距离真正的"世界理解"还有根本性的差距。这不意味着世界模型路线是错误的，但意味着我们需要重新思考世界模型应该具备的核心能力。

局限性与未来方向

WRBench自身的局限

尽管WRBench的设计思路深刻而原创，它也存在一些局限：

场景复杂度的边界：当前测试场景虽然覆盖了多种情况，但仍然是人为构造的。真实物理世界中的"观测中断"可能涉及更复杂的因果链和时间尺度。

评估标准的主观性：虽然经过了人工校准，但"物体在不被观测期间应该如何演化"这个问题本身在某些场景下可能有多种合理答案。论文的评估标准可能无法覆盖所有合理的物理解释。

因果推理的深度：WRBench主要测试的是物体状态的延续性，但更深层次的因果推理——比如"A事件在不被观测期间导致了B事件"——可能需要更复杂的测试设计。

技术层面的未来方向

论文的发现指向了几个值得探索的技术方向：

显式状态核心的引入：借鉴强化学习世界模型的设计，在视频生成模型中引入一个独立于观测的"物理状态内核"。这个内核负责维护所有物体的状态，并在生成新帧时将当前状态与新的观测条件结合。这就像给世界模型装上一个"内部时钟"，即使没有新的观测输入，时钟也继续走，物体也继续演化。

世界线一致性的训练目标：在模型的训练过程中加入"世界线一致性"（worldline consistency）这一优化目标。也就是说，不仅要求生成的视频在时间上连续，还要求物体的状态轨迹在整个时间线上物理合理——即使中间有观测中断。

解耦观测与状态：当前的视频生成模型将观测（图像）和状态（物理状态）耦合在一起。未来的研究需要探索如何将两者解耦：让模型维护一个独立的状态表示，然后根据状态和观测条件来渲染图像。

哲学层面的思考

论文实际上触及了一个更深层的哲学问题：什么才算"理解"一个世界？

当前的世界模型可以被描述为"现象学模型"——它们学习的是"现象"（视觉外观），而不是"本质"（物理规律）。它们知道"球看起来在往下滚"，但不知道"球因为重力而在往下滚"。这种区别在观测连续的情况下不明显，但一旦引入观测中断，区别就暴露无遗。

一个真正"理解"世界的模型应该更接近于一个"本体论模型"——它维护的是世界的状态，而不仅仅是最可能的下一帧画面。

总结

这篇论文的贡献可以用三个词概括：提出问题、建立基准、确认缺陷。

首先，论文提出了一个被整个领域忽略的根本性问题：世界模型能否在不被观测的情况下维持物理状态的演化？这个问题如此基本，以至于令人惊讶为什么之前没有人系统地追问。

其次，论文建立了WRBench基准测试，通过将摄像机运动重新诠释为"观测干预"，创建了一套完整的人类可校准评估链条。这个基准的设计思路本身就具有独立的方法论价值。

最后，通过对23个模型、9600段视频的系统测试，论文确认了一个贯穿所有模型、所有架构、所有规模的缺陷：当前世界模型本质上是"跟踪拍摄器"，它们的世界在摄像机移开的那一刻就停止了运转。

这个发现的意义远超单篇论文。它为世界模型研究提出了一个明确的新目标：物理状态内核的稳定性和世界线在视角干预下的一致性。在实现这个目标之前，世界模型仍然是在"绘制下一帧"，而不是在"模拟世界"。

对于从事世界模型研究的从业者来说，这篇论文是一记警钟：不要再仅仅追逐画面质量的提升了。你需要让模型学会一件事——当你不看世界的时候，世界不会停止运转。