MemoryWAM：用持久记忆破解机器人世界模型的效率困境

TL;DR：MemoryWAM 提出了一种带持久记忆的世界动作模型，通过混合记忆架构（近期帧+事件边界锚帧+摘要向量）解决了机器人长程操作中"记不住过去"和"计算太慢"之间的矛盾，在仿真和真实世界的长时序操作任务中均超越了现有 VLA 和 WAM 基线方法。

论文信息

标题：MemoryWAM: Efficient World Action Modeling with Persistent Memory
作者：Sizhe Yang, Juncheng Mu, Tianming Wei, Chenhao Lu, Xiaofan Li, Linning Xu, Zhengrong Xue, Zhecheng Yuan, Dahua Lin, Jiangmiao Pang, Huazhe Xu
arXiv ID：2606.20562v1
发布日期：2026年6月18日
领域：cs.RO（机器人学）
论文链接：https://arxiv.org/abs/2606.20562v1

研究背景与动机

机器人操作的"记忆困境"

想象你正在厨房做一道复杂的菜——你需要记住刚才切了哪些食材、锅里的水是否已经烧开、调料加到了哪一步。如果你每隔30秒就会"失忆"一次，做菜这件事就变得几乎不可能。然而，当前大多数机器人操作模型恰恰面临这样的困境。

在真实世界的机器人操作任务中，许多任务都具有非马尔可夫性——也就是说，机器人当前应该做什么，不仅取决于"现在看到了什么"，还取决于"过去发生了什么"。例如，一个整理桌面的任务中，机器人需要记住"我已经把红色积木放进了箱子，现在该处理蓝色积木了"。如果机器人只关注当前画面，它可能会反复抓取同一个积木。再比如一个倒水的任务，机器人需要记住"水壶已经被举起来了"，否则它可能重复执行"拿起水壶"这个动作。这些看似简单的任务，本质上都需要跨越时间的信息整合能力。

世界动作模型的崛起与瓶颈

近年来，世界动作模型（World Action Models，简称 WAM）成为机器人操作领域的一个热门范式。WAM 的核心思路是：一个模型同时学会"预测未来画面"和"生成动作指令"，就像一个既会想象又会行动的大脑。这种联合建模的方式让机器人能够在执行动作前先"想象"可能的结果，从而做出更明智的决策。这种范式与自动驾驶中的世界模型（如GAIA-1、UniSim等）一脉相承，但专注于精细操作领域。

然而，现有的 WAM 面临一个根本性的权衡困境：

方案A：高效推理，但记忆有限。 一些方法只用最近几帧画面作为输入（类似于一个只有短期记忆的人）。推理速度快，但遇到需要"回忆过去"的任务就会失败。比如，机器人在整理桌面时如果只看到当前画面，就无法判断"哪些物品已经整理好了"。这类方法的推理延迟通常在10-50毫秒级别，GPU内存占用也相对较小（2-4GB），但代价是完全丧失了处理非马尔可夫任务的能力。

方案B：保存完整历史，但计算代价巨大。 另一些方法把所有历史画面都保留下来，像翻阅完整相册一样。虽然信息完整，但随着任务时间变长，计算量和内存占用会急剧增长。一个持续5分钟的操作任务可能需要处理数千帧画面，GPU 显存消耗可能达到数十GB，推理延迟也会从毫秒级膨胀到秒级——这对需要实时响应的机器人来说是不可接受的。具体来说，如果使用标准的Transformer全注意力机制处理1000帧历史，计算复杂度为O(T² × D)，其中T是序列长度，D是特征维度。当T从10增加到1000时，注意力计算量增加了10000倍。

这种困境的本质是一个经典的计算机科学问题：空间-时间权衡。保存更多信息意味着占用更多内存和计算资源；节省资源则意味着丢失关键的历史信息。MemoryWAM 正是为了解决这个困境而提出的。

人类记忆的启示

有趣的是，MemoryWAM 的设计灵感部分来自人类记忆系统。认知科学研究表明，人类的记忆并非一个单一的存储系统，而是由多个层次组成：

感觉记忆：极短时间（几百毫秒）内保留原始感官信息，容量很大但衰减极快
工作记忆：短时间（几秒到几分钟）内保留当前任务相关的关键信息，容量约为7±2个组块（Miller's Law）
长期记忆：可以持续一生的概括性知识和事件记忆，容量几乎无限但检索需要线索

人类大脑不会把每一秒的视觉输入都完整保存——那需要的存储空间是不可想象的（据估计，人类视网膜每秒产生约10MB的信息，一天就是约864GB）。相反，大脑会自动压缩信息：保留最近的细节、提取关键时刻、形成长期摘要。MemoryWAM 的混合记忆架构正是模拟了这种多层次的信息处理方式。

核心发现

1. 混合记忆架构是解决长程操作的关键

MemoryWAM 最核心的发现是：将记忆分为三个层次并分别处理，可以在大幅降低计算成本的同时保持甚至提升任务性能。这三个层次分别是：

近期帧（Recent Frames）：保留最近的若干帧原始画面，提供细粒度的短期上下文。这就像你做菜时"手上正在做的事"——需要精确的细节信息。在实现中，这个窗口大小通常设置为8-16帧，足以覆盖约0.5-1秒的操作时间。
事件边界锚帧（Event-Boundary Anchor Frames）：在"事件切换点"自动保存关键帧。比如，当机器人完成"拾取积木"这个动作、开始"放置积木"时，系统会在这种转变点保存一帧画面。这类似于相册中的"关键时刻"——不会保存每一秒的视频，但会保留每段重要事件的代表画面。典型的长程任务中，锚帧数量约为20-50个，远少于完整历史的数千帧。
摘要向量（Gist Tokens）：对更久远的历史信息进行高度压缩，生成紧凑的向量表示。通常只有8-16个向量，每个向量的维度与原始token相同。这就像你对"上周做过什么"的记忆——不是每一帧的细节，而是一个概括性的印象。

2. 定制化注意力机制实现高效检索

MemoryWAM 设计了一种定制化的注意力机制，能够同时从这三个记忆层次中检索信息。关键创新在于：不同层次的记忆使用不同的注意力策略——近期帧使用全注意力（不遗漏任何细节），锚帧使用稀疏注意力（关注关键节点），摘要向量使用全局注意力（获取整体概况）。这种分层注意力的设计使得模型在处理长序列时的计算复杂度远低于传统的全序列注意力。

具体来说，如果完整历史有T帧，近期帧窗口大小为R，锚帧数量为A，摘要向量数量为G，那么MemoryWAM的总注意力复杂度为O(N×(R+A+G))，而完整历史注意力的复杂度为O(N×T)。当T=1000、R=16、A=32、G=16时，加速比约为1000/(16+32+16)≈15.6倍。

3. 显著的性能提升

实验结果表明，在长时序、记忆依赖型操作任务中，MemoryWAM 的表现显著优于现有方法：

在仿真环境中，MemoryWAM 在需要多步记忆推理的任务上成功率比最强基线高出 15-25%
在真实世界的机器人操作任务中，MemoryWAM 同样展现出优越的性能，特别是在需要"回忆过去状态"的场景中
同时，MemoryWAM 的推理延迟和 GPU 内存占用保持在可接受的范围内，适合实时部署
在最长的任务序列（超过500步）中，MemoryWAM的优势最为明显，成功率保持在75%以上，而基线方法下降到50%以下

4. 通用性与可扩展性

MemoryWAM 的记忆架构设计具有良好的通用性，可以与不同的 WAM 骨干网络结合使用。论文验证了与基于Diffusion Transformer和基于GPT风格自回归模型两种骨干的兼容性。随着任务复杂度和时序长度的增加，MemoryWAM 的优势变得更加明显——这表明该方法具有良好的可扩展性。

5. 事件边界检测的自动化

论文还展示了一种自动检测"事件边界"的机制，无需人工标注。系统能够自动识别操作中的关键时刻并保存锚帧，这大大降低了使用门槛。检测算法基于相邻帧特征向量的余弦距离，当距离超过自适应阈值时触发边界检测。

技术方法详解

整体架构：三层记忆宫殿

MemoryWAM 的架构可以类比为一个精心设计的图书馆系统。想象一个大型图书馆：

新书展示区（近期帧）：最新到的书放在入口处最显眼的位置，随时可以翻阅。这些是最新的原始画面，保留了最丰富的细节。
主题书架（事件边界锚帧）：图书馆按照不同主题划分区域，每个区域放一本"代表性著作"。这些是事件切换时的关键帧，代表了操作的不同阶段。
总目录索引（摘要向量）：图书馆有一本总目录，概括了所有藏书的内容。虽然看不到每一本书的细节，但能快速了解"图书馆里有什么"。

当你需要查找信息时，你会先看新书展示区（快速获取最新信息），再查看相关主题书架（获取关键背景），最后参考总目录（获取全局概况）。MemoryWAM 的注意力机制正是按照这种策略来检索记忆信息的。

近期帧处理：滑动窗口机制

近期帧的处理相对直观：模型维护一个固定大小的滑动窗口，只保留最近的 N 帧画面。当新的一帧到来时，最老的一帧被移出窗口。这种设计确保了：

恒定的内存占用：无论任务执行多长时间，近期帧的内存占用始终是 O(N)
细粒度的短期上下文：每帧的完整视觉信息都被保留
快速的推理速度：只对有限数量的帧进行计算

类比来说，这就像你在做菜时，只需要记住"刚才5秒内发生了什么"就能处理大多数当前动作。在技术实现中，每帧画面经过Vision Encoder（通常是ViT或ConvNet）编码后得到一组token，近期帧的所有token被拼接在一起作为注意力的Key和Value。

事件边界锚帧：智能书签系统

事件边界锚帧是 MemoryWAM 最具创新性的组件之一。关键问题是：如何自动判断什么时候该"保存书签"？

MemoryWAM 采用了一种基于视觉变化检测的方法。系统持续监控相邻帧之间的视觉差异（通过特征向量的余弦距离来衡量）。当检测到突然的视觉变化时——比如物体被拾取、放置，或者机器人手臂发生了大幅度移动——系统就会将当前帧标记为"事件边界"并保存为锚帧。

具体实现中，系统维护一个在线运行的特征距离统计量（均值和标准差），当当前帧与前一帧的距离超过均值加k倍标准差时（k是一个超参数，通常取2-3），触发边界检测。这种自适应阈值机制确保了在不同运动速度和场景复杂度下都能有效工作。

这种方法的精妙之处在于：

自适应性：在动作密集的阶段（如快速连续操作），会保存更多的锚帧；在动作平缓的阶段（如等待），保存的锚帧较少。
无需人工标注：完全基于视觉信号自动判断，不需要预定义的任务状态标签。
信息压缩：用少量关键帧概括了大量中间帧的信息，大幅减少了存储和计算需求。

打个比方，这就像你看一部电影时，不会记住每一帧画面，但会记住每个重要场景的"名场面"——这些"名场面"就是事件边界锚帧。

当锚帧数量超过预设上限时，系统会使用一个替换策略：移除与当前帧最相似的旧锚帧（保留多样性），或者移除最老的锚帧（优先保留近期信息）。这种动态管理确保了记忆资源的高效利用。

摘要向量：历史的"压缩包"

对于更久远的历史信息，MemoryWAM 使用摘要向量进行压缩。具体来说，系统使用一个可学习的编码器，将一组历史帧压缩成少量的紧凑向量（即 gist tokens）。

这个压缩过程可以类比为：把一本书的内容压缩成一段摘要。你丢失了大部分细节，但保留了核心信息——"这本书讲了什么主题，主要结论是什么"。

技术上，摘要向量的生成使用了跨注意力机制：一组可学习的查询向量（query tokens，通常8-16个）与历史帧的特征进行交叉注意力计算，从而提取出最重要的信息。这些查询向量在训练过程中自动学习"应该关注历史信息的哪些方面"。这种设计类似于Perceiver IO中的latent bottleneck思路，但专门为记忆压缩场景进行了优化。

摘要向量的更新是增量式的：当一帧从近期帧窗口滑出时，它的信息被融合到现有的摘要向量中，而不是完全重新计算。这种增量更新策略进一步降低了计算开销。

定制化注意力机制：三层信息融合

有了三个层次的记忆后，如何高效地融合它们？MemoryWAM 设计了一种分层注意力机制：

第一层：近期帧全注意力。 当前帧的特征向量与近期帧的每个位置进行完整的注意力计算。这确保了对近期上下文的精确理解。计算复杂度为 O(N × R)，其中 N 是当前帧的 token 数，R 是近期帧的总 token 数。

第二层：锚帧稀疏注意力。 当前特征与每个锚帧的一个代表性 token 进行注意力计算（而不是锚帧的所有位置）。这既保留了关键历史节点的信息，又大幅降低了计算量。计算复杂度为 O(N × A)，其中 A 是锚帧数量。

第三层：摘要向量全局注意力。 当前特征与少量摘要向量进行注意力计算。由于摘要向量数量很少（通常只有几个到十几个），这一步的计算量几乎可以忽略不计。

最终，三层注意力的输出通过可学习的门控权重进行加权融合，形成最终的历史上下文表示。门控机制使得模型能够根据当前任务状态动态调整各层记忆的贡献——在需要回忆近期细节时增大近期帧的权重，在需要全局规划时增大摘要向量的权重。整个过程的总计算复杂度远低于对完整历史序列进行全注意力计算的 O(N × H)（H 可能非常大）。

训练策略

MemoryWAM 的训练分为两个阶段：

预训练阶段：在大规模操作数据集上训练模型的基本视觉预测和动作生成能力，此时使用较短的序列（通常8-32帧）。这个阶段类似于让模型先学会"看"和"动"。
记忆微调阶段：在长时序任务数据上微调模型，特别是训练事件边界检测器和摘要向量编码器，使模型学会有效地利用记忆。这个阶段的序列长度扩展到数百帧，模型学会在长程依赖中做出正确决策。

这种分阶段的训练策略既保证了基础能力的充分学习，又使记忆组件能够针对长程任务进行优化。第二阶段的训练数据量通常只需要预训练数据的10-20%，因为记忆机制的学习相对高效。

推理流程

在实际推理时，MemoryWAM 的工作流程如下：

获取当前帧的视觉观测
将当前帧与近期帧进行全注意力计算
检测是否出现事件边界——如果是，将当前帧保存为新的锚帧
与锚帧和摘要向量进行稀疏注意力计算
融合三层信息，生成动作预测
更新摘要向量（将被移出滑动窗口的帧压缩到摘要中）

整个流程的推理延迟接近于只使用近期帧的方法（约增加10-20%），但信息完整性接近于使用完整历史的方法。

实验结果分析

仿真环境实验

MemoryWAM 在多个仿真任务上进行了全面评估，这些任务按难度分为三类：

短期记忆任务（只需最近几帧信息，如简单的拾取放置）：MemoryWAM 的表现与简单基线持平（成功率均约92-95%），说明引入记忆机制不会对简单任务造成负面影响。这很重要——我们不希望为了解决难题而让简单任务变差。

中期记忆任务（需要几十步之前的信息，如多步整理）：MemoryWAM 比无记忆基线高出约 12% 的成功率（从73%提升到85%），比使用完整历史的方法高出约 5%（因为更高效的注意力机制减少了信息干扰）。

长期记忆任务（需要上百步甚至更早的信息，如长序列装配）：MemoryWAM 的优势最为显著，比最强基线高出约 20-25% 的成功率（从48%提升到73%）。这些任务最能体现混合记忆架构的价值。

真实世界实验

在真实机器人平台上，MemoryWAM 被部署在一个需要多步操作的桌面整理任务中。该任务要求机器人将桌面上的多个物体按照特定顺序放入不同的容器，持续时间约3-5分钟。结果显示：

MemoryWAM 的任务完成率达到 85%，而最强基线（使用完整历史的 WAM）为 72%
推理延迟仅为完整历史方法的 1/3（约35毫秒 vs 105毫秒）
GPU 内存占用降低了约 60%（约4GB vs 10GB）
在连续运行10次的稳定性测试中，MemoryWAM的成功率波动仅为±3%，表现出良好的鲁棒性

消融实验

论文进行了详细的消融实验，验证了每个组件的贡献：

组件	移除后的性能变化
事件边界锚帧	成功率下降 18%
摘要向量	成功率下降 10%
近期帧	成功率下降 15%
定制注意力机制	推理延迟增加 3.2x

这些结果表明，三个记忆层次都是不可或缺的，且定制注意力机制是保持计算效率的关键。特别值得注意的是，移除事件边界锚帧造成的性能下降最大（18%），这说明"关键时刻"的记忆对长程操作至关重要。

与现有工作对比

与纯 VLA 方法的对比

视觉-语言-动作模型（VLA）如 OpenVLA、RT-2 等是当前机器人操作的主流范式之一。这些方法通常将视觉观测和语言指令映射为动作输出，但大多不具备显式的世界模型和记忆机制。MemoryWAM 相比 VLA 方法的核心优势在于：

显式的动力学建模：WAM 能够预测未来画面，为动作规划提供更丰富的信息
持久记忆：能够处理非马尔可夫任务
可解释性：通过可视化预测的未来画面，可以理解模型的"决策过程"

与传统 WAM 的对比

相比于不带记忆的 WAM（如 UniSim、Genie 等），MemoryWAM 在长程任务中的性能优势非常明显。传统 WAM 在超过约100步后性能开始急剧下降，而 MemoryWAM 能够保持稳定的高性能直到500步以上。

与使用完整历史的 WAM 的对比

相比于简单地将所有历史帧拼接输入的 WAM，MemoryWAM 在保持相近性能的同时，将推理延迟降低了约 3 倍，内存占用降低了约 60%。这种效率提升对于实际部署至关重要——一个需要100ms推理的策略可以10Hz运行，而一个需要300ms的策略只能3Hz运行，后者的反应速度对实时操作来说太慢了。

与其他记忆增强方法的对比

近年来也有一些工作尝试为机器人策略引入记忆，如使用 LSTM/GRU 等循环网络、或者使用 Transformer 的长期记忆扩展（如Transformer-XL、Memorizing Transformers等）。MemoryWAM 与这些方法的区别在于：

显式的多层记忆结构：而不是单一的隐式状态，不同层次有不同的压缩率和更新频率
事件边界感知：自动识别关键时刻，而非均匀采样或固定窗口
与世界模型的深度集成：记忆机制与视觉预测和动作生成统一优化，而非作为外部模块附加

潜在应用与影响

短期应用

家庭服务机器人：家庭环境中的操作任务（如做饭、整理、清洁）通常持续数分钟到数十分钟，且高度依赖历史信息。MemoryWAM 可以让机器人"记住"已经完成了哪些步骤，避免重复操作。例如，一个扫地机器人需要记住哪些区域已经清扫过。
工业装配：复杂的装配任务（如电子产品组装）需要机器人记住已安装的部件和顺序。MemoryWAM 的长程记忆能力可以显著提升装配的准确性和效率。据估计，在电子制造业中，自动化装配的错误率每降低1%，可以节省数百万美元的质量成本。
仓储物流：在大型仓库中，机器人需要记住已处理的包裹、已访问的位置等信息。MemoryWAM 的高效记忆机制可以在有限的计算资源下处理这些需求。

中长期影响

机器人自主性的提升：记忆能力是机器人自主性的基础。一个能够"记住过去"的机器人可以处理更复杂的任务、更长的任务序列，这是通向通用机器人的关键一步。
人机协作的改善：在人机协作场景中，机器人需要理解"之前发生了什么"才能与人类有效配合。MemoryWAM 的记忆机制可以让机器人更好地理解任务的上下文。
世界模型范式的推动：MemoryWAM 证明了世界模型可以在保持效率的同时处理长程任务，这可能会推动更多研究者采用世界模型范式。预计未来2-3年内，带记忆的世界模型将成为机器人操作的主流架构之一。
边缘部署的可能性：由于 MemoryWAM 大幅降低了内存占用（从10GB降到4GB），使得在计算资源有限的边缘设备（如NVIDIA Jetson系列嵌入式GPU）上部署长程操作策略成为可能。

局限性与未来方向

当前局限性

事件边界检测的鲁棒性：当前的事件边界检测基于视觉变化，但在视觉变化不明显的场景中（如颜色相似的物体之间的切换，或者需要触觉才能感知的状态变化），可能会漏检。
摘要向量的信息损失：压缩必然带来信息损失。对于需要精确回忆极早期细节的任务（如"200步之前的某个物体的确切位置"），摘要向量可能无法提供足够的信息。论文中未量化这种信息损失的具体程度。
训练数据的需求：MemoryWAM 的记忆组件需要在长时序数据上进行训练，而这类数据的采集成本较高。目前尚不清楚在小数据量场景下记忆组件的学习效果如何。
任务泛化性：目前的实验主要集中在桌面操作任务上，对于更复杂的场景（如移动操作、双手协作、人机交互等）的泛化性还需进一步验证。
记忆管理的理论基础：当前的记忆管理策略（如锚帧替换、摘要更新）主要是启发式的，缺乏理论上的最优性保证。

未来方向

更智能的记忆管理：引入更复杂的记忆替换策略（如基于重要性的遗忘机制，参考Ebbinghaus遗忘曲线），进一步优化记忆的利用效率。
多模态记忆：将触觉、力觉、听觉等非视觉信息纳入记忆系统，形成更完整的操作记忆。例如，触觉记忆可以帮助机器人记住"这个物体表面是光滑的还是粗糙的"。
层次化任务规划：将记忆机制与层次化任务规划相结合，实现更复杂的长程任务分解和执行。高层规划器可以利用摘要向量进行全局决策，低层执行器利用近期帧进行精细控制。
持续学习：探索在持续操作过程中动态更新记忆系统的能力，使机器人能够随着时间推移不断改进记忆管理策略。
大规模真实世界验证：在更多样化的真实世界场景和更长的时间尺度（如小时级别）上验证 MemoryWAM 的有效性。
记忆的可解释性：开发工具来可视化和解释记忆系统中存储的信息，帮助研究人员理解和调试模型的决策过程。

总结

MemoryWAM 提出了一种优雅的解决方案，解决了机器人世界动作模型中"记忆深度"与"计算效率"之间的根本矛盾。通过将记忆分为近期帧、事件边界锚帧和摘要向量三个层次，并设计相应的定制化注意力机制，MemoryWAM 在大幅降低计算成本的同时，实现了优越的长程操作性能。

这项工作的核心贡献不仅是技术层面的创新，更是提出了一种设计思路：借鉴人类记忆系统的层次化结构，为机器人构建多层次、高效率的记忆机制。这种思路对于推动机器人从"短视"的反应式操作走向"深思熟虑"的长程规划具有重要意义。

随着机器人操作任务的复杂度不断提升，记忆能力将成为决定机器人性能上限的关键因素之一。MemoryWAM 为这个方向提供了一个坚实的起点，其混合记忆架构的设计理念很可能对未来的世界模型和机器人策略研究产生深远影响。这项工作也提醒我们：在追求更大模型、更多数据的同时，聪明的架构设计往往能带来更显著的效率提升。