LedgerAgent：给AI客服装上一本「账本」，彻底终结工具调用中的混乱与违规

TL;DR

客服AI智能体每天要处理退款、改签、查询订单等复杂任务，中间需要多次调用外部工具，同时严格遵守公司政策。现有做法把所有对话历史、工具返回值和政策规则一股脑塞进提示词，让模型自己从中「拼凑」出当前任务状态。这种方式在简单场景下勉强可用，一旦对话轮次增多、工具调用频繁、政策约束复杂，智能体就会犯两类致命错误：用过时信息做决策，或者调用了一个语法正确但违反业务规则的工具。LedgerAgent的核心思路极其朴素——给智能体配一本独立的「账本」，每次观察到新信息就记到账本上，每次要执行工具前先翻账本检查是否违规。这个看似简单的方法在四个客服场景中全面超越基线，在多轮一致性指标上提升尤为显著。

论文信息

论文标题：LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents
论文ID：2606.20529v1
研究领域：AI智能体、工具调用、客户服务、策略遵从
关键方法：基于账本的任务状态管理 + 工具调用前策略检查
实验规模：4个客服领域 × 多个开源/闭源模型

研究背景与动机

想象你打了一个客服电话，要退掉上周买的机票。客服人员一边跟你对话，一边在系统里查你的订单、核实退款政策、计算手续费、发起退款流程。整个过程中，客服脑子里始终维持着一幅「任务地图」：你是谁、买了什么、要退什么、退的理由是什么、当前进行到哪一步、哪些条件满足了哪些还没有。这幅地图随着每一句对话和每一次系统查询不断更新，客服据此决定下一步该做什么。

现在把这个场景搬到AI智能体身上。一个大语言模型驱动的客服机器人也需要完成同样的工作：接收用户消息、调用各种外部工具（查订单、查库存、发起退款、修改地址等）、遵守公司的业务规则（比如「购买超过30天的商品不能退款」或「VIP客户可以免除手续费」）。问题是，这个AI并没有一个真正的「大脑」来维护那幅任务地图。它只有一段长长的提示词，里面塞满了对话历史、工具返回的结果、以及一长串政策条文。

这种设计的根本缺陷在于：任务状态是隐式的。模型需要每次从提示词中重新「阅读理解」出当前的任务状态，然后再决定下一步动作。这就好比让一个人每次做决策前都要重新阅读一整本会议记录，从中找出关键信息。当对话只有两三轮、工具只调用了两三次的时候，这勉强可行。但真实的客服场景往往涉及十几轮对话、十几次工具调用、以及数十条相互交织的政策约束。在这种复杂度下，隐式状态管理开始崩溃。

研究团队观察到两种典型的失败模式。

第一种叫做「信息腐化」。智能体在早期轮次中通过工具调用获取了正确的信息——比如用户订单编号是12345，退款金额是580元。但在后续轮次中，当它需要基于这些信息做决策时，可能从提示词中提取了错误的值：把订单号搞混了，或者把退款金额记错了。更隐蔽的情况是，信息在提示词中已经被更新了（比如用户中途修改了退款原因），但智能体在做决策时仍然引用了旧的值。这种错误很难被发现，因为工具调用本身是语法正确的，只是基于了错误的前提。

第二种叫做「策略违规」。即便智能体正确地记住了所有事实，它仍然可能违反那些依赖于当前任务状态的业务规则。比如一条政策说「已发货的订单不能修改收货地址」，但智能体可能在订单状态已经变为「已发货」之后仍然尝试调用修改地址的工具。这种情况下，工具调用在语法层面完全合法——API参数格式正确、必填字段都填了——但它违反了业务逻辑。

这两种失败模式的根源是同一个：任务状态没有被显式地、结构化地管理。现有的提示词工程方法试图通过更精心设计的提示模板来缓解这个问题，但本质上仍然依赖模型自己从非结构化的文本中重建状态。这就像是用更清晰的字体打印会议记录——能帮一点忙，但根本问题并没有解决。

更深层的挑战在于策略遵从。在传统软件工程中，业务规则可以通过类型系统、断言、前置条件和后置条件来强制执行。但在LLM智能体的世界里，这些保障机制不存在。模型生成的工具调用直接发送给外部API，中间没有任何自动化的策略检查层。如果模型「忘记」了一条政策，或者错误地判断了当前状态是否满足某条政策的前提条件，违规调用就会直接执行。

这个问题的严重性随着工具调用频率的增加而指数级增长。假设一个客服场景平均需要5次工具调用，每次调用有5%的概率违反某条政策，那么整个会话中至少出现一次违规的概率大约是23%。当工具调用次数增加到10次时，这个概率飙升到40%。在高频调用的真实客服场景中，不加约束的智能体几乎必然会在某个环节违规。

核心发现

LedgerAgent的研究带来了几个重要的发现，它们共同描绘出一幅清晰的图景：显式状态管理是工具调用智能体可靠性的关键瓶颈。

发现一：隐式状态管理是系统性问题，不是偶发bug。 研究团队在四个不同的客服场景中测试了标准的提示词式工具调用方法，发现在所有场景中都存在相当比例的状态相关失败。这些失败不是随机分布的，而是集中在特定的模式上：在对话后期（状态信息积累较多时）失败率更高，在涉及多个工具调用链的任务中失败率更高，在政策约束复杂的场景中失败率更高。这证明了问题的根源在于架构设计，而非个别模型的能力不足。

发现二：显式账本能显著提升工具调用的正确率。 LedgerAgent通过维护一个独立的结构化账本来记录任务状态，每次工具调用的结果都会被解析并写入账本，每次决策前都会从账本中读取最新状态。这种方法在所有四个场景中都取得了超越基线的pass@k指标。所谓pass@k，是指在k次尝试中至少有一次生成正确结果的概率。这个指标能同时反映模型的「最佳表现」和「稳定性」。

发现三：在多轮一致性指标上提升最为显著。 传统的pass@1衡量的是单次尝试的准确率，但实际部署中更关心的是智能体是否能始终保持一致的正确行为。研究团队使用了更严格的多轮一致性度量，在这类指标上LedgerAgent的优势更加明显。这说明账本机制的核心价值不仅在于提高单次准确率，更在于为智能体提供了一个稳定的「锚点」，防止它在长对话中逐渐偏离正确轨道。

发现四：策略检查层能有效拦截违规调用。 LedgerAgent不仅维护状态账本，还在工具调用执行前增加了一个策略检查步骤。这个步骤根据账本中的当前状态来评估待执行的工具调用是否违反任何业务规则。如果检测到违规，调用会被阻断，智能体需要重新规划。实验表明，这个机制能拦截绝大多数策略违规，且对正常调用的延迟影响很小。

发现五：方法在不同模型间具有良好的泛化性。 研究团队在开源和闭源模型上都进行了测试，发现LedgerAgent的提升效果在不同模型间保持一致。这意味着账本机制不依赖于某个特定模型的特殊能力，而是一种通用的架构改进，可以与任何工具调用模型配合使用。

这些发现共同指向一个结论：工具调用智能体的可靠性瓶颈不在模型能力，而在状态管理架构。一个能力更强的模型仍然会因为隐式状态管理而犯同样的错误，而一个结构化的账本机制能让较弱的模型也避免这类错误。

技术方法详解

LedgerAgent的技术设计可以用一个生活中的类比来理解。想象你是一个餐厅的服务员，同时负责五桌客人的点餐。你需要记住每桌点了什么菜、哪些菜已经下单、哪些菜需要特殊处理（比如过敏、忌口）、哪些菜已经上桌。一个新手服务员可能把这些信息全部记在脑子里——这就是隐式状态管理。大多数时候他能应付，但忙起来的时候就会搞混：把3号桌的菜端到5号桌，或者忘了2号桌有人对花生过敏。

一个训练有素的服务员会怎么做？他会随身带一个记事本（账本）。每桌下单时，他在记事本上逐条记录；每上一道菜，他在对应条目上打勾；遇到特殊要求，他用醒目的标记标注。每次需要做决策时——比如哪桌该上下一道菜了——他先翻开记事本查看当前状态，而不是靠记忆。LedgerAgent做的就是把这种「记事本」方法系统化地应用到AI智能体上。

下面详细拆解LedgerAgent的各个组件。

账本的数据结构

账本（Ledger）是一个结构化的状态表示，包含以下几类信息：

实体信息：从对话和工具调用中提取的关键实体，比如用户ID、订单编号、产品名称、价格等。每个实体都有一个明确的类型和值，并且会随着新的信息到来而更新。比如，当工具返回了新的订单状态时，账本中的对应条目会被覆盖为最新值。

约束信息：从工具返回值和政策规则中推导出的约束条件。比如「订单已发货」「退款金额不超过原价的80%」「用户是VIP客户」等。这些约束是后续策略检查的依据。

历史操作记录：已经执行过的工具调用及其结果的摘要。这不是原始的工具返回JSON，而是经过提炼的关键信息。比如一次订单查询工具调用的结果可能是几百行的JSON，但账本中只记录「订单12345状态：已发货，金额：580元，下单时间：2024-01-15」。

这种结构化的设计让状态查询变得极其高效。模型不再需要从几百行的对话历史和工具返回值中「大海捞针」，而是直接读取一个精炼的状态摘要。这就像是从一沓收据中找某个商品的价格，和直接看购物小票汇总的区别。

账本的维护机制

账本的维护遵循一个清晰的循环：

观察→提取→更新→决策→执行→观察

每当有新的信息进入系统——无论是用户的对话消息还是工具的返回结果——LedgerAgent会先将其解析为结构化的状态更新，然后写入账本。这个过程可以类比为银行记账：每一笔收入或支出都被记录为一条账目，账本的余额随着每一笔记入而自动更新。

关键的设计选择是：账本更新和决策生成是分离的两个步骤。在标准的提示词式方法中，模型需要同时完成「理解上下文」和「做出决策」两项任务，这两项任务在同一个前向传播中交织进行，容易互相干扰。LedgerAgent把「理解上下文并更新账本」和「基于账本做出决策」拆成了两个独立的步骤，每一步都有明确的输入和输出格式。

这种分离带来了几个好处。首先，账本更新步骤可以使用一个结构化的提示模板，明确要求模型提取哪些类型的实体和约束，降低了遗漏信息的概率。其次，决策步骤看到的输入是一个干净、结构化的状态摘要，而不是杂乱的原始上下文，降低了误读信息的概率。最后，两个步骤可以分别优化——比如账本更新步骤可以使用更复杂的提示工程或少量示例，而决策步骤可以专注于推理和规划。

策略检查层

这是LedgerAgent最关键的创新之一。在执行任何会改变外部状态的工具调用之前（比如发起退款、修改地址、取消订单），系统会自动运行一次策略检查。

策略检查的输入有三部分：当前账本状态、待执行的工具调用、以及业务规则列表。系统会逐一检查每条规则是否适用于当前的工具调用，如果适用，则验证当前账本状态是否满足规则的前提条件。只有所有检查都通过，工具调用才会被执行。

用餐厅的例子来说，这就像是服务员在把菜单交给厨房之前，先检查一下：这道菜里有没有客人过敏的食材？客人点的是不是还没到供应时间的菜品？厨房目前的订单量是否已经超负荷？这些检查如果在菜做好之后才发现问题，就会造成浪费；如果在下单前就检查，就能避免不必要的错误。

策略检查层的实现方式是将业务规则转化为基于账本状态的条件判断。每条规则被表示为一个「前提→结论」的形式，比如：

前提：订单状态为「已发货」
约束：不允许调用「修改收货地址」工具

在运行时，系统检查账本中订单状态是否为「已发货」，如果是，则阻断「修改收货地址」的工具调用，并向模型返回一个说明：「该操作被策略阻断，原因：订单已发货，不允许修改地址。请告知用户这一限制并提供替代方案。」

这种阻断不是简单的「不执行」，而是附带了阻断原因的反馈。模型收到这个反馈后，可以调整自己的策略——比如建议用户等收到货后再申请换货，而不是直接修改地址。这就形成了一个「尝试→检查→反馈→调整」的闭环，比单纯依靠模型的内在「记忆」来遵守政策要可靠得多。

提示词渲染

账本中的信息需要以一种模型容易理解的方式注入到提示词中。LedgerAgent使用了一个专门的提示词渲染模块，将账本的结构化数据转换为自然语言的状态描述。

这个渲染过程不是简单的JSON序列化，而是生成一段类似「当前任务状态报告」的文本。比如：

「当前任务状态：用户张三（ID: U789）要求退款。订单12345包含一件蓝色衬衫（SKU: BT-001），原价580元，实付580元。订单当前状态：已发货。用户退款原因：尺码不合适。当前退款流程：尚未发起。适用政策：已发货订单需先拒收或退货后才能退款；VIP客户可免除退货运费。」

这种渲染方式比原始JSON更容易被模型理解和利用，同时也比纯对话历史更结构化和精炼。它就像是给模型提供了一份「作战简报」，而不是让它从一堆原始情报中自己总结。

与标准方法的架构对比

标准的工具调用方法可以描述为：所有信息→一个提示词→一个模型→工具调用。模型同时承担理解上下文、维护状态、选择工具、生成参数、遵守政策等多项职责，所有这些都在一次推理中完成。

LedgerAgent的架构则是：新信息→账本更新→策略检查→工具调用→结果写回账本。每个步骤都有明确的输入、输出和职责边界。模型在每个步骤中只承担一项任务，降低了认知负荷。

这种架构转变的深层含义是：把智能体的「隐性知识」转化为「显性记录」。在标准方法中，模型「知道」订单已发货这个事实，但这种「知道」是分布在模型的注意力权重中的，可能在下一次推理中被遗忘或混淆。在LedgerAgent中，「订单已发货」这个事实被明确地写在账本的特定字段中，每次决策都会被读取，不会被遗忘。

实验结果分析

研究团队在四个客服领域中评估了LedgerAgent，涵盖了不同类型的工具调用场景和政策约束复杂度。

实验设置

四个客服领域各自包含一套工具集（模拟真实的客服系统API）、一组业务规则、以及一批测试用例。测试用例覆盖了不同复杂度的任务：从简单的单步查询到复杂的多步操作流程。每个测试用例都定义了期望的工具调用序列和最终结果，用于自动评估。

研究团队使用了多个开源和闭源模型作为底层推理引擎，以验证LedgerAgent的模型无关性。

核心指标

主要评估指标是pass@k，即在k次独立尝试中至少有一次生成正确结果的概率。pass@1衡量单次准确率，pass@k（k>1）则同时反映了模型的最佳表现和一致性。研究团队还使用了更严格的多轮一致性指标，要求模型在多次尝试中都能保持正确的工具调用序列。

结果概述

在所有四个场景中，LedgerAgent都超越了标准的提示词式基线方法。具体来说：

pass@1指标的提升幅度在不同场景中有所差异，在政策约束最复杂的场景中提升最大。这符合预期——政策约束越多，隐式状态管理的负担越重，显式账本的优势就越明显。

多轮一致性指标的提升更为显著。这表明账本机制的核心价值不仅在于提高单次准确率，更在于为多次尝试提供了一个稳定的参照系，减少了结果的随机波动。

在不同模型间的提升效果保持一致，说明这是一种架构层面的改进，不依赖于特定模型的特殊能力。

失败模式分析

研究团队还对剩余的失败案例进行了分析。LedgerAgent未能完全消除的错误主要集中在两类：

第一类是语义理解错误。比如用户说「把那个东西退了」，模型需要从上下文中推断「那个东西」指的是什么。这类错误本质上是自然语言理解的挑战，不是状态管理能解决的。

第二类是复杂推理错误。某些政策规则的适用条件不是简单的状态查询，而是需要多步推理才能判断。比如一条规则可能说「如果订单包含促销商品且退款原因为质量问题，则可以全额退款」，这需要模型同时检查多个账本字段并进行逻辑组合。LedgerAgent的策略检查层能处理简单的条件判断，但更复杂的推理仍然依赖模型本身的能力。

与现有工作对比

在工具调用智能体的研究领域中，LedgerAgent的方法与几种现有范式形成了有趣的对比。

与纯提示词方法的对比：这是最直接的对比对象。纯提示词方法通过精心设计的提示模板来引导模型正确调用工具和遵守政策。LedgerAgent的优势在于将状态管理从「隐式」变为「显式」，将策略检查从「模型自律」变为「系统强制」。实验结果表明，这种架构改进在所有场景中都带来了正向提升。

与ReAct等推理框架的对比：ReAct（Reasoning + Acting）框架让模型在每一步都先进行推理（输出思考过程），然后再执行动作。这种方法改善了决策的可解释性，但并没有解决状态管理的根本问题——状态信息仍然隐式地分布在推理链中。LedgerAgent可以与ReAct结合使用：在推理之前先查阅账本，让推理基于准确的状态信息。

与函数调用（Function Calling）方法的对比：现代大语言模型普遍支持函数调用能力，可以自动生成结构化的工具调用。函数调用解决了「如何正确格式化工具调用」的问题，但没有解决「何时应该调用哪个工具」和「这个调用是否违反政策」的问题。LedgerAgent在函数调用之上增加了一层状态管理和策略检查，两者是互补的关系。

与传统工作流引擎的对比：在传统软件工程中，复杂业务流程通常用工作流引擎（如Airflow、Camunda）来管理。这些引擎维护明确的状态机，每个状态转移都有前置条件检查。LedgerAgent可以被看作是一种面向LLM智能体的轻量级工作流管理机制——它不像传统工作流引擎那样需要预定义所有可能的状态转移路径，而是通过账本和策略检查来约束模型的行为，同时保留了模型的灵活性。

这种对比揭示了一个深层的权衡：灵活性与可靠性。传统工作流引擎高度可靠但缺乏灵活性——任何未预见的场景都会导致流程中断。纯LLM方法高度灵活但缺乏可靠性——模型可能在任何时候犯错。LedgerAgent试图在两者之间找到一个平衡点：通过账本和策略检查提供可靠性的「底线」，同时通过模型的推理能力保留处理新场景的灵活性。

潜在应用与影响

LedgerAgent的方法虽然在客服场景中进行了验证，但其核心思想——显式状态管理加策略检查——可以推广到更广泛的工具调用应用场景。

企业级AI助手：企业内部的AI助手需要执行各种行政操作，如审批流程、报销处理、会议室预订等。每种操作都有对应的业务规则和权限约束。LedgerAgent的账本和策略检查机制可以直接应用于这类场景，确保AI助手不会越权操作或违反公司政策。

医疗健康领域：AI辅助的医疗系统需要在诊断和治疗建议中严格遵守临床指南和药物相互作用规则。一个显式的状态账本可以记录患者的当前诊断、用药情况、过敏史等关键信息，策略检查层可以在生成建议前验证是否违反任何临床规则。在这个领域，AI犯错的后果比客服场景严重得多，因此可靠的策略遵从机制更加关键。

金融服务领域：金融交易和投资建议涉及大量的合规要求和风险控制规则。AI驱动的交易助手或投资顾问需要在每次操作前检查是否违反监管要求。账本机制可以实时记录持仓状态、风险敞口、合规约束等信息，为每次交易决策提供可靠的上下文。

软件开发助手：AI代码助手在执行代码修改、部署操作、数据库迁移等任务时，也需要遵守开发规范和安全策略。账本可以记录当前的代码状态、分支信息、测试结果等，策略检查可以确保不会在未通过测试的代码上执行部署操作。

法律和合规领域：AI法律助手在起草合同、审查文件时需要确保符合相关法律法规。账本可以记录案件的关键事实和适用的法律条款，策略检查可以在生成文档前验证是否遗漏了必要的法律声明或违反了合规要求。

更广泛地说，LedgerAgent的方法论对整个AI智能体领域都有启发意义。它指出了一条通过工程化手段（而非纯粹依赖模型能力）来提升智能体可靠性的路径。在模型能力不断进步的当下，这种「模型+工程」的思路可能比单纯追求更大的模型更务实、更有效。

局限性与未来方向

LedgerAgent并非银弹，它的设计选择也带来了一些固有的局限性。

账本的维护需要额外的推理开销。 每次观察到新信息后，系统需要运行一次账本更新步骤，这增加了整体的推理延迟。在对响应速度要求极高的实时客服场景中，这个额外开销可能需要权衡。研究团队的实验表明这个开销在可接受范围内，但在极端低延迟场景中可能需要优化。

账本的设计需要领域知识。 不同的客服场景需要不同结构的账本——哪些实体需要追踪、哪些约束需要检查，这些都需要领域专家预先定义。这意味着LedgerAgent不是一个「开箱即用」的通用解决方案，而是需要针对每个具体场景进行定制。自动化账本结构的设计和生成是一个值得探索的未来方向。

策略检查层的能力边界。 当前的策略检查主要处理简单的条件判断，对于需要复杂推理或常识判断的政策规则，检查层的能力有限。比如一条规则说「如果客户的退款请求看起来不合理，则转交人工审核」，这里的「看起来不合理」很难被形式化为基于账本字段的条件判断。更复杂的策略检查可能需要引入专门的小型推理模型。

账本可能引入新的错误来源。 虽然账本的目标是减少状态管理错误，但账本本身的维护也可能出错。比如账本更新步骤可能错误地提取了实体的值，或者遗漏了重要的约束信息。这些错误会被传播到后续的决策中，而且可能比原始的隐式方法更难发现，因为它们被「固化」在了账本中。账本的一致性验证机制是一个需要进一步研究的问题。

多智能体场景的扩展。 当前的LedgerAgent针对单智能体场景设计。在多智能体协作的场景中（比如多个AI助手共同处理一个复杂的客户请求），如何共享和同步账本是一个开放问题。每个智能体维护独立的账本可能导致状态不一致，而共享账本又引入了并发控制的复杂性。

未来的研究方向还包括：将账本机制与长期记忆系统结合，让智能体在跨会话的场景中也能保持状态一致性；探索自动化的账本结构学习，减少领域专家的参与；研究账本的可压缩性，在保持关键信息的同时降低存储和推理开销；以及将策略检查层扩展为一个完整的「合规推理引擎」，能处理更复杂的政策规则。

总结

LedgerAgent解决的是一个看似平凡但影响深远的问题：AI智能体如何在复杂的工具调用场景中可靠地管理任务状态和遵守业务规则。它的核心洞察是，这个问题不应该完全交给模型的内在能力来解决，而应该通过显式的工程化机制来提供保障。

账本这个概念并不新鲜——从古代的记账泥板到现代的数据库，人类一直在用各种形式的「账本」来管理复杂的状态信息。LedgerAgent的贡献在于把这个古老的智慧应用到了AI智能体的架构设计中，并且用实验数据证明了它的有效性。

这个工作更重要的启示在于方法论层面：在追求更强模型能力的同时，我们不应该忽视架构设计的力量。一个好的架构可以让较弱的模型发挥出更强的性能，而一个糟糕的架构会让最强的模型也犯低级错误。LedgerAgent展示了「显式优于隐式」这条软件工程的基本原则在AI智能体领域同样适用。

在AI智能体从实验室走向真实世界的进程中，可靠性是最大的障碍之一。用户不会容忍一个经常犯错的客服机器人，企业更不会接受一个可能违反合规要求的AI助手。LedgerAgent提供的显式状态管理和策略检查机制，虽然不能解决所有可靠性问题，但它为构建可信赖的工具调用智能体提供了一个坚实的基础。

未来的AI智能体很可能会同时具备强大的推理能力和精心设计的架构保障——就像一个优秀的客服人员既需要敏锐的判断力，也需要规范的操作流程。LedgerAgent正是朝着这个方向迈出的扎实一步。