TimeProVe：先提议后验证，高效理解长视频的时间推理框架

TL;DR： TimeProVe 提出了一种"先提议、后验证"的两阶段框架，用于高效处理长视频问答任务。核心思路是用轻量级模块先从视频中提取动作级别的候选证据，再用昂贵的大视觉语言模型（VLM）做针对性验证。结果：在自建的 OTB 基准上比最强基线高出 7.3%，VLM 调用次数减少 75%，推理成本降低 93%。

论文信息

标题： TimeProVe: Propose, then Verify for Efficient Long Video Temporal Reasoning in Activities of Daily Living
作者： Arkaprava Sinha, Dominick Reilly, Siddharth Krishnan, Hieu Le, Srijan Das
发表日期： 2026 年 6 月 18 日
arXiv ID： 2606.20561v1
领域： 计算机视觉与模式识别 (cs.CV)
链接： arXiv 页面｜ PDF

研究背景与动机

长视频问答（Long Video Question Answering, LVQA）是计算机视觉领域中一个极具挑战性的任务。想象一下，你面前有一段长达数小时的监控视频，有人问你："视频里的人在什么时候打开了冰箱？"要回答这个问题，你需要在成千上万帧画面中精准定位到那个特定的动作——这就像在一本书的几百页内容中找到一句话。

当前的解决方法大致分为两个阵营。第一个阵营采用"大力出奇迹"的策略：把整个视频直接喂给大型视觉语言模型（VLM）。这些模型确实能力强大，但代价也极其高昂。一段一小时的视频通常包含超过十万帧画面，即便是采样后也有数千帧需要处理。以目前主流的 VLM 为例，处理一帧图像大约消耗数百个 token，整段视频下来就是一个天文数字。粗略估算，处理一段 2 小时的视频可能需要花费数十美元的 API 调用费用，而且推理延迟可能长达数分钟。这在实际应用中是完全不可接受的。从更宏观的视角看，全球每天产生的视频数据量以 EB（Exabyte）为单位计算，如果每个视频都需要如此高昂的处理成本，那么视频理解技术将永远无法真正落地。

第二个阵营走的是"化繁为简"的路线：先用模型生成视频的文字描述（caption），然后基于这些描述进行推理。这种方法虽然成本低，但有一个致命缺陷——文字描述往往丢失了关键的时间和运动信息。比如，视频中一个人"快速地把杯子从左手换到右手"这样的细节动作，很容易在文字描述中被忽略或模糊化。文字描述就像是对一幅画的文字转述，再精确的转述也无法完全还原画面本身的信息密度。结果就是，模型虽然看了视频的"摘要"，但其实"视而不见"。

更深层的问题在于，这两种方法都没有很好地处理视频中的时间定位（temporal grounding）问题。所谓时间定位，就是不仅要知道视频中发生了什么，还要精确到具体的时间段。这在日常生活活动（Activities of Daily Living, ADL）场景中尤为重要——比如在养老院监控、智能家居、康复训练评估等场景中，不仅需要识别"老人摔倒了"，还需要知道"摔倒发生在第 47 分钟 23 秒到第 47 分钟 31 秒之间"。没有精确的时间定位，这些系统就无法真正服务于实际需求。

现有的时间定位方法通常需要专门的训练数据和标注，而这些数据的获取成本极高。一段视频中，一个动作可能只持续几秒钟，而整段视频可能长达数小时，标注的稀疏性使得训练变得非常困难。这就好比在一部长篇小说中标注每一个"角色转身"的动作——工作量巨大，而且标注的主观性也很高。

TimeProVe 的设计初衷就是要找到一个"两全其美"的方案：既能利用大型 VLM 的强大推理能力，又不需要为每一帧都调用它；既能实现精确的时间定位，又不需要专门的时间定位训练数据。这就像一个经验丰富的侦探——他不会亲自去检查每一个角落，而是先让助手们搜集线索、形成假设，自己只需要去验证最关键的几个假设即可。

研究团队还注意到，日常生活活动视频（ADL）与一般的电影、体育赛事视频有本质区别。ADL 视频中的动作通常更加细粒度、更加日常化（如开门、倒水、穿鞋），而且动作之间的时间间隔很长，中间夹杂着大量"无意义"的画面。比如一段 2 小时的做饭视频中，真正"在切菜"的时间可能只有 10 分钟，其余时间都是在等待、走动或者做其他无关的事情。这种特点使得现有的视频理解方法更加力不从心。

从技术发展的历史脉络来看，视频理解领域经历了几个重要阶段。早期的方法主要依赖手工特征和光流，代表作包括 i3D、TSN 等。随后，预训练视觉语言模型的兴起带来了新的范式，CLIP、BLIP 等模型为视频理解提供了强大的视觉-语言对齐能力。最近，随着 GPT-4V、Gemini 等大型多模态模型的出现，视频理解进入了一个新的时代——但同时也面临了前所未有的计算成本挑战。TimeProVe 正是在这个背景下应运而生，试图在能力与效率之间找到一个最优平衡点。

核心发现

TimeProVe 的实验结果令人印象深刻，主要体现在以下几个方面：

显著的性能提升。 在自建的 OpenTSUBench（OTB）基准测试中，TimeProVe 取得了 64.0% 的准确率，比最强的基线方法（46.2%）高出 7.3 个百分点。这个提升看似不大，但在视频理解领域已经是一个相当显著的进步。要知道，OTB 是一个开放式的基准测试，答案不是简单的"是/否"选择，而是需要模型生成具体的、有时间戳支撑的答案，难度远高于传统的选择题基准。

计算成本的大幅降低。 TimeProVe 的 VLM 调用次数减少了 75%，推理成本降低了 93%。换算成具体数字：如果基线方法处理一段视频需要调用 VLM 100 次、花费 10 美元，那么 TimeProVe 只需要调用 25 次、花费 0.7 美元。这种成本效率的提升对于大规模部署至关重要。想象一下，一个拥有 1000 个摄像头的智能养老院，每天产生 2000 小时的视频——如果用基线方法处理，每天的成本高达数千美元；而用 TimeProVe，成本可以降到几十美元。

意外的零样本时间定位能力。 一个令人惊喜的发现是，TimeProVe 在没有接受任何时间定位训练的情况下，就能在 Charades-STA 基准上取得有竞争力的性能。Charades-STA 是一个标准的时间定位基准，要求模型预测视频中特定活动的时间段。TimeProVe 在此基准上的 R@1（IoU=0.5）达到了 21.46%，这在零样本设置下是一个相当不错的结果。这种能力来源于 ACE 模块的设计——通过动作级别的证据提取，天然地保留了时间信息。

与定位 VLM 结合后达到 SOTA。 当 TimeProVe 与具备时间定位能力的 VLM（如 Qwen2.5-VL）结合使用时，在 Charades-STA 上分别达到了 55.80%（R@1, IoU=0.5）和 32.68%（R@1, IoU=0.7）的最优性能。这说明 TimeProVe 的框架具有良好的可扩展性——通过替换其中的 VLM 模块，就能持续获得性能提升。这种"模块化"的设计思想使得 TimeProVe 可以随着基础模型的进步而持续受益。

ACE 模块的关键作用。 消融实验证明，Action-based Candidate Evidence（ACE）模块是 TimeProVe 成功的关键。当移除 ACE 模块后，性能从 64.0% 骤降至 29.2%。这个巨大的差距说明，"先提议"这一步骤不是可有可无的装饰，而是整个框架的核心支柱。没有 ACE 模块，整个系统就像一个没有提前做功课的学生——面对考试只能瞎猜。

证据窗口设计的有效性。 实验还表明，使用以动作中心的证据窗口（而非简单的均匀采样或基于字幕的窗口）能带来显著的性能提升。以动作为中心的窗口设计将准确率从 40.8% 提升到 64.0%。这个 23.2 个百分点的提升说明，证据窗口的设计方式对最终结果有决定性影响。

跨基准的泛化能力。 TimeProVe 在 OTB（日常生活活动）和 Charades-STA（通用活动）两个不同类型的基准上都取得了良好表现，说明其框架设计具有一定的通用性，而非针对特定场景的过拟合。

技术方法详解

TimeProVe 的架构可以用一个精妙的比喻来理解：它就像一家律师事务所的运作模式。律师事务所不会让首席律师（昂贵的 VLM）亲自去搜集每一条证据，而是先让初级律师和调查员（轻量级模块）搜集所有可能的证据、形成初步论点，首席律师只需要审查最关键的几条证据，做出最终判断。这种分工合作的模式，既保证了推理质量，又大幅降低了人力成本。

第一阶段：提议（Propose）

这一阶段由三个核心模块组成：

1. 视频采样与字幕生成模块。 首先，对长视频进行均匀采样，每隔一定时间间隔抽取一帧。然后，使用一个轻量级的图像字幕生成模型为每一帧生成文字描述。这一步就像给一本书的每一页拍照并写下简短的摘要。虽然信息会有损失，但足以提供全局概览。

这个模块的设计需要在信息覆盖率和计算成本之间找到平衡。采样间隔太大会遗漏关键动作，太小则会增加后续处理的负担。研究团队通过实验确定了一个合适的采样策略，既能覆盖视频中的主要动作，又不会产生过多的冗余描述。

2. Action-based Candidate Evidence（ACE）模块。 这是 TimeProVe 的核心创新，也是整个框架的灵魂所在。ACE 模块的目标是从视频的动作流中提取与问题相关的候选答案和证据窗口。

具体来说，ACE 模块接收两个输入：用户的问题和视频的动作序列。然后，它通过轻量级 LLM 推理，完成以下三个任务：

动作相关性评分： 对视频中的每个动作片段，评估其与用户问题的相关程度。这就像一个图书管理员快速翻阅目录，标记出可能包含答案的章节。相关性评分使用了一个简单的语义相似度计算，不需要复杂的深度学习模型。
候选答案生成： 基于相关的动作片段，生成可能的答案。这些答案不是凭空猜测的，而是基于视频中实际观察到的动作。ACE 模块会从字幕描述中提取动作信息，并将其转化为自然语言形式的答案候选。
证据窗口定位： 为每个候选答案指定一个时间窗口，即答案所依据的视频片段。这一步确保了答案有据可查。证据窗口的大小会根据动作的持续时间自动调整——短暂的动作（如"开门"）使用较短的窗口，持续的动作（如"做饭"）使用较长的窗口。

ACE 模块的巧妙之处在于，它将"时间定位"问题转化为了一个"动作-查询匹配"问题。传统的做法是先定位视频中的时间段，再在这些时间段中寻找答案。ACE 反其道而行之：先从动作中提取答案线索，再反推证据窗口。这种"以动作驱动"的设计天然适合日常生活活动视频，因为这类视频的关键信息往往集中在特定的动作时刻。

用一个比喻来解释这个设计：传统的视频理解方法像是用筛子在沙堆里淘金——需要把整个沙堆都过一遍筛子。ACE 模块则像是先用金属探测器找到金子的大致位置，然后只在那几个点深挖。效率的提升是数量级的。

3. 证据窗口排序模块。 当 ACE 模块生成了多个候选答案-证据对后，需要对它们进行排序。排序的依据是两个因素的加权组合：动作与问题的相关性分数，以及证据窗口的质量评分。最终选择 Top-K 个候选进行验证。

排序模块的作用类似于一个"预筛选"机制。在大型 VLM 介入之前，先用轻量级的方法把最不可能的答案过滤掉，只保留最有希望的候选。这样既减少了 VLM 的调用次数，又提高了验证的成功率。

第二阶段：验证（Verify）

这一阶段相对简单，但至关重要。把 Top-K 个候选答案-证据对发送给大型 VLM，让它做最终判断。

这里有一个重要的设计细节：VLM 不是看整个视频，而是只看每个证据窗口对应的视频片段。这就像律师在法庭上不会播放整个监控录像，而是只播放与案件最相关的那几段。

验证阶段的输出是最终答案和对应的时间戳。VLM 会评估每个候选答案的可信度，并选择最可能正确的那个。如果多个候选都被 VLM 认为是正确的，系统会根据 VLM 给出的置信度分数选择最优的一个。

整体工作流程

用一个具体的例子来说明整个流程。假设问题是"老人什么时候打开冰箱？"，视频长度为 2 小时。

采样与字幕： 均匀采样 600 帧，生成 600 条字幕描述。
ACE 提议： 通过动作分析，识别出 3 个可能的动作——"走向厨房"（第 47 分钟）、"打开冰箱门"（第 47 分钟 15 秒）、"取出食物"（第 47 分钟 30 秒）。生成 3 个候选答案-证据对。
排序： 根据相关性评分，将"打开冰箱门"排在第一位。
验证： VLM 只需要审查这 3 个候选（而不是 600 帧），确认第一个候选是正确答案。
输出： 答案："老人在第 47 分钟 15 秒左右打开了冰箱"。

整个过程中，VLM 只被调用了 1 次（处理 3 个候选片段），而不是 600 次（处理所有帧）。这就是 75% 调用减少和 93% 成本降低的来源。

OpenTSUBench（OTB）基准

研究团队还贡献了一个新的基准测试集 OTB，专门用于评估日常生活活动场景下的时间定位推理能力。OTB 的特点包括：

开放式问题： 不是选择题，而是需要生成具体答案。
真实场景： 基于真实的 ADL 视频，而非电影或表演视频。
时间标注： 每个问题都有精确的时间戳标注，支持时间定位评估。
多样性： 覆盖了多种日常活动类型，如做饭、清洁、整理等。

OTB 的设计反映了研究团队对实际应用场景的深入理解。现有的视频问答基准（如 ActivityNet-QA）大多基于表演性质的视频，与真实的日常生活场景有较大差距。OTB 填补了这一空白，为 ADL 场景下的视频理解研究提供了重要的评估工具。

实验结果分析

在 OTB 上的表现

方法	准确率
直接使用 VLM（密集）	52.3%
基于字幕的推理	46.2%
TimeProVe	64.0%

TimeProVe 在 OTB 上取得了 64.0% 的准确率，比直接使用 VLM 的方法高出 11.7 个百分点，比基于字幕的方法高出 17.8 个百分点。更重要的是，这些性能提升是在大幅降低成本的前提下实现的。

一个值得注意的现象是，直接使用 VLM 的方法（52.3%）虽然比基于字幕的方法（46.2%）要好，但优势并不明显。这说明对于长视频任务来说，简单地增加计算量并不能有效提升性能——关键在于如何高效地利用计算资源。这就好比给一个迷路的人一张更详细的地图，比给他一双跑鞋更有用。

在 Charades-STA 上的表现

方法	R@1 (IoU=0.5)	R@1 (IoU=0.7)
TimeProVe（零样本）	21.46%	7.68%
TimeProVe + Qwen2.5-VL	55.80%	32.68%
之前的 SOTA	~53%	~30%

在 Charades-STA 基准上，TimeProVe 展现了令人惊喜的零样本能力。虽然 21.46% 的 R@1 看起来不高，但要知道这完全没有任何时间定位训练，仅凭"先提议后验证"的框架就能实现。

当与更强的 VLM（Qwen2.5-VL）结合后，TimeProVe 达到了 55.80% 的 R@1（IoU=0.5），超越了之前的最优结果。这说明 TimeProVe 的框架具有良好的"即插即用"特性——不需要修改框架本身，只需要替换其中的 VLM 模块。

消融实验

配置	准确率
完整 TimeProVe	64.0%
去掉 ACE 模块	29.2%
均匀采样窗口	40.8%
无排序模块	55.3%

消融实验清晰地揭示了每个组件的贡献：

ACE 模块 是最关键的组件，移除后性能下降了 34.8 个百分点。这证明了"先提议"策略的核心价值。
证据窗口设计 同样重要，从均匀采样升级到以动作为中心的窗口后，准确率提升了 23.2 个百分点。
排序模块 贡献了 8.7 个百分点的提升，说明对候选进行优先级排序是有意义的。

成本效率分析

指标	基线方法	TimeProVe	改善
VLM 调用次数	100%	25%	-75%
推理成本	100%	7%	-93%
准确率	46.2%	64.0%	+38.5%

TimeProVe 实现了一个"既要又要"的结果：性能更高，成本更低。这在 AI 领域是极为罕见的——通常性能和成本是跷跷板的两端。这种突破来自于架构设计的创新，而非简单的工程优化。

与现有工作对比

与密集 VLM 方法的对比

密集 VLM 方法（如直接将所有帧输入 GPT-4V）是"暴力美学"的典型代表。它们的优势是端到端简单，不需要额外的模块设计。但劣势也很明显：

成本爆炸： 处理一段 2 小时的视频可能需要数十美元。
延迟过高： 推理时间可能长达数分钟。
性能瓶颈： 由于上下文窗口限制，实际使用时不得不丢弃大量帧，导致信息丢失。这种信息丢失往往是不可控的——你不知道被丢弃的帧中是否包含了关键证据。

TimeProVe 通过"先过滤后验证"的策略，将 VLM 的使用限制在最关键的片段上，既保留了 VLM 的推理能力，又避免了成本爆炸。这种设计思想可以类比为"精兵策略"——与其派一个师去打仗，不如派一支精锐小队执行关键任务。

与基于字幕的方法的对比

基于字幕的方法（如先生成视频描述，再用 LLM 推理）是"化繁为简"的代表。它们的优势是成本低、速度快。但劣势是：

信息损失严重： 字幕无法完整描述视觉细节和动作序列。
时间信息模糊： 字幕通常没有精确的时间戳。
运动信息缺失： 关于"如何做"的信息在字幕中几乎完全丢失。例如，"一个人在跳舞"和"一个人在做康复训练"在字幕中可能看起来很相似，但在视觉上完全不同。

TimeProVe 的 ACE 模块通过保留动作级别的信息，弥补了字幕方法的不足。同时，证据窗口的设计确保了时间信息的精确性。

与专门的时间定位方法的对比

专门的时间定位方法（如 2D-TAN, VSLNet 等）需要大量标注数据进行训练，而且通常只能处理相对短视频中的单一活动。TimeProVe 的优势在于：

无需专门训练： 通过"提议-验证"的框架实现零样本时间定位。
处理长视频： 专为数小时级别的视频设计。
开放式回答： 不限于预定义的活动类别。

这种零样本能力的实现，得益于大语言模型中蕴含的丰富世界知识。VLM 已经"知道"什么是"打开冰箱"、什么是"摔倒"，所以不需要额外的时间定位训练。

潜在应用与影响

养老院和家庭护理监控。 这是 TimeProVe 最直接的应用场景。通过分析养老院的监控视频，系统可以自动识别老人的日常活动（如起床、吃饭、服药、摔倒），并提供精确的时间戳。这对于远程护理和紧急响应系统至关重要。想象一下，当系统检测到老人摔倒后，可以在几秒钟内通知护理人员，而不是等到下次巡视时才发现。

智能家居系统。 TimeProVe 可以帮助智能家居系统理解用户的日常行为模式。例如，识别用户在厨房的活动流程（打开冰箱→取出食材→使用微波炉→开始用餐），从而自动调整家居环境（如灯光、温度、音乐）。这种"主动式"的智能家居比现有的"被动式"系统要先进得多。

康复训练评估。 在物理治疗和康复训练中，精确的时间定位可以帮助治疗师评估患者的动作质量和恢复进度。TimeProVe 可以自动分析康复视频，标记关键动作的时间点，减少治疗师的工作量。

视频监控和安防。 大规模视频监控系统需要高效的方法来检索特定事件。TimeProVe 的成本效率使其适合部署在拥有数千个摄像头的监控网络中。传统的做法是事后人工检索，效率极低；TimeProVe 可以实现准实时的事件检测和定位。

教育和培训。 在体育训练、手术培训等领域，精确的动作时间定位对于教学和评估至关重要。TimeProVe 可以帮助分析训练视频，定位关键动作时刻，为学员提供精准的反馈。

自动驾驶场景理解。 虽然 ADL 场景与自动驾驶有较大差异，但 TimeProVe 的"先提议后验证"思想可以迁移到自动驾驶的场景理解中。例如，在分析行车记录仪视频时，先用轻量级模块识别可能的关键事件（如行人横穿、车辆变道），再用 VLM 进行精细分析。

局限性与未来方向

依赖动作质量。 TimeProVe 的 ACE 模块依赖于从视频中提取的动作序列的质量。如果视频中的动作不够明显或被遮挡，ACE 模块可能无法生成高质量的候选。在实际的监控场景中，摄像头角度不佳、光线不足、遮挡等问题都很常见，这会影响 ACE 模块的效果。未来可以探索更鲁棒的动作检测方法，如结合光流和深度信息。

ACE 模块使用轻量级 LLM。 当前 ACE 模块使用的轻量级 LLM 在处理复杂的、需要多步推理的问题时可能力不从心。例如，"老人是否按照医生的建议在饭前服药？"这样的问题需要理解"医生建议"、"饭前"和"服药"三个概念之间的关系，对轻量级 LLM 来说有一定难度。未来可以考虑使用更强的语言模型，或者为 ACE 模块设计专门的微调策略。

基准的局限性。 OTB 基准虽然新颖，但目前只覆盖了日常生活活动场景。未来需要扩展到更多场景，如体育赛事、交通监控、工业生产等。此外，OTB 的规模也需要进一步扩大，以提供更可靠的评估结果。

实时性不足。 虽然 TimeProVe 大幅降低了成本，但其两阶段设计引入了额外的延迟。对于需要实时响应的应用（如紧急事件检测），可能需要进一步优化。一个可能的方向是将"提议"阶段做成流式的，即边看视频边生成候选，而不是看完再生成。

多模态融合可以更深入。 当前 TimeProVe 主要利用视觉和文本信息，对音频信息的利用较少。在很多场景中（如对话场景、环境声音识别），音频可以提供重要的补充信息。例如，"杯子掉到地上"这个事件，在视觉上可能很短暂，但"哐当"一声在音频上非常显著。未来可以探索视觉-音频-文本三模态融合的方案。

可解释性。 虽然 TimeProVe 的"提议-验证"框架天然具有一定的可解释性（可以查看 ACE 模块生成了哪些候选），但如何将这种可解释性转化为用户友好的解释，还需要进一步探索。在医疗、法律等高风险领域，可解释性是部署的必要条件。

总结

TimeProVe 为长视频理解领域带来了一个优雅的解决方案。其"先提议、后验证"的核心思想，巧妙地平衡了推理能力和计算成本。ACE 模块将动作级别的信息转化为候选答案-证据对，使 VLM 只需要专注于最关键的片段，实现了 75% 的 VLM 调用减少和 93% 的成本降低，同时将准确率提升了 7.3 个百分点。

从更宏观的角度来看，TimeProVe 代表了一种正在兴起的趋势：在 AI 系统中，"聪明地使用计算"比"更多地使用计算"更加重要。随着大型模型的规模不断增长，如何高效地利用它们的能力将成为一个越来越重要的课题。TimeProVe 的"提议-验证"框架为此提供了一个有价值的参考。

对于日常生活活动（ADL）视频理解这一具体场景，TimeProVe 的贡献尤为突出。ADL 视频的长时长、稀疏动作、细粒度等特点，使得传统方法力不从心。TimeProVe 通过动作驱动的证据提取，成功地解决了这些挑战。随着智能护理、智能家居等领域的发展，TimeProVe 的应用前景值得期待。OpenTSUBench 的发布也为社区提供了一个重要的评估工具，将推动 ADL 视频理解研究的进一步发展。