共 1 篇相关内容 · 安全漏洞、AI动态、技术文章
TimeProVe提出两阶段框架解决长视频问答的效率-精度矛盾:先用轻量级ACE模块从视频中提取动作级候选证据并生成假设,再调用大型VLM精准验证。在ADL场景基准OTB上超越最强基线7.3%,VLM调用减少75%,推理成本降低93%。