视频理解相关技术文章与安全漏洞汇总

技术文章 1

TimeProVe提出两阶段框架解决长视频问答的效率-精度矛盾：先用轻量级ACE模块从视频中提取动作级候选证据并生成假设，再调用大型VLM精准验证。在ADL场景基准OTB上超越最强基线7.3%，VLM调用减少75%，推理成本降低93%。