视觉语言模型相关技术文章与安全漏洞汇总

技术文章 2

不用把整段视频都看一遍：TimeProVe 用「先提议、再验证」的策略，把长视频问答的推理成本砍掉九成以上

不用人工标注就能定位病灶？弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

德国弗莱堡大学团队提出RefRad2D数据集与RadGrounder模型，首次实现无需人工空间标注即可训练具备空间定位能力的放射科视觉语言模型。该模型基于120万条双语CT/MR图文对，在报告生成、视觉问答和空间定位三项任务上均表现优异，且空间定位监督不会降低语言生成质量。论文已被MICCAI 2026接收。