返回首页

不用人工标注就能定位病灶?弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

不用人工标注就能定位病灶?弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型


TL;DR

德国弗莱堡大学计算机视觉组联合放射科,发布了一个名为RefRad2D的大规模双语(德语/英语)放射影像数据集,包含120万条CT和MRI图文对,并基于此训练了RadGrounder模型。这个模型可以同时完成三件事:写影像报告、回答关于影像的问题、用边界框或分割掩码在图像上标出病变区域。最关键的是,这一切不需要任何人工标注的空间标注数据——空间标注全部通过辅助和自动分割算法生成。在Slake和VQA-RAD两个外部基准测试中,RadGrounder与专门训练的医学VLM性能持平,而且加入空间定位训练信号后,语言生成质量完全没有下降。论文已被 2026接收。


论文信息

  • 论文标题:Scalable of Spatially Grounded 2D Vision-Language Models for Radiology
  • 作者:Yusuf Salcan*, Simon Ging*, Robin Schirrmeister†, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox(*共同一作,†共同通讯)
  • 机构:弗莱堡大学计算机视觉组、弗莱堡大学医学中心放射科、CRIION- Lab、Adaptive & Agentic AI
  • 发表时间:2026年6月18日
  • 会议:MICCAI 2026(医学影像计算与计算机辅助介入国际会议,该领域的顶级会议)
  • ID:2606.20477v1
  • 分类:cs.CV(计算机视觉)、cs.CL(计算语言学)、cs.LG(机器学习)
  • 论文链接https://arxiv.org/abs/2606.20477v1

研究背景与动机

放射科AI的现状与困境

放射科医生的日常工作可以概括为:看片子、写报告。一张CT或MRI扫描可能包含数百个切片,医生需要逐层检查,找出异常区域,用文字描述病变的位置、大小、形态和密度特征。这个过程耗时且高度依赖经验。

近年来,人工智能在放射影像分析领域取得了显著进展。大型视觉语言模型(Vision-Language Models, VLMs)的出现让"看图说话"成为可能——给模型一张影像,它能生成一段影像报告。问题在于,这些模型大多只能做到"说",却做不到"指"。

什么叫"指"?举个例子:一个放射科医生在读片时,不仅会说"左肺下叶有一个2厘米的结节",还会用鼠标在图像上圈出那个结节的位置。这种空间定位能力对于临床信任至关重要——如果一个AI系统说"这里有病变",但你不知道它到底在看哪里,你怎么信任它的判断?

为什么空间定位这么难?

要让模型具备空间定位能力,传统方法需要大量人工标注:每张影像上的每个病变都要有人画出边界框或分割掩码。但这类标注极其昂贵——你需要有经验的放射科医生逐张标注,一个标注可能需要几分钟甚至十几分钟。在大规模训练场景下,这种成本根本无法承受。

现有的医学影像数据集大致分为两类:

  1. VQA数据集(如Slake、VQA-RAD):包含问题-答案对,但规模小(几千到几万条),没有空间标注。
  2. 分割数据集(如各种器官/病灶分割基准):有精确的像素级标注,但只有分割掩码,没有自然语言描述。

这意味着,如果你想训练一个既能写报告又能定位病灶的模型,你需要把两种不同来源的数据拼在一起,但它们之间没有对齐——VQA数据里没有告诉你答案对应图像的哪个区域,分割数据里没有告诉你那个区域是什么意思。

本文的核心问题

弗莱堡大学团队问了一个直截了当的问题:我们能不能不用人工空间标注,就训练出一个既能理解影像语言、又能在图像上定位的模型?

这个问题的挑战在于:如果空间标注不是人画的,那从哪来?答案是——自动生成。


核心发现

这篇论文的核心贡献可以归纳为三个层面:

1. RefRad2D:一个前所未有的大规模双语放射影像数据集

RefRad2D包含120万条CT和MRI图文对,同时使用德语和英语,来源于真实的临床实践。这不是从互联网上爬取的数据,而是直接从医院的PACS(影像归档与通信系统)中提取的。数据集包含三个子集:

  • VQA子集:针对影像的问答对,由LLM根据临床报告自动生成
  • 空间定位子集:带有边界框或分割掩码的图文对,通过自动化流水线生成
  • 报告子集:原始临床报告及其翻译

2. RadGrounder:一个能同时做三件事的模型

基于RefRad2D训练的RadGrounder模型可以:

  • 生成影像报告:输入一张CT或MRI切片,输出一段描述性的临床报告
  • 回答视觉问题:针对给定的影像回答开放域或封闭域的问题
  • 空间定位:在图像上用边界框(bounding box)或分割掩码(segmentation mask)标出病变区域

3. 空间定位不损害语言能力

这是本文最反直觉的发现。通常情况下,当你给一个模型添加额外的训练任务时(比如在语言生成的基础上加上空间定位),原有的语言生成能力会下降——这就是所谓的"灾难性遗忘"或任务干扰。但RadGrounder的实验表明:加入空间定位监督信号后,VQA和报告生成的性能没有下降,甚至在某些情况下还略有提升。

这意味着空间定位和语言理解之间不是零和博弈,而是可以互相促进的。


技术方法详解(用类比)

整体思路:像教一个实习生一样训练AI

想象一下,你是一个放射科主任,要带一个完全没有经验的实习生。这个实习生很聪明(基础VLM能力很强),但从来没有看过放射影像。你的目标是让这个实习生最终能做到三件事:

  1. 看片子写报告
  2. 回答关于片子的问题
  3. 在片子上圈出病变位置

传统做法是:先让实习生学写报告(大量图文对训练),然后找一批有经验的医生花几个月画标注,教实习生认病变区域(空间标注训练)。但你没有那么多带教资源,所以你决定用另一种方法——

第一步:造教材(RefRad2D数据集构建)

来源数据:直接从弗莱堡大学医学中心的PACS系统中导出CT和MRI检查数据。每个检查都有对应的临床报告(由放射科医生在日常工作中撰写)。

报告处理:临床报告通常是自由文本,格式不统一。研究团队用LLM(大语言模型)对报告进行标准化处理,提取关键信息,生成结构化的VQA问答对。这一步的类比是:你把实习生的教科书从散乱的笔记整理成了问答形式的复习提纲。

语言扩展:原始报告是德语的,研究团队用机器翻译将其翻译成英语,形成双语数据集。这就像给实习生提供了中文和英文两个版本的教材,让模型可以在两种语言之间迁移知识。

空间标注自动生成:这是最关键的部分。研究团队开发了一条自动化流水线:

  1. LLM文本分析:首先用LLM阅读临床报告,识别报告中提到的所有解剖结构和病变,以及它们的位置描述(比如"左肺下叶"、"肝右叶后段"等)。
  2. 解剖结构分割:利用现有的自动分割模型(如TotalSegmentator),对CT/MRI图像进行器官和解剖结构的分割,得到每个器官的三维掩码。
  3. 文本-空间对齐:将LLM从报告中提取的位置描述与自动分割得到的解剖区域进行匹配。比如,报告说"左肺下叶有一个结节",LLM识别出"左肺下叶"是位置关键词,自动分割模型已经给出了左肺下叶的掩码,两者匹配后就知道结节位于左肺下叶的掩码区域内。
  4. 生成标注:根据匹配结果,生成边界框(bounding box)或分割掩码(segmentation mask)标注。

这个过程的类比是:你没有让带教医生手动画标注,而是让一个聪明的助手(LLM)读报告提取位置信息,再让另一个助手(分割模型)在图像上画出解剖区域,然后让两个助手的信息互相印证,自动生成标注。

第二步:教实习生(RadGrounder模型训练)

基础架构:RadGrounder基于一个预训练的视觉语言模型。VLM的基本结构是:一个视觉编码器(负责"看"图像)+ 一个语言模型(负责"说"文字)。视觉编码器将图像转换成一组特征向量,语言模型基于这些特征向量生成文本。

多任务训练:模型同时在三种任务上训练:

  1. 报告生成:输入图像,输出完整的临床报告
  2. VQA:输入图像+问题,输出答案
  3. 空间定位:输入图像+引用表达式(如"左肺下叶的结节"),输出该区域的边界框或分割掩码

这里有一个精巧的设计:空间定位任务的训练格式与VQA类似。对于VQA,模型输入是"问题:这个图像中最大的异常在哪里?",输出是"左肺下叶";对于空间定位,输入是"请定位:左肺下叶的结节",输出是一组坐标(如[0.35, 0.42, 0.55, 0.68],表示边界框的归一化坐标)。

这种统一的格式让模型可以在一个框架内同时处理语言和空间任务,不需要为不同任务设计不同的架构。类比来说,这就是让实习生在做每道练习题时,不仅用文字回答,还要在图上圈出来——同一个大脑,同时处理语言和视觉空间信息。

第三步:检验学习效果(评估)

模型在两个外部基准上进行评估:

  • Slake:一个双语(中英)医学VQA数据集,包含胸部X光、CT、MRI等多种模态
  • VQA-RAD:一个英文医学VQA数据集,主要针对放射影像

选择外部基准而非自有测试集的意义在于:这些数据集是模型从未见过的,评估结果能真实反映模型的泛化能力。


实验结果分析

VQA性能

在Slake和VQA-RAD基准上,RadGrounder的表现与专门为医学VQA设计的专用模型持平。这个结果本身并不令人惊讶——大型VLM在足够多的数据上训练后,在VQA任务上通常表现不错。但值得注意的是,RadGrounder不是一个专门为VQA优化的模型,它是一个多任务模型,同时在做报告生成和空间定位。能在VQA上达到与专用模型相当的水平,说明多任务训练没有造成明显的性能损失。

临床数据的迁移价值

实验中一个重要的消融研究(ablation study)结果是:将RefRad2D的临床数据加入训练混合体后,开放域VQA的性能超过了仅在下游数据集上微调的模型。 这说明RefRad2D中来自真实临床实践的数据具有迁移价值——即使这些数据的分布与评估基准不完全一致,它们提供的临床知识仍然可以提升模型在其他任务上的表现。

这就像一个实习生在大医院实习期间积累的临床经验,让他在小诊所的考试中也能表现更好——临床经验是通用的。

空间定位的效果

RadGrounder在空间定位任务上表现出了合理的能力。虽然论文没有声称其定位精度达到了专门的检测或分割模型的水平,但关键在于:这是一个语言模型在"顺带"完成定位任务,而不是一个专门设计的目标检测模型。这种"一个模型做多件事"的能力是当前AI发展的大趋势。

关键发现:空间定位不损害语言能力

这是本文最重要的实验发现。消融实验对比了以下几种配置:

  1. 仅VQA训练:只在VQA数据上训练
  2. VQA + 报告生成训练:在VQA和报告数据上联合训练
  3. VQA + 报告生成 + 空间定位训练:在所有三种任务上联合训练

结果表明,配置3的VQA性能与配置1和配置2相当,没有出现明显的任务干扰。这意味着空间定位的监督信号实际上可以作为一种"免费的额外信号"——它不损害语言任务,但给模型增加了空间理解能力。

这个发现的类比是:让实习生在写报告时顺便在图上标注一下,不仅不会让他写报告的水平下降,反而可能因为需要更仔细地观察图像,让他对影像的理解更加深入。


与现有工作对比

与通用VLM的对比

通用VLM(如-4V、LLaVA-Med等)在医学影像理解方面已经展现出令人印象深刻的能力。但这些模型大多数不具备空间定位能力——它们可以描述图像中有什么,但不能告诉你在哪里。RadGrounder的优势在于:它在保持语言能力的同时,增加了空间定位的能力。

与专用医学检测模型的对比

传统的医学影像检测模型(如基于YOLO或DETR的目标检测模型)在定位精度上可能优于RadGrounder,但它们只能做检测,不能生成报告或回答问题。RadGrounder的优势是多功能性——一个模型解决多个问题,部署和维护成本更低。

与有监督定位方法的对比

一些方法(如BiomedParse、LVM-Med等)通过大量人工标注来训练空间定位能力。这些方法在定位精度上可能更优,但标注成本极高。RadGrounder通过自动化流水线生成空间标注,大幅降低了数据构建成本。虽然自动标注的精度可能不如人工标注,但在120万条数据的规模下,量变引起了质变。

与RefRad系列工作的关系

RefRad2D是RefRad系列数据集的2D版本。该系列的核心理念是:利用临床报告中隐含的空间信息,结合自动分割技术,构建带有空间标注的大规模数据集。2D版本专注于单切片分析,降低了计算复杂度,同时保持了足够的临床信息。


潜在应用与影响

临床工作流中的应用

  1. 辅助报告生成:放射科医生在阅片时,RadGrounder可以实时生成初步报告,医生只需审核和修改,大幅提高工作效率。

  2. 空间定位增强报告:传统的AI辅助报告只有文字,医生需要自己对照图像理解描述。RadGrounder可以在生成文字报告的同时,在图像上标注出描述的区域,让报告更直观、更可信。

  3. 教学辅助:对于放射科住院医师,RadGrounder可以作为一个"虚拟带教老师",不仅解释影像所见,还能在图像上指出关键区域,帮助年轻医生建立空间认知。

对医学AI研究的影响

  1. 数据集构建范式的转变:RefRad2D展示了一种新的数据集构建范式——不需要昂贵的人工标注,通过LLM+自动分割的组合,就能构建大规模带空间标注的数据集。这种方法可以推广到其他医学影像模态(如超声、病理等)。

  2. 多任务学习的可行性验证:论文证明了在医学VLM中,语言任务和空间任务可以共存而不互相干扰,这为未来的多任务医学AI系统设计提供了理论依据。

  3. 双语数据的价值:RefRad2D的双语特性(德语/英语)展示了跨语言医学数据的价值。不同语言的临床报告可能包含不同的描述习惯和侧重点,双语训练可以帮助模型学到更全面的医学知识。

对更广泛的AI社区的启示

  1. Grounding能力的低成本获取:这篇论文证明了不需要人工标注也能获得空间定位能力,这对通用VLM的发展也有启示——也许我们不需要为每一种视觉理解能力都收集专门的标注数据。

  2. LLM作为数据标注工具:用LLM从文本报告中提取结构化信息,再与自动分割结果对齐,这种"LLM辅助标注"的范式可以应用于很多领域,不限于医学影像。


局限性与未来方向

当前局限性

  1. 数据来源单一:RefRad2D的数据全部来自弗莱堡大学医学中心,这意味着数据的分布可能偏向该中心的设备型号、扫描协议和患者群体。在其他医院或地区的适用性还需要进一步验证。

  2. 仅限2D切片:当前方法处理的是单个2D切片,而非完整的3D体积数据。在实际临床中,放射科医生需要浏览数百个连续切片来理解病变的三维形态。2D方法可能会丢失切片间的上下文信息。

  3. 自动标注的精度:虽然自动化流水线大幅降低了标注成本,但自动标注的精度仍然低于人工标注。LLM对报告的理解可能有误,自动分割模型的分割结果也可能不准确,这些错误会传播到最终的数据集中。

  4. 评估基准的局限:Slake和VQA-RAD是常用的医学VQA基准,但它们的规模较小,问题类型有限,可能无法全面反映模型在真实临床场景中的表现。

  5. 语言限制:虽然数据集包含德语和英语,但不包含其他语言(如中文、日语等),这限制了模型在非欧洲语言环境中的应用。

未来方向

  1. 扩展到3D:将方法扩展到3D体积数据分析,利用连续切片之间的空间关系,提高对病变的理解和定位精度。

  2. 多模态扩展:当前工作主要关注CT和MRI,未来可以扩展到超声、X光、PET-CT等其他影像模态。

  3. 多中心验证:在多个医院、多个地区进行外部验证,评估模型的泛化能力和鲁棒性。

  4. 人机协作研究:研究RadGrounder在真实临床工作流中的使用效果,探索最佳的人机协作模式。

  5. 提高自动标注质量:开发更精确的LLM报告解析算法和更鲁棒的自动分割方法,进一步提高自动生成的空间标注质量。

  6. 引入不确定性估计:让模型不仅输出定位结果,还输出对结果的置信度,帮助医生判断何时需要人工复核。

  7. 与其他任务的整合:将RadGrounder与报告结构化、随访对比、病灶变化追踪等下游任务整合,构建更完整的放射科AI工作流。


总结

弗莱堡大学团队的这项工作回答了一个长期困扰医学AI社区的问题:能否在不进行昂贵人工标注的情况下,训练出具备空间定位能力的放射科视觉语言模型? 答案是肯定的。

他们通过两个关键技术贡献实现了这一目标:

  1. RefRad2D数据集:120万条双语CT/MR图文对,空间标注通过LLM报告解析+自动分割的流水线自动生成,成本远低于人工标注。

  2. RadGrounder模型:一个能同时生成报告、回答问题、定位病灶的多任务视觉语言模型,且空间定位能力的加入不会损害语言生成质量。

这项工作的核心洞察是:临床报告中隐含了丰富的空间信息("左肺下叶"、"肝右叶后段"等),这些信息可以通过LLM提取并与自动分割结果对齐,从而在不需要人工标注的情况下获得空间监督信号。这种方法不仅适用于放射科,也可以推广到其他需要空间理解的医学影像领域。

论文被MICCAI 2026接收,说明同行评审认可了这项工作的创新性和实用价值。对于医学AI研究者和放射科从业者来说,RefRad2D和RadGrounder提供了一个新的工具和新的思路,推动了"既能说又能指"的医学视觉语言模型的发展。


本文基于arXiv论文2606.20477v1撰写,论文已被MICCAI 2026接收。

常见问题

为什么空间定位这么难?

>为什么空间定位这么难?要让模型具备空间定位能力,传统方法需要大量人工标注:每张影像上的每个病变都要有人画出边界框或分割掩码。但这类标注极其昂贵——你需要有经验的放射科医生逐张标注,一个标注可能需要几分钟甚至十几分钟。在大规模训练场景下,这种成本根本无法承受。 现有的医学影像数据集大致分为两类: VQA数据集(如Slake、VQA-RAD):包含问题-答案对,但规模小(几千到几万条),没有空间标注。 分割数据集(如各种器官/病灶分割基准):有精确的像素级标注,但只有分割掩码,没有自然语言描述。 这意味着,如果你想训练一个既能写报告又能定位病灶的模型,你需要把两种不同来源的数据拼在一起,但它们之

评论