不用人工标注就能定位病灶？弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

Q: 为什么空间定位这么难？

>为什么空间定位这么难？要让模型具备空间定位能力，传统方法需要大量人工标注：每张影像上的每个病变都要有人画出边界框或分割掩码。但这类标注极其昂贵——你需要有经验的放射科医生逐张标注，一个标注可能需要几分钟甚至十几分钟。在大规模训练场景下，这种成本根本无法承受。 现有的医学影像数据集大致分为两类： VQA数据集（如Slake、VQA-RAD）：包含问题-答案对，但规模小（几千到几万条），没有空间标注。 分割数据集（如各种器官/病灶分割基准）：有精确的像素级标注，但只有分割掩码，没有自然语言描述。 这意味着，如果你想训练一个既能写报告又能定位病灶的模型，你需要把两种不同来源的数据拼在一起，但它们之

TL;DR

德国弗莱堡大学计算机视觉组联合放射科，发布了一个名为RefRad2D的大规模双语（德语/英语）放射影像数据集，包含120万条CT和MRI图文对，并基于此训练了RadGrounder模型。这个模型可以同时完成三件事：写影像报告、回答关于影像的问题、用边界框或分割掩码在图像上标出病变区域。最关键的是，这一切不需要任何人工标注的空间标注数据——空间标注全部通过LLM辅助和自动分割算法生成。在Slake和VQA-RAD两个外部基准测试中，RadGrounder与专门训练的医学VLM性能持平，而且加入空间定位训练信号后，语言生成质量完全没有下降。论文已被MICCAI 2026接收。

论文信息

论文标题：Scalable Training of Spatially Grounded 2D Vision-Language Models for Radiology
作者：Yusuf Salcan*, Simon Ging*, Robin Schirrmeister†, Philipp Arnold, Elmar Kotter, Behzad Bozorgtabar, Thomas Brox（*共同一作，†共同通讯）
机构：弗莱堡大学计算机视觉组、弗莱堡大学医学中心放射科、CRIION-AI Lab、Adaptive & Agentic AI
发表时间：2026年6月18日
会议：MICCAI 2026（医学影像计算与计算机辅助介入国际会议，该领域的顶级会议）
arXiv ID：2606.20477v1
分类：cs.CV（计算机视觉）、cs.CL（计算语言学）、cs.LG（机器学习）
论文链接：https://arxiv.org/abs/2606.20477v1

研究背景与动机

放射科AI的现状与困境

放射科医生的日常工作可以概括为：看片子、写报告。一张CT或MRI扫描可能包含数百个切片，医生需要逐层检查，找出异常区域，用文字描述病变的位置、大小、形态和密度特征。这个过程耗时且高度依赖经验。

近年来，人工智能在放射影像分析领域取得了显著进展。大型视觉语言模型（Vision-Language Models, VLMs）的出现让"看图说话"成为可能——给模型一张影像，它能生成一段影像报告。问题在于，这些模型大多只能做到"说"，却做不到"指"。

什么叫"指"？举个例子：一个放射科医生在读片时，不仅会说"左肺下叶有一个2厘米的结节"，还会用鼠标在图像上圈出那个结节的位置。这种空间定位能力对于临床信任至关重要——如果一个AI系统说"这里有病变"，但你不知道它到底在看哪里，你怎么信任它的判断？

为什么空间定位这么难？

要让模型具备空间定位能力，传统方法需要大量人工标注：每张影像上的每个病变都要有人画出边界框或分割掩码。但这类标注极其昂贵——你需要有经验的放射科医生逐张标注，一个标注可能需要几分钟甚至十几分钟。在大规模训练场景下，这种成本根本无法承受。

现有的医学影像数据集大致分为两类：

VQA数据集（如Slake、VQA-RAD）：包含问题-答案对，但规模小（几千到几万条），没有空间标注。
分割数据集（如各种器官/病灶分割基准）：有精确的像素级标注，但只有分割掩码，没有自然语言描述。

这意味着，如果你想训练一个既能写报告又能定位病灶的模型，你需要把两种不同来源的数据拼在一起，但它们之间没有对齐——VQA数据里没有告诉你答案对应图像的哪个区域，分割数据里没有告诉你那个区域是什么意思。

本文的核心问题

弗莱堡大学团队问了一个直截了当的问题：我们能不能不用人工空间标注，就训练出一个既能理解影像语言、又能在图像上定位的模型？

这个问题的挑战在于：如果空间标注不是人画的，那从哪来？答案是——自动生成。

核心发现

这篇论文的核心贡献可以归纳为三个层面：

1. RefRad2D：一个前所未有的大规模双语放射影像数据集

RefRad2D包含120万条CT和MRI图文对，同时使用德语和英语，来源于真实的临床实践。这不是从互联网上爬取的数据，而是直接从医院的PACS（影像归档与通信系统）中提取的。数据集包含三个子集：

VQA子集：针对影像的问答对，由LLM根据临床报告自动生成
空间定位子集：带有边界框或分割掩码的图文对，通过自动化流水线生成
报告子集：原始临床报告及其翻译

2. RadGrounder：一个能同时做三件事的模型

基于RefRad2D训练的RadGrounder模型可以：

生成影像报告：输入一张CT或MRI切片，输出一段描述性的临床报告
回答视觉问题：针对给定的影像回答开放域或封闭域的问题
空间定位：在图像上用边界框（bounding box）或分割掩码（segmentation mask）标出病变区域

3. 空间定位不损害语言能力

这是本文最反直觉的发现。通常情况下，当你给一个模型添加额外的训练任务时（比如在语言生成的基础上加上空间定位），原有的语言生成能力会下降——这就是所谓的"灾难性遗忘"或任务干扰。但RadGrounder的实验表明：加入空间定位监督信号后，VQA和报告生成的性能没有下降，甚至在某些情况下还略有提升。

这意味着空间定位和语言理解之间不是零和博弈，而是可以互相促进的。

技术方法详解（用类比）

整体思路：像教一个实习生一样训练AI

想象一下，你是一个放射科主任，要带一个完全没有经验的实习生。这个实习生很聪明（基础VLM能力很强），但从来没有看过放射影像。你的目标是让这个实习生最终能做到三件事：

看片子写报告
回答关于片子的问题
在片子上圈出病变位置

传统做法是：先让实习生学写报告（大量图文对训练），然后找一批有经验的医生花几个月画标注，教实习生认病变区域（空间标注训练）。但你没有那么多带教资源，所以你决定用另一种方法——

第一步：造教材（RefRad2D数据集构建）

来源数据：直接从弗莱堡大学医学中心的PACS系统中导出CT和MRI检查数据。每个检查都有对应的临床报告（由放射科医生在日常工作中撰写）。

报告处理：临床报告通常是自由文本，格式不统一。研究团队用LLM（大语言模型）对报告进行标准化处理，提取关键信息，生成结构化的VQA问答对。这一步的类比是：你把实习生的教科书从散乱的笔记整理成了问答形式的复习提纲。

语言扩展：原始报告是德语的，研究团队用机器翻译将其翻译成英语，形成双语数据集。这就像给实习生提供了中文和英文两个版本的教材，让模型可以在两种语言之间迁移知识。

空间标注自动生成：这是最关键的部分。研究团队开发了一条自动化流水线：

LLM文本分析：首先用LLM阅读临床报告，识别报告中提到的所有解剖结构和病变，以及它们的位置描述（比如"左肺下叶"、"肝右叶后段"等）。
解剖结构分割：利用现有的自动分割模型（如TotalSegmentator），对CT/MRI图像进行器官和解剖结构的分割，得到每个器官的三维掩码。
文本-空间对齐：将LLM从报告中提取的位置描述与自动分割得到的解剖区域进行匹配。比如，报告说"左肺下叶有一个结节"，LLM识别出"左肺下叶"是位置关键词，自动分割模型已经给出了左肺下叶的掩码，两者匹配后就知道结节位于左肺下叶的掩码区域内。
生成标注：根据匹配结果，生成边界框（bounding box）或分割掩码（segmentation mask）标注。

这个过程的类比是：你没有让带教医生手动画标注，而是让一个聪明的助手（LLM）读报告提取位置信息，再让另一个助手（分割模型）在图像上画出解剖区域，然后让两个助手的信息互相印证，自动生成标注。

第二步：教实习生（RadGrounder模型训练）

基础架构：RadGrounder基于一个预训练的视觉语言模型。VLM的基本结构是：一个视觉编码器（负责"看"图像）+ 一个语言模型（负责"说"文字）。视觉编码器将图像转换成一组特征向量，语言模型基于这些特征向量生成文本。

多任务训练：模型同时在三种任务上训练：

报告生成：输入图像，输出完整的临床报告
VQA：输入图像+问题，输出答案
空间定位：输入图像+引用表达式（如"左肺下叶的结节"），输出该区域的边界框或分割掩码

这里有一个精巧的设计：空间定位任务的训练格式与VQA类似。对于VQA，模型输入是"问题：这个图像中最大的异常在哪里？"，输出是"左肺下叶"；对于空间定位，输入是"请定位：左肺下叶的结节"，输出是一组坐标（如[0.35, 0.42, 0.55, 0.68]，表示边界框的归一化坐标）。

这种统一的格式让模型可以在一个框架内同时处理语言和空间任务，不需要为不同任务设计不同的架构。类比来说，这就是让实习生在做每道练习题时，不仅用文字回答，还要在图上圈出来——同一个大脑，同时处理语言和视觉空间信息。

第三步：检验学习效果（评估）

模型在两个外部基准上进行评估：

Slake：一个双语（中英）医学VQA数据集，包含胸部X光、CT、MRI等多种模态
VQA-RAD：一个英文医学VQA数据集，主要针对放射影像

选择外部基准而非自有测试集的意义在于：这些数据集是模型从未见过的，评估结果能真实反映模型的泛化能力。

实验结果分析

VQA性能

在Slake和VQA-RAD基准上，RadGrounder的表现与专门为医学VQA设计的专用模型持平。这个结果本身并不令人惊讶——大型VLM在足够多的数据上训练后，在VQA任务上通常表现不错。但值得注意的是，RadGrounder不是一个专门为VQA优化的模型，它是一个多任务模型，同时在做报告生成和空间定位。能在VQA上达到与专用模型相当的水平，说明多任务训练没有造成明显的性能损失。

临床数据的迁移价值

实验中一个重要的消融研究（ablation study）结果是：将RefRad2D的临床数据加入训练混合体后，开放域VQA的性能超过了仅在下游数据集上微调的模型。 这说明RefRad2D中来自真实临床实践的数据具有迁移价值——即使这些数据的分布与评估基准不完全一致，它们提供的临床知识仍然可以提升模型在其他任务上的表现。

这就像一个实习生在大医院实习期间积累的临床经验，让他在小诊所的考试中也能表现更好——临床经验是通用的。

空间定位的效果

RadGrounder在空间定位任务上表现出了合理的能力。虽然论文没有声称其定位精度达到了专门的检测或分割模型的水平，但关键在于：这是一个语言模型在"顺带"完成定位任务，而不是一个专门设计的目标检测模型。这种"一个模型做多件事"的能力是当前AI发展的大趋势。

关键发现：空间定位不损害语言能力

这是本文最重要的实验发现。消融实验对比了以下几种配置：

仅VQA训练：只在VQA数据上训练
VQA + 报告生成训练：在VQA和报告数据上联合训练
VQA + 报告生成 + 空间定位训练：在所有三种任务上联合训练

结果表明，配置3的VQA性能与配置1和配置2相当，没有出现明显的任务干扰。这意味着空间定位的监督信号实际上可以作为一种"免费的额外信号"——它不损害语言任务，但给模型增加了空间理解能力。

这个发现的类比是：让实习生在写报告时顺便在图上标注一下，不仅不会让他写报告的水平下降，反而可能因为需要更仔细地观察图像，让他对影像的理解更加深入。

与现有工作对比

与通用VLM的对比

通用VLM（如GPT-4V、LLaVA-Med等）在医学影像理解方面已经展现出令人印象深刻的能力。但这些模型大多数不具备空间定位能力——它们可以描述图像中有什么，但不能告诉你在哪里。RadGrounder的优势在于：它在保持语言能力的同时，增加了空间定位的能力。

与专用医学检测模型的对比

传统的医学影像检测模型（如基于YOLO或DETR的目标检测模型）在定位精度上可能优于RadGrounder，但它们只能做检测，不能生成报告或回答问题。RadGrounder的优势是多功能性——一个模型解决多个问题，部署和维护成本更低。

与有监督定位方法的对比

一些方法（如BiomedParse、LVM-Med等）通过大量人工标注来训练空间定位能力。这些方法在定位精度上可能更优，但标注成本极高。RadGrounder通过自动化流水线生成空间标注，大幅降低了数据构建成本。虽然自动标注的精度可能不如人工标注，但在120万条数据的规模下，量变引起了质变。

与RefRad系列工作的关系

RefRad2D是RefRad系列数据集的2D版本。该系列的核心理念是：利用临床报告中隐含的空间信息，结合自动分割技术，构建带有空间标注的大规模数据集。2D版本专注于单切片分析，降低了计算复杂度，同时保持了足够的临床信息。

潜在应用与影响

临床工作流中的应用

辅助报告生成：放射科医生在阅片时，RadGrounder可以实时生成初步报告，医生只需审核和修改，大幅提高工作效率。
空间定位增强报告：传统的AI辅助报告只有文字，医生需要自己对照图像理解描述。RadGrounder可以在生成文字报告的同时，在图像上标注出描述的区域，让报告更直观、更可信。
教学辅助：对于放射科住院医师，RadGrounder可以作为一个"虚拟带教老师"，不仅解释影像所见，还能在图像上指出关键区域，帮助年轻医生建立空间认知。

对医学AI研究的影响

数据集构建范式的转变：RefRad2D展示了一种新的数据集构建范式——不需要昂贵的人工标注，通过LLM+自动分割的组合，就能构建大规模带空间标注的数据集。这种方法可以推广到其他医学影像模态（如超声、病理等）。
多任务学习的可行性验证：论文证明了在医学VLM中，语言任务和空间任务可以共存而不互相干扰，这为未来的多任务医学AI系统设计提供了理论依据。
双语数据的价值：RefRad2D的双语特性（德语/英语）展示了跨语言医学数据的价值。不同语言的临床报告可能包含不同的描述习惯和侧重点，双语训练可以帮助模型学到更全面的医学知识。

对更广泛的AI社区的启示

Grounding能力的低成本获取：这篇论文证明了不需要人工标注也能获得空间定位能力，这对通用VLM的发展也有启示——也许我们不需要为每一种视觉理解能力都收集专门的标注数据。
LLM作为数据标注工具：用LLM从文本报告中提取结构化信息，再与自动分割结果对齐，这种"LLM辅助标注"的范式可以应用于很多领域，不限于医学影像。

局限性与未来方向

当前局限性

数据来源单一：RefRad2D的数据全部来自弗莱堡大学医学中心，这意味着数据的分布可能偏向该中心的设备型号、扫描协议和患者群体。在其他医院或地区的适用性还需要进一步验证。
仅限2D切片：当前方法处理的是单个2D切片，而非完整的3D体积数据。在实际临床中，放射科医生需要浏览数百个连续切片来理解病变的三维形态。2D方法可能会丢失切片间的上下文信息。
自动标注的精度：虽然自动化流水线大幅降低了标注成本，但自动标注的精度仍然低于人工标注。LLM对报告的理解可能有误，自动分割模型的分割结果也可能不准确，这些错误会传播到最终的数据集中。
评估基准的局限：Slake和VQA-RAD是常用的医学VQA基准，但它们的规模较小，问题类型有限，可能无法全面反映模型在真实临床场景中的表现。
语言限制：虽然数据集包含德语和英语，但不包含其他语言（如中文、日语等），这限制了模型在非欧洲语言环境中的应用。

未来方向

扩展到3D：将方法扩展到3D体积数据分析，利用连续切片之间的空间关系，提高对病变的理解和定位精度。
多模态扩展：当前工作主要关注CT和MRI，未来可以扩展到超声、X光、PET-CT等其他影像模态。
多中心验证：在多个医院、多个地区进行外部验证，评估模型的泛化能力和鲁棒性。
人机协作研究：研究RadGrounder在真实临床工作流中的使用效果，探索最佳的人机协作模式。
提高自动标注质量：开发更精确的LLM报告解析算法和更鲁棒的自动分割方法，进一步提高自动生成的空间标注质量。
引入不确定性估计：让模型不仅输出定位结果，还输出对结果的置信度，帮助医生判断何时需要人工复核。
与其他任务的整合：将RadGrounder与报告结构化、随访对比、病灶变化追踪等下游任务整合，构建更完整的放射科AI工作流。

总结

弗莱堡大学团队的这项工作回答了一个长期困扰医学AI社区的问题：能否在不进行昂贵人工标注的情况下，训练出具备空间定位能力的放射科视觉语言模型？ 答案是肯定的。

他们通过两个关键技术贡献实现了这一目标：

RefRad2D数据集：120万条双语CT/MR图文对，空间标注通过LLM报告解析+自动分割的流水线自动生成，成本远低于人工标注。
RadGrounder模型：一个能同时生成报告、回答问题、定位病灶的多任务视觉语言模型，且空间定位能力的加入不会损害语言生成质量。

这项工作的核心洞察是：临床报告中隐含了丰富的空间信息（"左肺下叶"、"肝右叶后段"等），这些信息可以通过LLM提取并与自动分割结果对齐，从而在不需要人工标注的情况下获得空间监督信号。这种方法不仅适用于放射科，也可以推广到其他需要空间理解的医学影像领域。

论文被MICCAI 2026接收，说明同行评审认可了这项工作的创新性和实用价值。对于医学AI研究者和放射科从业者来说，RefRad2D和RadGrounder提供了一个新的工具和新的思路，推动了"既能说又能指"的医学视觉语言模型的发展。

本文基于arXiv论文2606.20477v1撰写，论文已被MICCAI 2026接收。

不用人工标注就能定位病灶？弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

不用人工标注就能定位病灶？弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

TL;DR

论文信息

研究背景与动机

放射科AI的现状与困境

为什么空间定位这么难？

本文的核心问题

核心发现

1. RefRad2D：一个前所未有的大规模双语放射影像数据集

2. RadGrounder：一个能同时做三件事的模型

3. 空间定位不损害语言能力

技术方法详解（用类比）

整体思路：像教一个实习生一样训练AI

第一步：造教材（RefRad2D数据集构建）

第二步：教实习生（RadGrounder模型训练）

第三步：检验学习效果（评估）

实验结果分析

VQA性能

临床数据的迁移价值

空间定位的效果

关键发现：空间定位不损害语言能力

与现有工作对比

与通用VLM的对比

与专用医学检测模型的对比

与有监督定位方法的对比

与RefRad系列工作的关系

潜在应用与影响

临床工作流中的应用

对医学AI研究的影响

对更广泛的AI社区的启示

局限性与未来方向

当前局限性

未来方向

总结

常见问题

评论

不用人工标注就能定位病灶？弗莱堡大学RadGrounder用120万临床数据训练放射科视觉语言模型

TL;DR

论文信息

研究背景与动机

放射科AI的现状与困境

为什么空间定位这么难？

本文的核心问题

核心发现

1. RefRad2D：一个前所未有的大规模双语放射影像数据集

2. RadGrounder：一个能同时做三件事的模型

3. 空间定位不损害语言能力

技术方法详解（用类比）

整体思路：像教一个实习生一样训练AI

第一步：造教材（RefRad2D数据集构建）

第二步：教实习生（RadGrounder模型训练）

第三步：检验学习效果（评估）

实验结果分析

VQA性能

临床数据的迁移价值

空间定位的效果

关键发现：空间定位不损害语言能力

与现有工作对比

与通用VLM的对比

与专用医学检测模型的对比

与有监督定位方法的对比

与RefRad系列工作的关系

潜在应用与影响

临床工作流中的应用

对医学AI研究的影响

对更广泛的AI社区的启示

局限性与未来方向

当前局限性

未来方向

总结

常见问题

评论

相关推荐

从网球拍到三维骨架：加州理工学院发布千万级多视角网球数据集CalTennis

空间投机解码：让自回归图像生成快13倍的几何直觉

用「方框」思考：让真实照片中的三维编辑变得简单

不用把整段视频都看一遍：TimeProVe 用「先提议、再验证」的策略，把长视频问答的推理成本砍掉九成以上

SARLO-80：全球首个厘米级斜距SAR-光学-文本多模态数据集，开启合成孔径雷达基础模型新纪元