#数据集
共 2 篇相关内容 · 安全漏洞、AI动态、技术文章
技术文章 2
当仇恨与虚假信息交织:CATCH-ME数据集如何用RAG技术构建多语言多轮反击对话
CATCH-ME是首个针对仇恨言论与虚假信息重叠场景的大规模多语言多轮反击话语数据集,覆盖5种语言和7个边缘化群体。该数据集将对话内容锚定在事实核查文章和NGO报告等外部知识源上,提供文档级和段落级双重标注,可直接用于RAG系统训练。论文证明零样本LLM在该复合场景下表现不足,而RAG机制能显著提升反击话语的事实可靠性和说服力。
SARLO-80:全球首个厘米级斜距SAR-光学-文本多模态数据集,开启合成孔径雷达基础模型新纪元
法国ONERA团队发布SARLO-80——全球首个公开可用的超高分辨率SAR-光学-文本三模态数据集。基于Umbra卫星SICD格式聚束SAR数据,覆盖72个国家257个地点,含119,566组三元组(复数/幅度斜距SAR、对齐光学图像、自然语言描述)。数据统一至80cm斜距网格,支持跨模态检索与条件生成等基础模型任务。