计算语言学相关技术文章与安全漏洞汇总

技术文章 3

当仇恨遇上谣言：CATCH-ME数据集如何用多轮对话和外部知识反击网络有害信息

## 引言：仇恨与谣言的合流互联网上的有害信息从来不是孤立存在的。一条针对少数族裔的仇恨言论，往往夹杂着捏造的统计数据、歪曲的历史事实、甚至是精心编造的阴谋论。一个反疫苗的谣言帖子下面，常常伴随着对特定种族或宗教群体的攻击性评论。这种仇

当仇恨与虚假信息交织：CATCH-ME数据集如何用RAG技术构建多语言多轮反击对话

CATCH-ME是首个针对仇恨言论与虚假信息重叠场景的大规模多语言多轮反击话语数据集，覆盖5种语言和7个边缘化群体。该数据集将对话内容锚定在事实核查文章和NGO报告等外部知识源上，提供文档级和段落级双重标注，可直接用于RAG系统训练。论文证明零样本LLM在该复合场景下表现不足，而RAG机制能显著提升反击话语的事实可靠性和说服力。

你的鼠标和眼睛正在偷偷出卖你的偏好：基于隐式反馈的大语言模型对齐新范式

论文提出利用用户浏览LLM回复时的鼠标轨迹和眼动数据作为隐式反馈来对齐大语言模型。通过构建IFLLM数据集（59名被试，1336组对话），隐式反馈将奖励模型准确率从55%提升至64%，DPO对齐后回复质量改进幅度接近三倍。该方法将互联网推荐系统中的隐式反馈理念引入LLM对齐，为降低对齐成本、实现个性化对齐开辟了新路径。