alignment 相关技术文章与安全漏洞汇总

技术文章 2

你的鼠标和眼睛正在偷偷泄露你的偏好：用隐式反馈对齐大语言模型

研究者构建了IFLLM数据集，收集59名众包工人的鼠标轨迹和眼动数据来训练LLM奖励模型。实验表明，隐式反馈将奖励模型准确率从55%提升至64%，并使DPO对8个LLM的响应质量改善效果近似翻三倍。

你的鼠标和眼神正在泄露你的真实偏好：基于隐式行为信号的大语言模型对齐研究

传统的大语言模型对齐依赖用户显式反馈（如点赞、评分），但这类数据稀缺且昂贵。本文解读Chang等人发表于arXiv的最新研究，该研究构建了IFLLM数据集，通过采集1336个多轮对话中59名众包工人的鼠标轨迹和眼动数据，首次系统量化了隐式行为信号对LLM对齐的价值。基于隐式反馈的奖励模型将准确率从55%提升至64%，在8个LLM上应用DPO后，响应质量的相对提升几乎翻了三倍。