#alignment
共 2 篇相关内容 · 安全漏洞、AI动态、技术文章
技术文章 2
你的鼠标和眼睛正在偷偷泄露你的偏好:用隐式反馈对齐大语言模型
研究者构建了IFLLM数据集,收集59名众包工人的鼠标轨迹和眼动数据来训练LLM奖励模型。实验表明,隐式反馈将奖励模型准确率从55%提升至64%,并使DPO对8个LLM的响应质量改善效果近似翻三倍。
你的鼠标和眼神正在泄露你的真实偏好:基于隐式行为信号的大语言模型对齐研究
传统的大语言模型对齐依赖用户显式反馈(如点赞、评分),但这类数据稀缺且昂贵。本文解读Chang等人发表于arXiv的最新研究,该研究构建了IFLLM数据集,通过采集1336个多轮对话中59名众包工人的鼠标轨迹和眼动数据,首次系统量化了隐式行为信号对LLM对齐的价值。基于隐式反馈的奖励模型将准确率从55%提升至64%,在8个LLM上应用DPO后,响应质量的相对提升几乎翻了三倍。