奖励模型相关技术文章与安全漏洞汇总

技术文章 1

你的鼠标和眼睛正在偷偷出卖你的偏好：基于隐式反馈的大语言模型对齐新范式

论文提出利用用户浏览LLM回复时的鼠标轨迹和眼动数据作为隐式反馈来对齐大语言模型。通过构建IFLLM数据集（59名被试，1336组对话），隐式反馈将奖励模型准确率从55%提升至64%，DPO对齐后回复质量改进幅度接近三倍。该方法将互联网推荐系统中的隐式反馈理念引入LLM对齐，为降低对齐成本、实现个性化对齐开辟了新路径。