你的鼠标和眼睛正在偷偷出卖你的偏好：基于隐式反馈的大语言模型对齐新范式

Q: 为什么之前没人做这件事？

>为什么之前没人做这件事？尽管隐式反馈在推荐系统和搜索领域已经有二十多年的应用历史，但在LLM对齐领域，相关研究几乎为零。原因是多方面的： 第一，LLM对齐社区的关注点一直在文本层面——如何从回复文本本身推断偏好。第二，收集鼠标和眼动数据需要专门的硬件设备和实验环境。第三，缺乏一个标准化的数据集来系统性地研究隐式反馈与LLM偏好之间的关系。 这篇论文的贡献正是填补了这一空白：构建了第一个将隐式反馈与LLM对齐关联起来的数据集IFLLM，并用实验证明了这条技术路线的有效性。

TL;DR

这篇论文提出了一种全新的大语言模型（LLM）对齐方法：不再依赖用户主动提供的显式反馈（比如点赞、点踩），而是通过捕捉用户在浏览LLM回复时的鼠标轨迹和眼动数据来推断其真实偏好。研究团队构建了一个名为IFLLM的新数据集，收集了59名被试的1336个多轮问答对话及其对应的鼠标运动和眼动注视数据。实验表明，基于隐式反馈训练的奖励模型将文本奖励模型的准确率从55%提升至64%，并在对八个LLM应用DPO对齐后将近三倍地提升了回复质量的相对改进幅度。这项工作揭示了一个关键洞察：用户的身体行为——哪怕只是移动鼠标的方式和眼睛注视的位置——已经在无声地暴露他们对AI回复的真实评价。

论文信息

标题： Your Mouse and Eyes Secretly Leak Your Preference: LLM Alignment using Implicit Feedback from Users
作者： Haw-Shiuan Chang, Jeffrey Gomez, Mehul Patwari, Aryan Sajith, Hamed Zamani
机构： 马萨诸塞大学阿默斯特分校等
发表日期： 2026年6月18日
arXiv ID： 2606.20482v1
领域： 计算语言学 (cs.CL)、人机交互 (cs.HC)、机器学习 (cs.LG)
代码与数据： https://github.com/themehulpatwari/llm-implicit-feedback/

研究背景与动机

显式反馈的困境

当前大语言模型的对齐——让模型输出符合人类价值观和偏好的回复——主要依赖一种被称为RLHF（基于人类反馈的强化学习）的框架。这个框架的核心环节是收集人类对模型回复的偏好标注：给定同一个问题的两个不同回答，人类标注员会选择"哪个更好"。这些偏好数据随后被用来训练奖励模型，进而通过PPO或DPO等算法来微调语言模型。

这个流程存在一个根本性的瓶颈：人类几乎不会主动给反馈。

想想你日常使用ChatGPT或类似产品的经历。你问一个问题，得到回答，看完之后就继续了。你会每次都去点那个"有帮助"或"没有帮助"的按钮吗？绝大多数用户不会。即使在Amazon Mechanical Turk这样的众包平台上，标注员被付费要求给出反馈，标注质量的差异也很大——不同标注员之间的偏好一致性往往不尽如人意。更关键的是，获取高质量的人类偏好标注成本高昂，在商业场景中这种成本会被放大到不可持续的程度。

隐式反馈：互联网巨头的秘密武器

论文指出了一个被学术研究长期忽视的现象：隐式反馈实际上是互联网公司最核心的竞争壁垒之一。

Google通过你点击哪条搜索结果来判断哪条结果更有价值；Netflix通过你看了哪些电影、看了多久来推断你的口味；TikTok通过你在某个视频上的停留时间来决定给你推荐什么内容。这些公司从不——或者说极少——需要用户主动打分。它们的推荐系统运转的基础就是用户的"被动行为泄露"。

鼠标移动的轨迹、滚动的速度、眼睛停留的位置、阅读的顺序——这些看似微不足道的行为数据，实际上构成了一座信息金矿。论文的核心问题是：我们能否将这种隐式反馈机制引入LLM对齐流程？

为什么之前没人做这件事？

尽管隐式反馈在推荐系统和搜索领域已经有二十多年的应用历史，但在LLM对齐领域，相关研究几乎为零。原因是多方面的：

第一，LLM对齐社区的关注点一直在文本层面——如何从回复文本本身推断偏好。第二，收集鼠标和眼动数据需要专门的硬件设备和实验环境。第三，缺乏一个标准化的数据集来系统性地研究隐式反馈与LLM偏好之间的关系。

这篇论文的贡献正是填补了这一空白：构建了第一个将隐式反馈与LLM对齐关联起来的数据集IFLLM，并用实验证明了这条技术路线的有效性。

核心发现

发现一：用户的注视和鼠标行为高度多样化

IFLLM数据集揭示了一个出人意料的事实：不同用户在浏览LLM回复时的行为模式差异极大。有些用户会逐字逐句地仔细阅读LLM的长回复，眼睛在文本上来回扫动；有些用户则只快速扫一眼开头几行就决定是否继续。鼠标轨迹同样呈现出截然不同的风格——有的用户习惯用鼠标悬停来追踪正在阅读的段落，有的用户几乎不动鼠标，靠滚动来浏览。

这种多样性给建模带来了挑战，但也意味着行为信号中确实蕴含了丰富的偏好信息，只是需要更精细的模型来提取。

发现二：隐式反馈显著提升奖励模型准确率

在实验中，仅基于回复文本训练的奖励模型在预测人类偏好时的准确率约为55%——这个数字并不令人意外，因为LLM的多个回复在质量上可能差距不大，纯靠文本判别确实困难。当引入隐式反馈（鼠标轨迹和眼动数据）后，准确率跃升至64%，提升了约9个百分点。

考虑到这仅仅是在文本基础上叠加了用户行为信号，这个提升幅度相当可观。它证明了隐式反馈确实捕捉到了文本本身无法表达的偏好信息。

发现三：DPO对齐后回复质量提升近三倍

研究团队将基于隐式反馈的奖励模型应用于DPO对齐流程，在八个不同的LLM上进行了实验。结果显示，相比仅使用文本奖励模型的传统DPO，加入隐式反馈后的DPO将近三倍地提升了回复质量的相对改进幅度。

这个结果尤其值得注意，因为它证明了隐式反馈的收益不仅仅是停留在"更好的奖励模型"这个中间指标上，而是能够实实在在地传导到最终的模型输出质量上。

技术方法详解（用类比）

比喻：判断一道菜好不好吃

想象你在一家餐厅试吃两道菜。传统方法是直接问你："你觉得A菜和B菜哪个好吃？"你回答"A好吃"。这就是显式反馈。

但一个有经验的厨师不需要你回答就知道你的感受。他观察你夹起A菜时的筷子速度——你夹了一大口送进嘴里，嚼得很快，又夹了第二口；而你面对B菜时，只是小口尝了一下，放下筷子皱了皱眉。你的咀嚼速度、咀嚼时长、筷子的运动轨迹——这些就是"隐式反馈"。

论文做的事情，就是把这个"观察食客肢体语言"的策略系统化地应用到LLM对齐中。

IFLLM数据集的构建

研究团队搭建了一个专门的Web界面，让用户以多轮对话的方式与LLM交互。在这个界面的后台，系统同时记录三类数据：

1. 文本数据： 用户的问题和LLM的回复，这是传统的对齐数据。

2. 鼠标轨迹数据： 用户在阅读LLM回复时鼠标的精确坐标序列。这就像画一幅"阅读热力图"——鼠标在哪里停留最久、在哪里移动最快、在哪里画了圈圈，都能反映用户对不同段落的关注程度。数据被记录为时间序列，包含鼠标的位置坐标、时间戳、以及是否悬停等状态信息。

3. 眼动数据： 通过用户的摄像头（开启网页摄像头权限后），系统使用Web端的眼动追踪技术来估算用户的视线落点。这比鼠标轨迹更直接——你的眼睛看向哪里，几乎就代表你在"关注"哪里。即使鼠标不动，眼睛的运动也能泄露用户的真实注意力分配。

把这三种数据叠在一起，研究者就拥有了一个"三维度"的偏好信号：文本说了什么、鼠标做了什么、眼睛看了什么。

奖励模型的改造

传统的奖励模型只接收文本输入（问题+回复），输出一个标量分数来表示回复的质量。论文的方法是在这个基础上增加两个额外的输入通道：

鼠标轨迹编码器： 将鼠标的时序坐标序列编码为一个固定维度的向量表示。这类似于把"用户的鼠标画了什么画"转换成机器能理解的数字。编码器需要处理变长的序列（不同用户浏览时间不同）和不同的行为模式。

眼动编码器： 将眼动注视点序列同样编码为向量表示。眼动数据的特点是采样频率高但噪声也大（Web端眼动追踪的精度有限），编码器需要在信息提取和噪声过滤之间找到平衡。

融合机制： 文本表示、鼠标表示和眼动表示通过一个融合层组合在一起，最终输出偏好预测分数。融合的方式可以是简单的拼接，也可以是更复杂的注意力加权机制——让模型自己学会在不同情况下更信任哪种信号。

DPO对齐流程

获得更好的奖励模型之后，将其接入标准的DPO（Direct Preference Optimization）流程。DPO的核心思想是直接从偏好数据中优化语言模型的策略，而不需要像PPO那样额外训练一个"裁判"。奖励模型提供偏好对（好回复 vs 差回复），DPO则调整语言模型的参数，让它更倾向于生成好的回复。

隐式反馈在这个流程中的价值体现在：它提供了比纯文本更可靠的偏好标签，减少了"标注噪声"。就像一个餐厅如果只有少数食客的评价，那评价的偶然性很大；但如果同时考虑了所有食客的用餐行为数据（吃了多少、吃了多久、有没有剩菜），判断的可靠性就大大提升了。

实验结果分析

数据集统计

IFLLM数据集包含来自59名Amazon Mechanical Turk工人的1336个多轮问答对。每条数据包含完整的对话文本、鼠标轨迹时间序列和眼动注视点序列。数据覆盖了多种对话类型和话题，具有一定的代表性。

59名被试的样本量并不算大，但考虑到每名被试贡献了多个对话实例，且每个对话都同时携带三种模态的数据，这个规模在眼动+鼠标数据集的领域里已经是有意义的。更大的挑战在于样本的多样性——59个人的行为模式能否代表更广泛的用户群体，这是需要后续验证的问题。

隐式反馈的预测能力

在预测人类偏好的准确率上，各方法的对比如下：

纯文本奖励模型： 55% ——这个基线并不低，它反映了一个现实：仅靠文本区分两个质量接近的LLM回复本来就很困难。
文本 + 鼠标轨迹： 准确率有明显提升，说明鼠标行为确实携带了偏好信息。
文本 + 眼动数据： 同样有显著提升，且提升幅度与鼠标轨迹互补。
文本 + 鼠标 + 眼动： 64% ——三种信号的融合达到了最高准确率，证明多模态隐式反馈的互补价值。

9个百分点的提升从统计角度看是显著的。更重要的是，它意味着在接近一半原本被纯文本模型判错的案例中，隐式反馈提供了纠正的依据。

DPO对齐的下游效果

这是论文最有说服力的实验：将改进的奖励模型实际用于DPO对齐，然后评估对齐后模型的回复质量。在八个LLM上的实验结果表明：

使用传统文本奖励模型的DPO能带来一定的质量提升；
使用加入隐式反馈的奖励模型后，质量提升的幅度接近前者的三倍。

"近三倍"这个数字需要放在具体语境下理解：它指的是"相对改进幅度"的倍数。假设传统DPO将模型的胜率从50%提升到了53%（3个百分点），那么隐式反馈DPO可能将其提升到59%左右（9个百分点）。虽然绝对数字仍然不大，但在对齐领域这种程度的边际改进已经被认为是有实际意义的——毕竟对齐本身就是一个追求精细控制的任务。

用户行为多样性分析

论文对用户的行为模式进行了详细的分析。眼动数据显示，不同用户的注视行为可以大致分为几类：

全面扫描型： 眼睛从头到尾扫描整段回复，对每句话都有较长的注视时间。这类用户的隐式反馈信号最丰富。
快速判断型： 只看开头几句话就做出判断，很少继续阅读后面的回复。这类用户的信号更集中于文本的前段。
对比型： 当同时展示两个回复时，眼睛在两个回复之间频繁切换，逐段进行对比。这类用户的偏好信号体现在"哪里切换得更频繁"上。

鼠标行为同样呈现多样性：有的用户把鼠标当作阅读指针，跟着文本逐行移动；有的用户鼠标静止不动，纯靠滚动浏览；还有的用户会在认同的段落上反复画圈。

这种多样性的存在既是机会也是挑战——它意味着行为数据中有信息，但也意味着简单的统计方法可能不足以提取这些信息，需要更复杂的建模策略。

与现有工作对比

与传统RLHF的对比

传统的RLHF流程（如InstructGPT所采用的）依赖大量的人类标注员对LLM输出进行比较排序。OpenAI为此投入了大量资源建立标注团队，单个标注的成本在几美元到几十美元之间，而训练一个强大的奖励模型可能需要成千上万条高质量标注。

论文的方法并不完全取代这些标注，而是提供了额外的信号通道。在一个"众包标注员愿意提供行为数据但懒得点按钮"的场景下，隐式反馈可以在不增加标注成本的前提下显著提升数据的价值密度。

与基于文本的偏好学习方法对比

近年来涌现了许多试图从文本中自动提取偏好信号的方法，如使用更强的LLM作为"自动标注员"（如Constitutional AI）、或利用回复的一致性/逻辑性等文本特征来推断偏好。这些方法的优势是不需要任何额外的数据收集，但其天花板受限于文本信息本身。

论文的方法开辟了一条正交的技术路线：不改变文本输入，而是引入全新的信号源。这意味着两种路线可以叠加使用，进一步提升对齐效果。

与搜索/推荐领域的隐式反馈研究对比

在搜索和推荐系统中，隐式反馈已经有非常成熟的应用。点击率、停留时间、购买行为等隐式信号早已是这些系统的核心驱动力。

但LLM对齐场景有几个独特的挑战：

反馈粒度更细： 搜索结果的好坏相对容易判断（用户是否点击），但LLM回复的质量是连续的、多维度的，隐式反馈需要捕捉更细微的差异。
交互模式不同： 搜索是"一次查询一个结果"的模式，LLM对话是多轮交互，隐式反馈需要考虑上下文。
隐私敏感度更高： 眼动数据和鼠标轨迹比点击数据更敏感，涉及更多的隐私考量。

论文在这些方面做出了初步的探索，但仍有许多问题有待解决。

与多模态对齐研究的对比

近期也有关于多模态反馈的LLM对齐研究，如利用语音语调、面部表情等信号。论文的鼠标+眼动方案在技术门槛上更低（不需要额外硬件，只要标准的电脑和摄像头），但也面临Web端眼动追踪精度有限的约束。

潜在应用与影响

对AI产品设计的启示

如果隐式反馈真的有效，那么AI产品的界面设计就变得至关重要。一个好的界面不仅应该让用户体验舒适，还应该"方便"捕捉到用户的隐式偏好信号。比如：

让LLM的回复以可滚动的方式展示，鼓励用户的鼠标移动和滚动行为；
设计合理的阅读引导，使用户的注视行为更有结构化；
在回复的不同部分之间加入视觉分隔，方便用户的行为信号传达"哪些部分更重要"。

这实际上意味着AI产品的UI/UX设计和模型训练之间存在一种前所未有的耦合关系。

降低对齐数据成本

论文的方法如果能扩展到大规模应用，可以显著降低对齐数据的边际成本。当前的标注方案中，每条偏好数据都需要一个标注员花费时间阅读两个回复并做出判断。而隐式反馈可以在用户"正常使用"的过程中被动收集——用户不需要做任何额外的事情。

这使得对齐数据的收集从"需要专门的标注任务"转变为"可以从日常使用中自然积累"，是一个根本性的范式转换。

个性化对齐的可能

不同用户的鼠标和眼动行为模式差异巨大，这意味着隐式反馈天然地编码了"个体差异"。基于隐式反馈的奖励模型有可能实现个性化对齐——让不同用户获得符合其个人偏好的模型行为，而不需要每个用户都去手动设置偏好选项。

这与当前"一刀切"的对齐范式形成了有趣的对比。

隐私与伦理考量

眼动数据和鼠标轨迹是非常敏感的行为信号。研究表明，眼动数据可以推断用户的认知状态、注意力分配甚至某些心理特征。如果AI公司大规模收集这类数据用于模型训练，必然会引发严重的隐私争议。

论文本身也意识到了这一点，在数据收集过程中遵循了伦理审查程序。但如何在"利用隐式反馈提升AI"和"保护用户行为隐私"之间取得平衡，是一个需要整个社区共同面对的问题。

局限性与未来方向

样本规模与多样性

IFLLM数据集只有59名被试和1336个对话实例。这个规模虽然足以证明概念的有效性，但远不足以训练工业级的奖励模型。更大的样本量、更多样化的人口统计学分布、更丰富的对话类型——这些都是扩展数据集时需要考虑的维度。

特别是，59名被试都来自Amazon Mechanical Turk，这个群体在技术素养、英语水平、年龄段等方面存在系统性偏差，不能代表全球范围内的LLM用户。

Web端眼动追踪的精度限制

通过摄像头进行的Web端眼动追踪在精度上远低于专业的眼动仪（如Tobii Pro）。分辨率低、噪声大、对光照和头部运动敏感——这些技术限制必然影响了从眼动数据中提取偏好信号的质量。

如果未来Web端眼动追踪技术继续进步，或者用户愿意在使用AI时佩戴更精确的眼动设备（这在VR/AR场景中越来越常见），隐式反馈的信号质量还有很大的提升空间。

因果关系 vs 相关关系

论文证明了隐式反馈与人类偏好之间的相关性，但相关性不等于因果性。用户在某个回复上停留更久，可能是因为觉得它更好（正面因果），也可能是因为它更难以理解（负面因果）。鼠标在某段文字上悬停，可能是在仔细阅读认同的内容，也可能是在困惑地反复审视。

建立更精确的因果模型——理解什么样的行为模式对应什么样的偏好判断——是未来研究的关键方向。

跨语言和跨文化适用性

论文的实验主要在英语语境中进行。不同语言和文化背景的用户可能有截然不同的阅读习惯和行为模式。比如，从右到左阅读的语言（如阿拉伯语、希伯来语）用户的鼠标移动模式会完全不同。东亚语言用户的阅读速度和注视模式可能与英语用户存在系统性差异。

这种跨文化的差异是否会影响隐式反馈模型的有效性，是一个值得探索的问题。

实时在线部署

论文的实验是在离线数据集上进行的。在实际部署中，系统需要实时采集和处理用户的鼠标轨迹和眼动数据，这对延迟、计算资源和隐私保护都提出了更高的要求。如何设计一个既能有效利用隐式反馈又能保护用户隐私的在线系统，是一个工程层面的挑战。

更丰富的行为信号

鼠标和眼动只是隐式反馈的两种形式。其他潜在的行为信号包括：

滚动速度和模式： 用户是匀速滚动还是跳着滚动？
文本选择行为： 用户有没有选中复制某些回复内容？
后续操作： 用户看完回复后是继续对话还是离开？如果继续对话，下一个问题的措辞是否透露了对上一个回复的态度？
停留时间分布： 用户在回复的不同部分分别花了多长时间？

将这些更丰富的行为信号整合到一个统一的隐式反馈框架中，是一个有前景的研究方向。

总结

这篇论文的核心贡献在于将互联网行业已经使用了二十多年的"隐式反馈"理念引入了大语言模型对齐领域。通过构建IFLLM数据集和开发基于隐式反馈的奖励模型，研究者证明了一个直觉上合理但在技术上尚未被验证的假设：用户的身体行为——鼠标怎么动、眼睛看哪里——确实能够帮助我们更好地理解他们对AI回复的真实偏好。

实验结果是鼓舞人心的：奖励模型准确率从55%提升到64%，DPO对齐后的回复质量改进幅度接近三倍。这些数字证明了隐式反馈不是可有可无的锦上添花，而是一个切实有用的信号源。

当然，这项工作仍处于早期阶段。59人的样本量、Web端眼动追踪的精度限制、从相关性到因果性的跨越——这些都是需要后续研究解决的问题。但论文打开了一扇门：在"人类懒得给反馈"这个长期困扰LLM对齐领域的难题面前，也许答案不是想办法让用户更愿意给反馈，而是学会"读懂"用户已经在给出的反馈——他们的鼠标和眼睛，一直都在说话。

对于AI产品设计者而言，这篇论文传达的信息是：用户界面不仅是用户体验的问题，更是模型训练数据来源的问题。对于对齐研究者而言，它开辟了一条与文本分析正交的技术路线，有望与现有方法互补，共同推动LLM对齐向更高效、更精细的方向发展。