李代数注意力机制：当Token成为群元素，Transformer遇上李群

Q: 为什么这篇论文重要

>为什么这篇论文重要Transformer架构已经成为现代AI的核心引擎，从大语言模型到计算机视觉，几乎无处不在。然而，当数据具有几何结构时（如3D物体的旋转、平移、缩放），标准Transformer并不能很好地处理这些对称性。 近年来，等变神经网络（equivariant neural networks）试图将对称性"编码"到网络结构中。但现有方法都面临一个根本性的限制：它们需要依赖不可约表示（irreducible representations）或满射指数映射等复杂的表示论工具，这不仅增加了计算复杂度，还无法处理包含缩放和剪切的仿射群——而这恰恰是计算机图形学和机器人

TL;DR

本文提出了一种全新的注意力机制——李代数注意力（Lie-Algebra Attention），首次将注意力的Token直接定义为矩阵李群的元素。这种设计使得注意力分数可以用闭式代数范数直接计算，无需学习核函数，参数量减少50-80倍，同时天然保持等变性，并且能够处理仿射群等传统方法无法触及的非紧致非交换群。

论文信息

arXiv链接: arXiv:2606.20547
作者: Przemyslaw Musialski
提交日期: 2026年6月18日
领域: 机器学习 (cs.LG)、计算机视觉 (cs.CV)、图形学 (cs.GR)、机器人学 (cs.RO)、微分几何 (math.DG)

为什么这篇论文重要

Transformer架构已经成为现代AI的核心引擎，从大语言模型到计算机视觉，几乎无处不在。然而，当数据具有几何结构时（如3D物体的旋转、平移、缩放），标准Transformer并不能很好地处理这些对称性。

近年来，等变神经网络（equivariant neural networks）试图将对称性"编码"到网络结构中。但现有方法都面临一个根本性的限制：它们需要依赖不可约表示（irreducible representations）或满射指数映射等复杂的表示论工具，这不仅增加了计算复杂度，还无法处理包含缩放和剪切的仿射群——而这恰恰是计算机图形学和机器人学中最常用的变换群。

本文另辟蹊径：**既然Token天然就是群元素，为什么不直接这样定义呢？**这一看似简单的问题导向了一个优雅的数学框架，彻底绕过了传统方法的复杂性。

核心发现

首次提出将Token直接作为矩阵李群的裸元素——不携带特征载荷，不需要外部表示作用ρ(g)
注意力分数采用闭式代数范数：s_ij = -||log(g_i⁻¹g_j)||²_λ/τ，基于分块加权Frobenius内积，无需不可约表示、球谐函数或Clebsch-Gordan乘积
在SE(2)、SO(3)和Aff(2)上的序列补全实验表明：闭式分数匹配甚至超越学习型MLP核，同时参数量减少50-80倍
向量Token基线方法的不变性被破坏5到12个数量级，而李代数注意力保持完美的不变性
首次将注意力机制扩展到仿射群Aff(2)——包含缩放和剪切的非紧致非交换群，这是所有基于irrep或surjective-exp的方法都无法处理的

技术细节（简化版）

传统方法的问题：想象你有一组3D变换（旋转、平移等），你想让AI理解它们之间的关系。传统方法需要将每个变换"翻译"成一个高维向量（通过不可约表示），然后在向量空间中计算相似度。这个"翻译"过程既复杂又不完美——某些群（如仿射群）根本无法被这样表示。

李代数注意力的创新：本文的核心洞察是——**不需要翻译！**直接在群上工作。

Token = 群元素：每个Token就是一个变换矩阵g_i（如一个旋转矩阵或仿射变换矩阵），不需要额外的特征向量
相对几何是规范的：两个Token之间的相对位姿g_i⁻¹g_j是群上的自然运算，不需要人工设计
注意力分数 = 代数范数：通过对数映射将相对位姿映射到李代数（切空间），然后用分块加权Frobenius范数衡量"距离"
等变性是同义反复：因为Token本身就在群上，群作用下的等变性自动满足
上闭链条件自动成立：这是群结构的自然推论，不需要额外验证

这种设计的优美之处在于：越复杂的事情变得越简单。传统方法需要大量表示论工具才能部分解决的问题，在这里只需要基本的群论和矩阵对数。

实际应用与影响

机器人学：机器人操作中的物体姿态可以用SE(3)群表示，李代数注意力可以自然地处理这些几何关系，有望提升机器人抓取和操作的精度。

计算机图形学：3D形状分析、动画和变形都可以用仿射变换描述，该方法首次为这些变换提供了优雅的注意力机制。

计算机视觉：图像中的几何变换（平移、旋转、缩放）是视觉任务的核心，等变注意力有望提升模型对几何变换的鲁棒性。

更广泛的影响：这一工作为Transformer的几何化开辟了一条全新的道路——不是在向量空间中"模拟"群结构，而是直接在群上运算。这可能引发几何深度学习领域的新一轮范式转变。

总结

李代数注意力通过一个看似简单却意义深远的改变——将Token直接定义为群元素——彻底简化了几何注意力机制的设计。它不仅在理论上更优雅，在实践中也更高效（参数减少50-80倍），更重要的是首次触及了仿射群这一传统方法的"禁区"。这项工作提醒我们：有时候，最好的解决方案不是增加复杂性，而是回归问题的本质。

李代数注意力机制：当Token成为群元素，Transformer遇上李群

李代数注意力机制：当Token成为群元素，Transformer遇上李群

TL;DR

论文信息

为什么这篇论文重要

核心发现

技术细节（简化版）

实际应用与影响

总结

常见问题

评论

李代数注意力机制：当Token成为群元素，Transformer遇上李群

TL;DR

论文信息

为什么这篇论文重要

核心发现

技术细节（简化版）

实际应用与影响

总结

常见问题

评论

相关推荐

分布偏移下如何让混合专家模型校准可靠？ICML 2026新研究给出答案

Multi-LCB：把代码能力评测从Python扩展到12种编程语言，大模型的「偏科」问题暴露无遗

分布漂移下如何让混合专家模型保持校准？ICML 2026最新研究揭示路由机制的关键影响

DeepSWIP：神经概率逻辑程序中的反事实推理新突破

推荐系统新范式：G2Rec如何用图结构与语义分词统一建模用户兴趣