返回首页

李代数注意力机制:当Token成为群元素,Transformer遇上李群

李代数注意力机制:当Token成为群元素,遇上李群

TL;DR

本文提出了一种全新的注意力机制——李代数注意力(Lie-Algebra Attention),首次将注意力的Token直接定义为矩阵李群的元素。这种设计使得注意力分数可以用闭式代数范数直接计算,无需学习核函数,参数量减少50-80倍,同时天然保持等变性,并且能够处理仿射群等传统方法无法触及的非紧致非交换群。

论文信息

  • 链接: arXiv:2606.20547
  • 作者: Przemyslaw Musialski
  • 提交日期: 2026年6月18日
  • 领域: 机器学习 (cs.LG)、计算机视觉 (cs.CV)、图形学 (cs.GR)、机器人学 (cs.RO)、微分几何 (math.DG)

为什么这篇论文重要

Transformer架构已经成为现代的核心引擎,从大语言模型到计算机视觉,几乎无处不在。然而,当数据具有几何结构时(如3D物体的旋转、平移、缩放),标准Transformer并不能很好地处理这些对称性。

近年来,等变神经网络(equivariant neural networks)试图将对称性"编码"到网络结构中。但现有方法都面临一个根本性的限制:它们需要依赖不可约表示(irreducible representations)或满射指数映射等复杂的表示论工具,这不仅增加了计算复杂度,还无法处理包含缩放和剪切的仿射群——而这恰恰是计算机图形学和机器人学中最常用的变换群。

本文另辟蹊径:**既然Token天然就是群元素,为什么不直接这样定义呢?**这一看似简单的问题导向了一个优雅的数学框架,彻底绕过了传统方法的复杂性。

核心发现

  • 首次提出将Token直接作为矩阵李群的裸元素——不携带特征载荷,不需要外部表示作用ρ(g)
  • 注意力分数采用闭式代数范数:s_ij = -||log(g_i⁻¹g_j)||²_λ/τ,基于分块加权Frobenius内积,无需不可约表示、球谐函数或Clebsch-Gordan乘积
  • 在SE(2)、SO(3)和Aff(2)上的序列补全实验表明:闭式分数匹配甚至超越学习型MLP核,同时参数量减少50-80倍
  • 向量Token基线方法的不变性被破坏5到12个数量级,而李代数注意力保持完美的不变性
  • 首次将注意力机制扩展到仿射群Aff(2)——包含缩放和剪切的非紧致非交换群,这是所有基于irrep或surjective-exp的方法都无法处理的

技术细节(简化版)

传统方法的问题:想象你有一组3D变换(旋转、平移等),你想让AI理解它们之间的关系。传统方法需要将每个变换"翻译"成一个高维向量(通过不可约表示),然后在向量空间中计算相似度。这个"翻译"过程既复杂又不完美——某些群(如仿射群)根本无法被这样表示。

李代数注意力的创新:本文的核心洞察是——**不需要翻译!**直接在群上工作。

  1. Token = 群元素:每个Token就是一个变换矩阵g_i(如一个旋转矩阵或仿射变换矩阵),不需要额外的特征向量
  2. 相对几何是规范的:两个Token之间的相对位姿g_i⁻¹g_j是群上的自然运算,不需要人工设计
  3. 注意力分数 = 代数范数:通过对数映射将相对位姿映射到李代数(切空间),然后用分块加权Frobenius范数衡量"距离"
  4. 等变性是同义反复:因为Token本身就在群上,群作用下的等变性自动满足
  5. 上闭链条件自动成立:这是群结构的自然推论,不需要额外验证

这种设计的优美之处在于:越复杂的事情变得越简单。传统方法需要大量表示论工具才能部分解决的问题,在这里只需要基本的群论和矩阵对数。

实际应用与影响

机器人学:机器人操作中的物体姿态可以用SE(3)群表示,李代数注意力可以自然地处理这些几何关系,有望提升机器人抓取和操作的精度。

计算机图形学:3D形状分析、动画和变形都可以用仿射变换描述,该方法首次为这些变换提供了优雅的注意力机制。

计算机视觉:图像中的几何变换(平移、旋转、缩放)是视觉任务的核心,等变注意力有望提升模型对几何变换的鲁棒性。

更广泛的影响:这一工作为Transformer的几何化开辟了一条全新的道路——不是在向量空间中"模拟"群结构,而是直接在群上运算。这可能引发几何深度学习领域的新一轮范式转变。

总结

李代数注意力通过一个看似简单却意义深远的改变——将Token直接定义为群元素——彻底简化了几何注意力机制的设计。它不仅在理论上更优雅,在实践中也更高效(参数减少50-80倍),更重要的是首次触及了仿射群这一传统方法的"禁区"。这项工作提醒我们:有时候,最好的解决方案不是增加复杂性,而是回归问题的本质。

常见问题

为什么这篇论文重要

>为什么这篇论文重要Transformer架构已经成为现代AI的核心引擎,从大语言模型到计算机视觉,几乎无处不在。然而,当数据具有几何结构时(如3D物体的旋转、平移、缩放),标准Transformer并不能很好地处理这些对称性。 近年来,等变神经网络(equivariant neural networks)试图将对称性"编码"到网络结构中。但现有方法都面临一个根本性的限制:它们需要依赖不可约表示(irreducible representations)或满射指数映射等复杂的表示论工具,这不仅增加了计算复杂度,还无法处理包含缩放和剪切的仿射群——而这恰恰是计算机图形学和机器人

评论