返回首页

罗福莉与小米MiMo:从DeepSeek到万亿参数Agent模型的技术路线

luofuli.png

罗福莉与小米MiMo:从DeepSeek到万亿参数Agent模型的技术路线

从7B小模型击败OpenAI o1-mini,到万亿参数旗舰模型,罗福莉用不到一年时间完成了小米大模型的逆袭。


一、罗福莉是谁

罗福莉(Fuli Luo),95后AI研究员,曾任职于阿里达摩院、DeepSeek,是国内顶尖的大模型研发专家。2025年10月,她以通讯作者身份出现在小米MiMo团队的论文中,同年11月12日正式官宣加入小米,担任MiMo大模型负责人。

加入小米不到10天,她就发布了第一篇论文MiMo-Embodied。此后连续推出MiMo-7B、MiMo-VL、MiMo-V2-Flash、MiMo-V2-Pro、MiMo-V2.5等一系列模型,带领小米从零开始建立了完整的大模型技术栈。


二、MiMo-7B:7B小模型击败o1-mini

论文: MiMo: Unlocking the Reasoning Potential of Language Model (2025.05) arXiv: https://arxiv.org/abs/2505.07608

这是MiMo系列的第一篇论文,核心目标是证明:小模型也能有强推理能力

核心创新

1. 三阶段数据混合策略

  • 预训练使用25万亿token
  • 三个阶段分别侧重不同数据分布
  • 增强基座模型的推理潜力

2. Multi-Token Prediction (MTP)

  • 同时预测多个未来token
  • 提升训练效率
  • 推理时可复用为投机解码的draft model

3. 专用RL框架

  • 收集13万道可验证的数学和编程问题
  • 测试难度驱动的代码奖励方案
  • 解决稀疏奖励问题
  • 策略性数据重采样稳定训练

4. 无缝Rollout引擎

  • 连续rollout + 异步奖励计算 + 提前终止
  • 训练加速2.29倍,验证加速1.96倍

实验结果

MiMo-7B-RL在AIME 2025上得分55.4%,超过o1-mini的50.7%。在LiveCodeBench v5和v6上全面超越o1-mini。一个7B的模型,在数学和代码推理上全面超越OpenAI o1-mini。


三、MiMo-V2-Flash:309B MoE的效率革命

论文: MiMo-V2-Flash Technical Report (2026.01) arXiv: https://arxiv.org/abs/2601.02780 开源: https://github.com/XiaomiMiMo/MiMo-V2-Flash

这是MiMo系列的里程碑式论文,提出了Agent时代的核心架构哲学。

模型规格

  • 总参数:309B
  • 激活参数:15B(每个token)
  • 架构:MoE + 混合注意力
  • 训练数据:27万亿token
  • 上下文:原生32K扩展至256K

核心技术创新

1. 混合注意力架构 (Hybrid Attention)

传统Transformer用全注意力,每个token都要看完整序列,计算复杂度O(n²)。MiMo-V2-Flash的做法:

  • 48层Transformer中,39层用滑动窗口注意力(SWA),9层用全注意力(GA)
  • 滑动窗口大小:128 token
  • 混合比例:5:1(SWA:GA)
  • KV缓存和注意力计算减少近6倍

关键突破:引入可学习的注意力汇聚偏置(Learnable Attention Sink Bias),让模型在需要时可以忽略某些token,大幅提升了SWA架构的建模能力。

2. 轻量级MTP模块

MTP块故意设计得很轻量:

  • 用密集FFN而非MoE(参数量仅0.33B)
  • 用SWA而非GA(减少KV缓存)
  • 推理时复用为投机解码的draft model
  • 实现3.6的接受长度,2.6倍解码加速

3. 多教师在策略蒸馏 (MOPD)

三阶段后训练流程:

  1. 通用SFT
  2. 领域专用RL/SFT训练专家教师模型
  3. MOPD:学生模型同时学习多个教师的密集token级奖励和可验证的结果奖励

4. 性能对比

MiMo-V2-Flash用DeepSeek-V3.2一半的参数,Kimi-K2三分之一的参数,达到同等性能。在SWE-Bench Verified上达到73.4%,成为开源模型中软件工程能力最强的模型之一。


四、MiMo-V2-Pro:万亿参数的Agent旗舰

发布: 2026年03月 官网: https://mimo.xiaomi.com/mimo-v2-pro

这是小米的旗舰模型,专为Agent场景设计。

模型规格

  • 总参数:超过1T
  • 激活参数:42B
  • 混合比例:7:1(SWA:GA)
  • 上下文:支持1M token
  • 轻量MTP层实现快速生成

关键能力

  • 原生全模态Agent能力(图像、音频、视频)
  • 强大的工具调用和多步推理能力
  • 在OpenClaw标准评测PinchBench和ClawEval上达到全球领先
  • 1M上下文窗口支持高强度真实Agent应用

五、ARL-Tangram:Agent训练的资源革命

论文: ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning (2026.03) arXiv: https://arxiv.org/abs/2603.13019

这篇论文解决的是Agent训练的底层计算问题。

问题背景

Agent的强化学习训练需要大量外部资源:CPU用于代码执行,GPU用于奖励模型,API调用用于搜索等。传统方式是任务级调度:一个Agent任务开始就占用资源直到结束,导致严重浪费。

解决方案:动作级调度

Tangram采用动作级编排:

  • 只有当具体操作需要资源时才分配
  • 写代码用GPU,编译代码用CPU,运行测试用CPU,搜索资料用API
  • 不同Agent任务可以共享资源

实验结果

  • 平均任务完成时间缩短4.3倍
  • RL训练步长加速1.5倍
  • 外部资源成本降低71.2%
  • 该系统已部署用于训练MiMo系列模型

六、罗福莉的核心哲学

1. Token效率决定AI普及

罗福莉反复强调:Agent真正进入生产后,推理成本是决定产品能不能大规模使用的主变量。

MiMo-V2系列的所有架构选择都围绕这个判断:

  • Hybrid Attention减少KV缓存
  • MTP填满空闲算力,提高吞吐
  • 极致的稀疏比降低预填充计算量

2. 不要盲目降价,要把模型做好

2026年4月,MiMo API宣布永久降价,最高降幅99%。罗福莉解释:推理框架支持针对SWA的分层KV缓存优化,缓存容量提升5倍,相当于降低80%缓存成本。原始推理成本远低于行业平均水平。

她同时警告:很少有模型架构和推理优化能力,能在API大幅降价后仍避免亏损。

3. 两年内实现AGI

罗福莉在采访中表示两年内将实现AGI。她认为从模型时代进入Agent时代,真正的竞争已经不只是训练模型,而是模型和框架交互、框架和环境交互、CPU/GPU/存储/通信都要一起调度、推理基础设施需要为Agent时代重新设计。


七、MiMo技术路线总结

  • 2025.05 MiMo-7B:推理专用,MTP,专用RL,7B参数
  • 2025.06 MiMo-VL:多模态,MORL,7B参数
  • 2025.11 MiMo-Embodied:跨具身基础模型
  • 2026.01 MiMo-V2-Flash:混合注意力,MTP,MOPD,309B(15B active)
  • 2026.03 ARL-Tangram:动作级资源调度(系统论文)
  • 2026.03 MiMo-V2-Pro:万亿参数Agent旗舰,1T(42B active)
  • 2026.04 MiMo-V2.5:全模态Agent,API降价99%

八、对开发者的启示

架构选择: Hybrid Attention是Agent时代的最佳实践,MTP既提升训练效率又加速推理,MoE稀疏激活是控制成本的关键。

训练策略: 专用RL比通用RL效果更好,多教师蒸馏能同时掌握多个领域专长,可验证奖励比人类偏好奖励更稳定。

部署优化: KV缓存分层优化能大幅降低成本,投机解码是提升吞吐的有效手段,动作级资源调度能节省70%以上外部资源。

商业思考: Token效率是长期竞争力,不要盲目降价要有架构优势支撑,Agent时代的基础设施需要重新设计。


数据来源

评论