
罗福莉与小米MiMo:从DeepSeek到万亿参数Agent模型的技术路线
从7B小模型击败OpenAI o1-mini,到万亿参数旗舰模型,罗福莉用不到一年时间完成了小米大模型的逆袭。
一、罗福莉是谁
罗福莉(Fuli Luo),95后AI研究员,曾任职于阿里达摩院、DeepSeek,是国内顶尖的大模型研发专家。2025年10月,她以通讯作者身份出现在小米MiMo团队的论文中,同年11月12日正式官宣加入小米,担任MiMo大模型负责人。
加入小米不到10天,她就发布了第一篇论文MiMo-Embodied。此后连续推出MiMo-7B、MiMo-VL、MiMo-V2-Flash、MiMo-V2-Pro、MiMo-V2.5等一系列模型,带领小米从零开始建立了完整的大模型技术栈。
二、MiMo-7B:7B小模型击败o1-mini
论文: MiMo: Unlocking the Reasoning Potential of Language Model (2025.05) arXiv: https://arxiv.org/abs/2505.07608
这是MiMo系列的第一篇论文,核心目标是证明:小模型也能有强推理能力。
核心创新
1. 三阶段数据混合策略
- 预训练使用25万亿token
- 三个阶段分别侧重不同数据分布
- 增强基座模型的推理潜力
2. Multi-Token Prediction (MTP)
- 同时预测多个未来token
- 提升训练效率
- 推理时可复用为投机解码的draft model
3. 专用RL框架
- 收集13万道可验证的数学和编程问题
- 测试难度驱动的代码奖励方案
- 解决稀疏奖励问题
- 策略性数据重采样稳定训练
4. 无缝Rollout引擎
- 连续rollout + 异步奖励计算 + 提前终止
- 训练加速2.29倍,验证加速1.96倍
实验结果
MiMo-7B-RL在AIME 2025上得分55.4%,超过o1-mini的50.7%。在LiveCodeBench v5和v6上全面超越o1-mini。一个7B的模型,在数学和代码推理上全面超越OpenAI o1-mini。
三、MiMo-V2-Flash:309B MoE的效率革命
论文: MiMo-V2-Flash Technical Report (2026.01) arXiv: https://arxiv.org/abs/2601.02780 开源: https://github.com/XiaomiMiMo/MiMo-V2-Flash
这是MiMo系列的里程碑式论文,提出了Agent时代的核心架构哲学。
模型规格
- 总参数:309B
- 激活参数:15B(每个token)
- 架构:MoE + 混合注意力
- 训练数据:27万亿token
- 上下文:原生32K扩展至256K
核心技术创新
1. 混合注意力架构 (Hybrid Attention)
传统Transformer用全注意力,每个token都要看完整序列,计算复杂度O(n²)。MiMo-V2-Flash的做法:
- 48层Transformer中,39层用滑动窗口注意力(SWA),9层用全注意力(GA)
- 滑动窗口大小:128 token
- 混合比例:5:1(SWA:GA)
- KV缓存和注意力计算减少近6倍
关键突破:引入可学习的注意力汇聚偏置(Learnable Attention Sink Bias),让模型在需要时可以忽略某些token,大幅提升了SWA架构的建模能力。
2. 轻量级MTP模块
MTP块故意设计得很轻量:
- 用密集FFN而非MoE(参数量仅0.33B)
- 用SWA而非GA(减少KV缓存)
- 推理时复用为投机解码的draft model
- 实现3.6的接受长度,2.6倍解码加速
3. 多教师在策略蒸馏 (MOPD)
三阶段后训练流程:
- 通用SFT
- 领域专用RL/SFT训练专家教师模型
- MOPD:学生模型同时学习多个教师的密集token级奖励和可验证的结果奖励
4. 性能对比
MiMo-V2-Flash用DeepSeek-V3.2一半的参数,Kimi-K2三分之一的参数,达到同等性能。在SWE-Bench Verified上达到73.4%,成为开源模型中软件工程能力最强的模型之一。
四、MiMo-V2-Pro:万亿参数的Agent旗舰
发布: 2026年03月 官网: https://mimo.xiaomi.com/mimo-v2-pro
这是小米的旗舰模型,专为Agent场景设计。
模型规格
- 总参数:超过1T
- 激活参数:42B
- 混合比例:7:1(SWA:GA)
- 上下文:支持1M token
- 轻量MTP层实现快速生成
关键能力
- 原生全模态Agent能力(图像、音频、视频)
- 强大的工具调用和多步推理能力
- 在OpenClaw标准评测PinchBench和ClawEval上达到全球领先
- 1M上下文窗口支持高强度真实Agent应用
五、ARL-Tangram:Agent训练的资源革命
论文: ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning (2026.03) arXiv: https://arxiv.org/abs/2603.13019
这篇论文解决的是Agent训练的底层计算问题。
问题背景
Agent的强化学习训练需要大量外部资源:CPU用于代码执行,GPU用于奖励模型,API调用用于搜索等。传统方式是任务级调度:一个Agent任务开始就占用资源直到结束,导致严重浪费。
解决方案:动作级调度
Tangram采用动作级编排:
- 只有当具体操作需要资源时才分配
- 写代码用GPU,编译代码用CPU,运行测试用CPU,搜索资料用API
- 不同Agent任务可以共享资源
实验结果
- 平均任务完成时间缩短4.3倍
- RL训练步长加速1.5倍
- 外部资源成本降低71.2%
- 该系统已部署用于训练MiMo系列模型
六、罗福莉的核心哲学
1. Token效率决定AI普及
罗福莉反复强调:Agent真正进入生产后,推理成本是决定产品能不能大规模使用的主变量。
MiMo-V2系列的所有架构选择都围绕这个判断:
- Hybrid Attention减少KV缓存
- MTP填满空闲算力,提高吞吐
- 极致的稀疏比降低预填充计算量
2. 不要盲目降价,要把模型做好
2026年4月,MiMo API宣布永久降价,最高降幅99%。罗福莉解释:推理框架支持针对SWA的分层KV缓存优化,缓存容量提升5倍,相当于降低80%缓存成本。原始推理成本远低于行业平均水平。
她同时警告:很少有模型架构和推理优化能力,能在API大幅降价后仍避免亏损。
3. 两年内实现AGI
罗福莉在采访中表示两年内将实现AGI。她认为从模型时代进入Agent时代,真正的竞争已经不只是训练模型,而是模型和框架交互、框架和环境交互、CPU/GPU/存储/通信都要一起调度、推理基础设施需要为Agent时代重新设计。
七、MiMo技术路线总结
- 2025.05 MiMo-7B:推理专用,MTP,专用RL,7B参数
- 2025.06 MiMo-VL:多模态,MORL,7B参数
- 2025.11 MiMo-Embodied:跨具身基础模型
- 2026.01 MiMo-V2-Flash:混合注意力,MTP,MOPD,309B(15B active)
- 2026.03 ARL-Tangram:动作级资源调度(系统论文)
- 2026.03 MiMo-V2-Pro:万亿参数Agent旗舰,1T(42B active)
- 2026.04 MiMo-V2.5:全模态Agent,API降价99%
八、对开发者的启示
架构选择: Hybrid Attention是Agent时代的最佳实践,MTP既提升训练效率又加速推理,MoE稀疏激活是控制成本的关键。
训练策略: 专用RL比通用RL效果更好,多教师蒸馏能同时掌握多个领域专长,可验证奖励比人类偏好奖励更稳定。
部署优化: KV缓存分层优化能大幅降低成本,投机解码是提升吞吐的有效手段,动作级资源调度能节省70%以上外部资源。
商业思考: Token效率是长期竞争力,不要盲目降价要有架构优势支撑,Agent时代的基础设施需要重新设计。
数据来源
- MiMo-7B论文: https://arxiv.org/abs/2505.07608
- MiMo-V2-Flash论文: https://arxiv.org/abs/2601.02780
- ARL-Tangram论文: https://arxiv.org/abs/2603.13019
- MiMo-V2-Pro官网: https://mimo.xiaomi.com/mimo-v2-pro
- 罗福莉X平台发言
- IT之家、量子位等科技媒体报道
评论