罗福莉与小米MiMo：从DeepSeek到万亿参数Agent模型的技术路线

从7B小模型击败OpenAI o1-mini，到万亿参数旗舰模型，罗福莉用不到一年时间完成了小米大模型的逆袭。

一、罗福莉是谁

罗福莉（Fuli Luo），95后AI研究员，曾任职于阿里达摩院、DeepSeek，是国内顶尖的大模型研发专家。2025年10月，她以通讯作者身份出现在小米MiMo团队的论文中，同年11月12日正式官宣加入小米，担任MiMo大模型负责人。

加入小米不到10天，她就发布了第一篇论文MiMo-Embodied。此后连续推出MiMo-7B、MiMo-VL、MiMo-V2-Flash、MiMo-V2-Pro、MiMo-V2.5等一系列模型，带领小米从零开始建立了完整的大模型技术栈。

二、MiMo-7B：7B小模型击败o1-mini

论文: MiMo: Unlocking the Reasoning Potential of Language Model (2025.05) arXiv: https://arxiv.org/abs/2505.07608

这是MiMo系列的第一篇论文，核心目标是证明：小模型也能有强推理能力。

核心创新

1. 三阶段数据混合策略

预训练使用25万亿token
三个阶段分别侧重不同数据分布
增强基座模型的推理潜力

2. Multi-Token Prediction (MTP)

同时预测多个未来token
提升训练效率
推理时可复用为投机解码的draft model

3. 专用RL框架

收集13万道可验证的数学和编程问题
测试难度驱动的代码奖励方案
解决稀疏奖励问题
策略性数据重采样稳定训练

4. 无缝Rollout引擎

连续rollout + 异步奖励计算 + 提前终止
训练加速2.29倍，验证加速1.96倍

实验结果

MiMo-7B-RL在AIME 2025上得分55.4%，超过o1-mini的50.7%。在LiveCodeBench v5和v6上全面超越o1-mini。一个7B的模型，在数学和代码推理上全面超越OpenAI o1-mini。

三、MiMo-V2-Flash：309B MoE的效率革命

论文: MiMo-V2-Flash Technical Report (2026.01) arXiv: https://arxiv.org/abs/2601.02780 开源: https://github.com/XiaomiMiMo/MiMo-V2-Flash

这是MiMo系列的里程碑式论文，提出了Agent时代的核心架构哲学。

模型规格

总参数：309B
激活参数：15B（每个token）
架构：MoE + 混合注意力
训练数据：27万亿token
上下文：原生32K扩展至256K

核心技术创新

1. 混合注意力架构 (Hybrid Attention)

传统Transformer用全注意力，每个token都要看完整序列，计算复杂度O(n²)。MiMo-V2-Flash的做法：

48层Transformer中，39层用滑动窗口注意力（SWA），9层用全注意力（GA）
滑动窗口大小：128 token
混合比例：5:1（SWA:GA）
KV缓存和注意力计算减少近6倍

关键突破：引入可学习的注意力汇聚偏置（Learnable Attention Sink Bias），让模型在需要时可以忽略某些token，大幅提升了SWA架构的建模能力。

2. 轻量级MTP模块

MTP块故意设计得很轻量：

用密集FFN而非MoE（参数量仅0.33B）
用SWA而非GA（减少KV缓存）
推理时复用为投机解码的draft model
实现3.6的接受长度，2.6倍解码加速

3. 多教师在策略蒸馏 (MOPD)

三阶段后训练流程：

通用SFT
领域专用RL/SFT训练专家教师模型
MOPD：学生模型同时学习多个教师的密集token级奖励和可验证的结果奖励

4. 性能对比

MiMo-V2-Flash用DeepSeek-V3.2一半的参数，Kimi-K2三分之一的参数，达到同等性能。在SWE-Bench Verified上达到73.4%，成为开源模型中软件工程能力最强的模型之一。

四、MiMo-V2-Pro：万亿参数的Agent旗舰

发布: 2026年03月官网: https://mimo.xiaomi.com/mimo-v2-pro

这是小米的旗舰模型，专为Agent场景设计。

模型规格

总参数：超过1T
激活参数：42B
混合比例：7:1（SWA:GA）
上下文：支持1M token
轻量MTP层实现快速生成

关键能力

原生全模态Agent能力（图像、音频、视频）
强大的工具调用和多步推理能力
在OpenClaw标准评测PinchBench和ClawEval上达到全球领先
1M上下文窗口支持高强度真实Agent应用

五、ARL-Tangram：Agent训练的资源革命

论文: ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning (2026.03) arXiv: https://arxiv.org/abs/2603.13019

这篇论文解决的是Agent训练的底层计算问题。

问题背景

Agent的强化学习训练需要大量外部资源：CPU用于代码执行，GPU用于奖励模型，API调用用于搜索等。传统方式是任务级调度：一个Agent任务开始就占用资源直到结束，导致严重浪费。

解决方案：动作级调度

Tangram采用动作级编排：

只有当具体操作需要资源时才分配
写代码用GPU，编译代码用CPU，运行测试用CPU，搜索资料用API
不同Agent任务可以共享资源

实验结果

平均任务完成时间缩短4.3倍
RL训练步长加速1.5倍
外部资源成本降低71.2%
该系统已部署用于训练MiMo系列模型

六、罗福莉的核心哲学

1. Token效率决定AI普及

罗福莉反复强调：Agent真正进入生产后，推理成本是决定产品能不能大规模使用的主变量。

MiMo-V2系列的所有架构选择都围绕这个判断：

Hybrid Attention减少KV缓存
MTP填满空闲算力，提高吞吐
极致的稀疏比降低预填充计算量

2. 不要盲目降价，要把模型做好

2026年4月，MiMo API宣布永久降价，最高降幅99%。罗福莉解释：推理框架支持针对SWA的分层KV缓存优化，缓存容量提升5倍，相当于降低80%缓存成本。原始推理成本远低于行业平均水平。

她同时警告：很少有模型架构和推理优化能力，能在API大幅降价后仍避免亏损。

3. 两年内实现AGI

罗福莉在采访中表示两年内将实现AGI。她认为从模型时代进入Agent时代，真正的竞争已经不只是训练模型，而是模型和框架交互、框架和环境交互、CPU/GPU/存储/通信都要一起调度、推理基础设施需要为Agent时代重新设计。

七、MiMo技术路线总结

2025.05 MiMo-7B：推理专用，MTP，专用RL，7B参数
2025.06 MiMo-VL：多模态，MORL，7B参数
2025.11 MiMo-Embodied：跨具身基础模型
2026.01 MiMo-V2-Flash：混合注意力，MTP，MOPD，309B(15B active)
2026.03 ARL-Tangram：动作级资源调度（系统论文）
2026.03 MiMo-V2-Pro：万亿参数Agent旗舰，1T(42B active)
2026.04 MiMo-V2.5：全模态Agent，API降价99%

八、对开发者的启示

架构选择: Hybrid Attention是Agent时代的最佳实践，MTP既提升训练效率又加速推理，MoE稀疏激活是控制成本的关键。

训练策略: 专用RL比通用RL效果更好，多教师蒸馏能同时掌握多个领域专长，可验证奖励比人类偏好奖励更稳定。

部署优化: KV缓存分层优化能大幅降低成本，投机解码是提升吞吐的有效手段，动作级资源调度能节省70%以上外部资源。

商业思考: Token效率是长期竞争力，不要盲目降价要有架构优势支撑，Agent时代的基础设施需要重新设计。

数据来源

MiMo-7B论文: https://arxiv.org/abs/2505.07608
MiMo-V2-Flash论文: https://arxiv.org/abs/2601.02780
ARL-Tangram论文: https://arxiv.org/abs/2603.13019
MiMo-V2-Pro官网: https://mimo.xiaomi.com/mimo-v2-pro
罗福莉X平台发言
IT之家、量子位等科技媒体报道

罗福莉与小米MiMo：从DeepSeek到万亿参数Agent模型的技术路线

一、罗福莉是谁

二、MiMo-7B：7B小模型击败o1-mini

核心创新

实验结果

三、MiMo-V2-Flash：309B MoE的效率革命

模型规格

核心技术创新

四、MiMo-V2-Pro：万亿参数的Agent旗舰

模型规格

关键能力

五、ARL-Tangram：Agent训练的资源革命

问题背景

解决方案：动作级调度

实验结果

六、罗福莉的核心哲学

1. Token效率决定AI普及

2. 不要盲目降价，要把模型做好

3. 两年内实现AGI

七、MiMo技术路线总结

八、对开发者的启示

数据来源

评论

相关推荐

RAG知识库实战教程2026：从零搭建企业级智能问答系统，含RAGFlow+Dify+自建方案完整Python代码

LLM微调实战教程2026：LLaMA-Factory+Unsloth从零到商业化，含完整Python代码

RAG知识库实战教程2026：从零搭建企业级AI知识库，含完整Python代码

2026年云计算市场格局深度分析：AI重塑云竞争、三巨头份额洗牌、企业上云进入AI原生时代

淘宝客变现实战教程2026：三大联盟平台注册+佣金结构+推广位创建完整指南，含Python代码