Xiaomi MiMo-V2-Flash 开源：高效推理、代码与 Agent 基座模型

此外，MOPD 采用解耦设计，支持灵活引入新教师与 ORM（Outcome Reward Model）集成，并天然支持“教学相长”的闭环迭代：蒸馏后的学生模型可进化为更强教师，实现能力的持续自我强化。在后训练阶段，为高效扩展后训练阶段的强化学习（RL）计算规模，提升模型推理与 Agent 能力，我们提出 Multi-Teacher On-Policy Distillation（MOPD）范式。此外

小米技术

333人浏览 · 2025-12-17 16:04:27

小米技术 · 2025-12-17 16:04:27 发布

Xiaomi MiMo-V2-Flash 是小米专为极致推理效率自研的总参数309B（激活15B）的 MoE 模型，通过引入 Hybrid 注意力架构创新及多层 MTP 推理加速，在多个 Agent 测评基准上进入全球开源模型 Top 2。

代码能力超过所有开源模型，比肩标杆闭源模型 Claude 4.5 Sonnet，但推理价格仅为其2.5%且生成速度提升至2倍，成功将大模型效果和推理效率推向极致。

全球顶尖模型测评基准效果对比

秉持开放精神，模型权重和推理代码均全面开源。API 限时免费，体验 Web Demo 已上线。

推理成本与速度的极致优化

MiMo-V2-Flash 的 API 定价为: 输入0.7元 / 百万 tokens，输出2.1元 / 百万 tokens。下图为全球顶尖模型速度和成本的对比，MiMo-V2-Flash 实现了低成本、高速度。

全球顶尖模型速度 vs 成本

面向高效推理的结构创新

模型结构要点如下：

混合注意力

采用5:1的 Sliding Window Attention (SWA) 与 Global Attention（GA）混合结构，128窗口大小，原生32K 外扩256K 训练。经前期大量实验发现，SWA 简单、高效、易用，展现了比主流 Linear Attention 综合更佳的通用、长文和推理能力，并提供了固定大小的 KV Cache 从而极易适配现有训练和推理 Infra 框架。

MiMo-V2-Flash 模型架构

MTP推理加速

引入 MTP (Multi-Token Prediction) 训练提升基座能力的同时，在推理阶段通过并行验证 MTP Token，打破了传统 Decoding 在大 Batch 下的显存带宽瓶颈，实测在3层 MTP 情况下可实现2.8～3.6 的接收长度和2.0～2.6的实际加速比。

整体而言，得益于模型结构与训推 Infra 的深度融合与创新，MiMo-V2-Flash 可以在不同的硬件上通过调优 Batch Size 和 MTP 层数来最大化释放 GPU 算力，从而展现出更高的吞吐，并维持优秀的低时延以及极致推理性能。

此外，我们发现，MiMo-V2-Flash 非常适合高效的强化学习训练。它既支持小 Batch 的 On-Policy RL 训练，又能缓解长尾样本导致的 GPU 闲置。

虽然主流方法采用大 Batch 的 Off-Policy RL 以最大化吞吐量，但 MTP 通过扩展 token 级并行，使小 Batch On-Policy RL 既稳定又高效。在推理采样后期，个别生成序列极长的样本会导致有效 Batch Size 减小，造成 GPU 算力闲置。而 MTP 能显著提升注意力和前馈网络的计算效率，从而降低整体延迟。

全新的后训练范式：MOPD

全新的后训练范式（MOPD）