Xiaomi MiMo-V2-Flash：高效推理、代码与 Agent 基座模型

小米发布新一代大模型XiaomiMiMo-V2-Flash，采用混合专家架构，总参数309B。该模型在代码能力上超越开源模型，智能体表现全球前二，推理速度达150token/秒，API成本仅为行业标杆的2.5%。创新技术包括混合注意力机制和多层Token预测，支持256K长上下文。小米采用MIT协议全面开源模型，旨在构建AI生态，未来计划与"人车家全生态"深度融合。用户可通过官

自不量力的A同学

921人浏览 · 2025-12-17 23:01:52

自不量力的A同学 · 2025-12-17 23:01:52 发布

小米在2025年12月17日正式发布了新一代大模型 Xiaomi MiMo-V2-Flash。该模型定位为高效推理、代码生成和智能体（Agent）应用的基础模型，其核心特点是在保持顶尖性能的同时，实现了极高的推理效率和极低的使用成本。

为了方便你快速了解，以下是该模型的关键信息概览：

特性维度	具体信息
模型类型	混合专家模型 (MoE)-1 -7
参数规模	总参数 309B，激活参数 15B-1 -3 -4
核心优势	代码能力卓越，推理成本极低，速度极快-2 -3
代码能力	超越所有开源模型，比肩闭源标杆Claude 4.5 Sonnet-9
Agent能力	位列全球开源模型前两名-4 -8
推理速度	最高达每秒150个Token-3 -6
API价格	输入: 0.7元/百万Tokens，输出: 2.1元/百万Tokens-1 -7
成本对比	推理价格仅为Claude 4.5 Sonnet的 2.5%-2 -7
开源协议	模型权重与推理代码均采用 MIT协议全面开源-2 -9

深入解读：技术、性能与战略

为了让你更深入地理解它的价值，我们可以从以下几个维度来看：

技术架构与效率秘诀：MiMo-V2-Flash的高效源于其创新的工程架构。它采用了混合注意力机制（5层滑动窗口+1层全局注意力），在支持256K长上下文的同时，大幅降低了计算资源消耗。同时，其多层Token预测技术实现了2-2.6倍的推理加速。在后训练阶段，小米采用的 “多教师在线策略蒸馏” 方法，仅用传统方法1/50的算力就逼近了顶尖模型的性能。
性能与成本标杆对比：该模型的核心优势在于实现了顶尖能力与极致成本的平衡。在代码能力上，它在真实软件工程修复测试（SWE-bench）中解决率达到73.4%，超越了所有开源模型。在智能体（Agent）和数学推理等关键评测中，它同样位列全球开源模型前两名，综合表现与DeepSeek-V3.2等顶级模型相当。而其API价格仅为行业标杆模型的零头，性价比优势极为突出。
应用场景与潜力：该模型专为需要复杂逻辑和交互的场景设计。它不仅能够一键生成功能完整的HTML网页（如模拟操作系统、交互游戏），更可以作为智能体（Agent）的“大脑”，在长上下文中进行多轮决策和工具调用。负责人罗福莉指出，小米的长期目标是让AI从理解语言迈向理解物理世界，最终与小米的“人车家全生态”深度融合。
开源策略的战略考量：小米选择采用最宽松的MIT协议将模型完全开源，意在快速建立开发者信任，构建生态。这与一些巨头附带限制条款的“有限开源”形成差异，旨在吸引广大开发者和企业用户，共同构建应用生态。