近期,小米大模型团队通过“Xiaomi MiMo”官方公众号发布重磅消息,宣布成立专注推理能力的大模型核心研发团队,并正式推出首款自研大模型 Xiaomi MiMo,同时实现全面开源。作为一个参数仅为 7B 的小体量模型,MiMo 在数学推理测评集 AIME 24-25 及代码评测集 LiveCodeBench v5 上表现优异,成功超越 OpenAI 的闭源模型 o1-mini 以及阿里巴巴的 32B 参数开源模型 QwQ-32B-Preview,在推理任务上取得显著突破。

MiMo 之所以具备强悍的推理能力,得益于其在预训练与后训练两个阶段所采取的一系列创新策略。在预训练阶段,小米团队重点构建覆盖广泛推理场景的高质量语料,合成了超过 200B tokens 的推理数据,并采用三阶段渐进式训练方式,从基础逻辑到复杂推理逐步提升模型推理难度,整个训练数据量达到 25T tokens。进入后训练阶段,MiMo 引入 Test Difficulty Driven Reward 机制以缓解奖励稀疏问题,结合 Easy Data Re-Sampling 稳定优化效果,并借助 Seamless Rollout 系统大幅提升训练效率,实现 RL 训练提速 2.29 倍,验证效率提升 1.96 倍,有效推动推理性能边界。

从测试结果来看,MiMo-7B 在多个复杂任务中表现超越其参数规模:在数学推理方面,AIME 24-25 数据集中的几何与数论题目中展现了优异能力,成功超越13B参数的 o1-mini;在代码能力方面,LiveCodeBench v5 中,MiMo 在动态规划、图结构等算法难题中的通过率领先于 32B 的 QwQ-32B-Preview,显示其在数学与程序推理任务上的强大实战能力。

目前,小米已将 MiMo-7B 模型开放至 Hugging Face,并同步上线技术报告, 不仅提供了轻量化推理模型解决方案,也彰显其在训练方法与模型效率方面的高度创新能力,推动AI在高复杂度场景中的落地实践。

Logo

openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐