小米开源声音克隆大模型 OmniVoice 完整使用指南｜3 秒克隆人声｜支持 600 多种语言和中文方言｜Apache-2.0 免费商用｜整合包一键启动无需配环境｜附详细安装

小米开源声音克隆模型OmniVoice，支持3秒快速克隆人声，覆盖600多种语言，采用Apache-2.0协议可免费商用。该模型由小米AI实验室开发，基于58.1万小时语音数据训练，无需专门训练即可通过3-10秒参考音频克隆音色。核心功能包括语音克隆、语音设计、情绪控制和发音纠正，支持本地部署，推荐使用NVIDIA显卡运行。相比同类产品，OmniVoice在语言覆盖、中文准确率和生成速度方面表现突

忧云

431人浏览 · 2026-05-11 09:27:46

忧云 · 2026-05-11 09:27:46 发布

小米开源的声音克隆大模型 OmniVoice，3 秒克隆人声，支持 600 多种语言，Apache-2.0 协议可免费商用，附整合包一键安装。

前段时间在群里看到有人分享小米开源了一个声音克隆的大模型，叫 OmniVoice，说是 3 秒就能克隆别人的声音，还支持 600 多种语言。当时没太当回事，后来下下来试了一下，效果确实不差，就整理了一下相关信息分享给大家。

备用下载

OmniVoice 是什么

OmniVoice 是小米 AI 实验室旗下的语音团队 k2-fsa（下一代 Kaldi 团队）于 2026 年 4 月正式对外开源的一个多语言文本转语音模型（TTS）。官方把它定位成零样本多语言语音克隆系统：给它一段 3 到 10 秒的参考音频，它就能学会这个声音的特征，用这个声音朗读任意文字，无需专门训练。

模型参数量 0.8B，用 58.1 万小时开源语音数据训练而来，代码与权重托管在 GitHub 和 Hugging Face，Apache-2.0 协议，个人 / 商业免费使用。

和多数 TTS 工具不同，OmniVoice 采用单阶段扩散语言模型，直接从文字映射到声学 token，减少中间环节、降低误差。

核心功能

1. 语音克隆（最核心）

上传 3–10 秒参考音频 → 输入文本 → 生成同款音色语音。

手机录音即可用，内置去噪，轻微噪音不影响
建议：安静环境、清晰完整语句，效果更稳
缺点：音频太短 / 噪音多，音色会略 “飘”

2. 语音设计（文字造声）

用文字描述生成全新音色，例如：male, elderly, low pitch, British accent

支持：性别、年龄、音调、方言、口音、耳语等
场景：有声书、游戏批量生成角色配音

3. 非语言符号控制（加情绪）

文本插入标签，生成带情绪语音：

[laughter] — 笑声
[sigh] — 叹气
[breath] — 呼吸声

4. 拼音 / 音素发音纠正（中文友好）

多音字 / 专有名词用拼音标注，解决发音不准问题。

硬件配置要求

最低可跑

4GB 显存：可跑整合包，生成速度偏慢
CPU：能跑但极慢（1 秒语音≈10 秒生成），仅测试用

和主流工具对比

对比项	OmniVoice	CosyVoice3	ElevenLabs v2	GPT-SoVITS
语言覆盖	646 种	约 50 种	约 30 种	中英日少数
推理速度（RTF）	0.025（快 40 倍）	约 0.1	云端	0.3～0.5
参考音频时长	3～10 秒	3 秒 +	注册上传	5 秒 +
免费商用	✅ Apache-2.0	✅	❌付费	❌需确认
本地部署	✅	✅	❌	✅
中文词错率（WER）	0.84%	约 1.5%	约 2%	视模型而定
相似度	高于 ElevenLabs v2	较好	行业标杆	依赖训练

优势总结：语言覆盖最广、中文准确率高、速度最快、完全免费商用、本地可部署。

安装教程（两种方式）

方法一：整合包（新手推荐，免配环境）

下载地址

通过网盘分享的文件：OmniVoice.zip链接: https://pan.baidu.com/s/1465pTIzECb0qb-EdpPHgUg?pwd=8888 提取码: 8888

操作步骤

下载 .7z 压缩包，推荐 WinRAR 解压（别用系统 / 360 解压，易报错）
解压到无中文路径目录，如：D:\OmniVoice
双击 一键启动.bat
首次启动自动从国内镜像（hf-mirror.com）下载模型
浏览器打开：http://127.0.0.1:8081

界面使用

语音克隆：输入文本 → 上传参考音频 → 生成
声音设计：切换标签 → 文字描述音色 → 生成
生成后：右侧音频直接下载

方法二：源码安装（适合开发者 / 二次开发）

前置条件

Python ≥3.10
NVIDIA 显卡 + CUDA
安装 uv 依赖工具

安装命令

# 1. 克隆仓库
git clone https://github.com/k2-fsa/OmniVoice.git
cd OmniVoice

# 2. 安装依赖（国内加速）
uv sync --default-index "https://mirrors.aliyun.com/pypi/simple"

# 3. 启动Web界面
uv run omnivoice-demo --ip 0.0.0.0 --port 8081

国内模型加速

export HF_ENDPOINT="https://hf-mirror.com"

命令行生成

# 语音克隆
omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "这是一个测试。" \
  --ref_audio ref.wav \
  --ref_text "参考音频文本" \
  --output output.wav

# 声音设计
omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "这是一个测试。" \
  --instruct "male, British accent" \
  --output output.wav

Python 调用示例

from omnivoice import OmniVoice
import soundfile as sf
import torch

model = OmniVoice.from_pretrained(
    "k2-fsa/OmniVoice",
    device_map="cuda:0",  # Apple Silicon用"mps"
    dtype=torch.float16
)

# 语音克隆
audio = model.generate(
    text="你好，这是测试。",
    ref_audio="ref.wav",
    ref_text="参考音频对应的文字"
)

sf.write("output.wav", audio[0], 24000)

使用注意事项

参考音频：3–10 秒，过长降速、效果不增
跨语言克隆：带原生口音，属正常现象
路径规范：所有路径、文件名无中文，避免报错
方言支持：粤语zh-yue、四川话zh-sichuan
商用合规：克隆他人声音需合法授权

GitHub 地址

项目地址：https://github.com/k2-fsa/OmniVoice

openvela

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

小米开源声音克隆大模型OmniVoice完整使用指南｜3秒克隆人声｜支持600多种语言和中文方言｜比ElevenLabs还准的词错率｜Apache-2.0免费商用｜整合包一键启动无需配环境｜附详细安装

openvela

小米开源大模型 MiMo 登顶全球第一，还白送百万亿 Token？手把手教你薅羊毛

小米开源大模型 MiMo 登顶全球第一，还白送百万亿 Token？手把手教你薅羊毛小米这次不是「年轻人的第一台SUV」，而是「开发者的第一个免费AI大脑」。 📌 导读：小米突然开源了自家最强AI大模型 MiMo V2.5，登顶全球开源第一，MIT协议随便商用。更狠的是，同步上线百万亿Token免费送活动，最高价值659元。活动5月28日截止，手慢无。一、小米突然放大招 4月28日，雷军亲自