小米开源 OmniVoice:3 秒克隆人声、600 种语言、中文吊打 ElevenLabs,免费商用!
ElevenLabs 能做的,OmniVoice 都能做。它免费、开源、支持本地部署,并覆盖 600+ 语言。600+ 语言Apache-2.0中文 WER 0.84%3 秒音频克隆人声。

小米开源 OmniVoice:3 秒克隆人声、600 种语言、中文吊打 ElevenLabs,免费商用!
阅读约 8 分钟
标签:语音克隆、开源 TTS、小米 AI
ElevenLabs 好用,但贵、不支持本地部署、中文效果一般。
小米 AI 实验室直接开源了一个“平替”:
OmniVoice:3 秒音频克隆人声、600+ 语言覆盖、中文词错率 0.84% 碾压 ElevenLabs,Apache-2.0 协议,个人商用全免费。
| 指标 | 数值 |
|---|---|
| 语言覆盖 | 600+ |
| 中文词错率 WER | 0.84% |
| 实时推理速度 | 40× |
| 商用费用 | 0 |
一、OmniVoice 是什么?
OmniVoice 是小米 AI 实验室下一代 Kaldi 团队(k2-fsa)于 2026 年 4 月开源的多语言文本转语音模型(TTS),官方定位为“零样本多语言语音克隆系统”。
简单说:给它一段 3-10 秒的参考音频,它就能学会这个声音的特征,用这个声音朗读任意文字,无需专门训练,即插即用。
核心参数
| 项目 | 内容 |
|---|---|
| 模型参数量 | 0.8B |
| 训练数据 | 58.1 万小时开源语音 |
| 架构 | 单阶段扩散语言模型,双向 Transformer |
| 协议 | Apache-2.0,个人/商业免费使用 |
| 托管 | GitHub + Hugging Face |
架构亮点:传统 TTS 用两段式“文字 → 语义 token → 语音”,OmniVoice 用单阶段扩散语言模型,直接从文字映射到声学 token,减少中间环节,降低误差,速度更快。
二、五大核心功能
功能 1:零样本语音克隆
上传 3-10 秒参考音频,输入任意文本,即可生成同款音色语音。
omnivoice-infer \
--model k2-fsa/OmniVoice \
--text "今天天气真不错" \
--ref_audio ref.wav \
--ref_text "参考音频对应的文字" \
--output output.wav
特点:
- 手机录音即可用,内置去噪
- 支持跨语言克隆,例如中文音频读英文,带原生口音
- 音频太短或噪音多时,音色可能会略“飘”
功能 2:语音设计
可以用自然语言描述生成全新音色,无需参考音频。
omnivoice-infer \
--model k2-fsa/OmniVoice \
--text "欢迎收听本期播客" \
--instruct "male, elderly, low pitch, British accent" \
--output output.wav
支持描述:
- 性别
- 年龄
- 音调
- 方言
- 口音
- 耳语等
适用场景:
- 有声书批量生成角色配音
- 游戏 NPC 语音
功能 3:非语言符号控制
可以在文本中插入标签,生成带情绪的语音。
[laughter] 笑声
[sigh] 叹气
[breath] 呼吸声
功能 4:拼音/音素发音纠正
多音字、专有名词可以用拼音标注,解决中文 TTS 常见发音问题。
支持方言:
- 粤语:
zh-yue - 四川话:
zh-sichuan
功能 5:批量任务、SRT 配音、多人对话
WebUI 整合包支持:
- 批量生成:成百上千个音频文件一键生成
- 智能 SRT 匹配:自动识别字幕时间轴,音画同步配音
- 多人对话模拟:自由分配不同角色音色,生成剧本音频
三、与主流 TTS 工具对比
| 对比项 | OmniVoice | CosyVoice3 | ElevenLabs v2 | GPT-SoVITS |
|---|---|---|---|---|
| 语言覆盖 | 646 种 | 约 50 种 | 约 30 种 | 中英日少数 |
| 推理速度 RTF | 0.025,约 40× | 约 0.1 | 云端 | 0.3-0.5 |
| 参考音频 | 3-10 秒 | 3 秒+ | 注册上传 | 5 秒+ |
| 免费商用 | Apache-2.0 | 支持 | 付费 | 需确认 |
| 本地部署 | 支持 | 支持 | 不支持 | 支持 |
| 中文 WER | 0.84% | 约 1.5% | 约 2% | 视模型而定 |
优势总结:
- 语言覆盖广
- 中文准确率高
- 推理速度快
- 免费商用
- 支持本地部署
四、本地部署教程
硬件配置要求
| 硬件 | 推荐配置 | 最低要求 |
|---|---|---|
| 显卡 | RTX 4060 Ti 16G+ | RTX 3060 8G |
| 显存 | 12GB+ | 4GB,半精度 |
| 内存 | 32GB | 16GB |
| 硬盘 | 50GB NVMe | 20GB |
macOS Apple Silicon 也支持,包括 M1/M2/M3/M4。
CPU 能跑但极慢,大约 1 秒语音需要 10 秒生成,仅适合测试。
方式 1:整合包
适合新手,免配置环境。
百度网盘:pan.baidu.com/s/1cq7qbjaQ2gyj-oTdZRRLOA
提取码:8888
步骤:
1. 下载整合包
2. 解压到无中文路径,例如 D:\OmniVoice
3. 双击启动 一键启动.bat
4. 首次启动会自动从国内镜像下载模型
5. 打开浏览器访问 http://127.0.0.1:8081
建议:
- 不要解压到中文路径
- 不建议使用系统自带解压或 360 解压
- 推荐使用 WinRAR
方式 2:源码安装
适合开发者和二次开发。
前置条件:
- Python >= 3.10
- NVIDIA GPU + CUDA
git clone https://github.com/k2-fsa/OmniVoice.git
cd OmniVoice
uv sync --default-index "https://mirrors.aliyun.com/pypi/simple"
export HF_ENDPOINT="https://hf-mirror.com"
uv run omnivoice-demo --ip 0.0.0.0 --port 8081
Python API 调用
from omnivoice import OmniVoice
import soundfile as sf
import torch
model = OmniVoice.from_pretrained(
"k2-fsa/OmniVoice",
device_map="cuda:0",
dtype=torch.float16,
)
audio = model.generate(
text="你好,这是测试。",
ref_audio="ref.wav",
ref_text="参考音频对应的文字",
)
sf.write("output.wav", audio[0], 24000)
Apple Silicon 可将设备改为 mps。
五、OmniVoice 适合谁?
| 人群 | 场景 |
|---|---|
| 内容创作者 | 视频配音、有声书、播客 |
| 独立开发者 | App 语音功能、AI 助手 |
| 游戏开发者 | NPC 配音、角色语音 |
| 企业团队 | 客服语音、培训材料 |
六、使用注意事项
- 参考音频 3-10 秒最佳,过长会降低速度,效果不一定提升
- 跨语言克隆可能带原生口音,属于正常现象
- 路径和文件名尽量不要使用中文,避免报错
- 方言支持包括粤语
zh-yue、四川话zh-sichuan - 商用或克隆他人声音时,需要确保获得合法授权
七、资源链接
GitHub 仓库
github.com/k2-fsa/OmniVoice
Hugging Face 模型
huggingface.co/k2-fsa/OmniVoice
整合包下载
pan.baidu.com/s/1cq7qbjaQ2gyj-oTdZRRLOA
提取码:8888
总结
ElevenLabs 能做的,OmniVoice 都能做。
它免费、开源、支持本地部署,并覆盖 600+ 语言。
关键词:
- 600+ 语言
- Apache-2.0
- 中文 WER 0.84%
- 3 秒音频克隆人声
openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。
更多推荐



所有评论(0)