小米开源 OmniVoice：3 秒克隆人声、600 种语言、中文吊打 ElevenLabs，免费商用！

ElevenLabs 能做的，OmniVoice 都能做。它免费、开源、支持本地部署，并覆盖 600+ 语言。600+ 语言Apache-2.0中文 WER 0.84%3 秒音频克隆人声。

谢白羽

423人浏览 · 2026-05-18 16:10:23

谢白羽 · 2026-05-18 16:10:23 发布

在这里插入图片描述

小米开源 OmniVoice：3 秒克隆人声、600 种语言、中文吊打 ElevenLabs，免费商用！

阅读约 8 分钟
标签：语音克隆、开源 TTS、小米 AI

ElevenLabs 好用，但贵、不支持本地部署、中文效果一般。

小米 AI 实验室直接开源了一个“平替”：

OmniVoice：3 秒音频克隆人声、600+ 语言覆盖、中文词错率 0.84% 碾压 ElevenLabs，Apache-2.0 协议，个人商用全免费。

指标	数值
语言覆盖	600+
中文词错率 WER	0.84%
实时推理速度	40×
商用费用	0

一、OmniVoice 是什么？

OmniVoice 是小米 AI 实验室下一代 Kaldi 团队（k2-fsa）于 2026 年 4 月开源的多语言文本转语音模型（TTS），官方定位为“零样本多语言语音克隆系统”。

简单说：给它一段 3-10 秒的参考音频，它就能学会这个声音的特征，用这个声音朗读任意文字，无需专门训练，即插即用。

核心参数

项目	内容
模型参数量	0.8B
训练数据	58.1 万小时开源语音
架构	单阶段扩散语言模型，双向 Transformer
协议	Apache-2.0，个人/商业免费使用
托管	GitHub + Hugging Face

架构亮点：传统 TTS 用两段式“文字 → 语义 token → 语音”，OmniVoice 用单阶段扩散语言模型，直接从文字映射到声学 token，减少中间环节，降低误差，速度更快。

二、五大核心功能

功能 1：零样本语音克隆

上传 3-10 秒参考音频，输入任意文本，即可生成同款音色语音。

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "今天天气真不错" \
  --ref_audio ref.wav \
  --ref_text "参考音频对应的文字" \
  --output output.wav

特点：

手机录音即可用，内置去噪
支持跨语言克隆，例如中文音频读英文，带原生口音
音频太短或噪音多时，音色可能会略“飘”

功能 2：语音设计

可以用自然语言描述生成全新音色，无需参考音频。

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "欢迎收听本期播客" \
  --instruct "male, elderly, low pitch, British accent" \
  --output output.wav

支持描述：

性别
年龄
音调
方言
口音
耳语等

适用场景：

有声书批量生成角色配音
游戏 NPC 语音

功能 3：非语言符号控制

可以在文本中插入标签，生成带情绪的语音。

[laughter] 笑声
[sigh] 叹气
[breath] 呼吸声

功能 4：拼音/音素发音纠正

多音字、专有名词可以用拼音标注，解决中文 TTS 常见发音问题。

支持方言：

粤语：zh-yue
四川话：zh-sichuan

功能 5：批量任务、SRT 配音、多人对话

WebUI 整合包支持：

批量生成：成百上千个音频文件一键生成
智能 SRT 匹配：自动识别字幕时间轴，音画同步配音
多人对话模拟：自由分配不同角色音色，生成剧本音频

三、与主流 TTS 工具对比

对比项	OmniVoice	CosyVoice3	ElevenLabs v2	GPT-SoVITS
语言覆盖	646 种	约 50 种	约 30 种	中英日少数
推理速度 RTF	0.025，约 40×	约 0.1	云端	0.3-0.5
参考音频	3-10 秒	3 秒+	注册上传	5 秒+
免费商用	Apache-2.0	支持	付费	需确认
本地部署	支持	支持	不支持	支持
中文 WER	0.84%	约 1.5%	约 2%	视模型而定

优势总结：

语言覆盖广
中文准确率高
推理速度快
免费商用
支持本地部署

四、本地部署教程

硬件配置要求

硬件	推荐配置	最低要求
显卡	RTX 4060 Ti 16G+	RTX 3060 8G
显存	12GB+	4GB，半精度
内存	32GB	16GB
硬盘	50GB NVMe	20GB

macOS Apple Silicon 也支持，包括 M1/M2/M3/M4。

CPU 能跑但极慢，大约 1 秒语音需要 10 秒生成，仅适合测试。

方式 1：整合包

适合新手，免配置环境。

百度网盘：pan.baidu.com/s/1cq7qbjaQ2gyj-oTdZRRLOA
提取码：8888

步骤：

1. 下载整合包
2. 解压到无中文路径，例如 D:\OmniVoice
3. 双击启动 一键启动.bat
4. 首次启动会自动从国内镜像下载模型
5. 打开浏览器访问 http://127.0.0.1:8081

建议：

不要解压到中文路径
不建议使用系统自带解压或 360 解压
推荐使用 WinRAR

方式 2：源码安装

适合开发者和二次开发。

前置条件：

Python >= 3.10
NVIDIA GPU + CUDA

git clone https://github.com/k2-fsa/OmniVoice.git

cd OmniVoice

uv sync --default-index "https://mirrors.aliyun.com/pypi/simple"

export HF_ENDPOINT="https://hf-mirror.com"

uv run omnivoice-demo --ip 0.0.0.0 --port 8081

Python API 调用

from omnivoice import OmniVoice
import soundfile as sf
import torch

model = OmniVoice.from_pretrained(
    "k2-fsa/OmniVoice",
    device_map="cuda:0",
    dtype=torch.float16,
)

audio = model.generate(
    text="你好，这是测试。",
    ref_audio="ref.wav",
    ref_text="参考音频对应的文字",
)

sf.write("output.wav", audio[0], 24000)

Apple Silicon 可将设备改为 mps。

五、OmniVoice 适合谁？

人群	场景
内容创作者	视频配音、有声书、播客
独立开发者	App 语音功能、AI 助手
游戏开发者	NPC 配音、角色语音
企业团队	客服语音、培训材料

六、使用注意事项

参考音频 3-10 秒最佳，过长会降低速度，效果不一定提升
跨语言克隆可能带原生口音，属于正常现象
路径和文件名尽量不要使用中文，避免报错
方言支持包括粤语 zh-yue、四川话 zh-sichuan
商用或克隆他人声音时，需要确保获得合法授权

七、资源链接

GitHub 仓库

github.com/k2-fsa/OmniVoice

Hugging Face 模型

huggingface.co/k2-fsa/OmniVoice

整合包下载

pan.baidu.com/s/1cq7qbjaQ2gyj-oTdZRRLOA
提取码：8888

总结

ElevenLabs 能做的，OmniVoice 都能做。

它免费、开源、支持本地部署，并覆盖 600+ 语言。

关键词：

600+ 语言
Apache-2.0
中文 WER 0.84%
3 秒音频克隆人声

openvela

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

声音克隆小米大模型 OmniVoice 完整使用指南｜3 秒克隆人声｜支持 600 多种语言和中文方言详细安装教程

openvela

智能进化觉醒！openvela trunk-5.5 发布：端侧 AI Agent 开源和多方位升级

openvela

深度拆解：2026款RTX 4090 24G服务器架构与Ada Lovelace特性解析

openvela

所有评论(0)

查看更多评论

谢白羽

@weixin_43679037

已为社区贡献1条内容

小米开源 OmniVoice：3 秒克隆人声、600 种语言、中文吊打 ElevenLabs，免费商用！

谢白羽

小米开源 OmniVoice：3 秒克隆人声、600 种语言、中文吊打 ElevenLabs，免费商用！

一、OmniVoice 是什么？

核心参数

二、五大核心功能

功能 1：零样本语音克隆

功能 2：语音设计

功能 3：非语言符号控制

功能 4：拼音/音素发音纠正

功能 5：批量任务、SRT 配音、多人对话

三、与主流 TTS 工具对比

四、本地部署教程

硬件配置要求

方式 1：整合包

方式 2：源码安装

Python API 调用

五、OmniVoice 适合谁？

六、使用注意事项

七、资源链接

GitHub 仓库

Hugging Face 模型

整合包下载

总结

所有评论(0)

温馨提示：您尚未绑定手机号

谢白羽