在这里插入图片描述

小米开源 OmniVoice:3 秒克隆人声、600 种语言、中文吊打 ElevenLabs,免费商用!

阅读约 8 分钟
标签:语音克隆、开源 TTS、小米 AI

ElevenLabs 好用,但贵、不支持本地部署、中文效果一般。

小米 AI 实验室直接开源了一个“平替”:

OmniVoice:3 秒音频克隆人声、600+ 语言覆盖、中文词错率 0.84% 碾压 ElevenLabs,Apache-2.0 协议,个人商用全免费。

指标 数值
语言覆盖 600+
中文词错率 WER 0.84%
实时推理速度 40×
商用费用 0

一、OmniVoice 是什么?

OmniVoice 是小米 AI 实验室下一代 Kaldi 团队(k2-fsa)于 2026 年 4 月开源的多语言文本转语音模型(TTS),官方定位为“零样本多语言语音克隆系统”。

简单说:给它一段 3-10 秒的参考音频,它就能学会这个声音的特征,用这个声音朗读任意文字,无需专门训练,即插即用。

核心参数

项目 内容
模型参数量 0.8B
训练数据 58.1 万小时开源语音
架构 单阶段扩散语言模型,双向 Transformer
协议 Apache-2.0,个人/商业免费使用
托管 GitHub + Hugging Face

架构亮点:传统 TTS 用两段式“文字 → 语义 token → 语音”,OmniVoice 用单阶段扩散语言模型,直接从文字映射到声学 token,减少中间环节,降低误差,速度更快。

二、五大核心功能

功能 1:零样本语音克隆

上传 3-10 秒参考音频,输入任意文本,即可生成同款音色语音。

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "今天天气真不错" \
  --ref_audio ref.wav \
  --ref_text "参考音频对应的文字" \
  --output output.wav

特点:

  • 手机录音即可用,内置去噪
  • 支持跨语言克隆,例如中文音频读英文,带原生口音
  • 音频太短或噪音多时,音色可能会略“飘”

功能 2:语音设计

可以用自然语言描述生成全新音色,无需参考音频。

omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "欢迎收听本期播客" \
  --instruct "male, elderly, low pitch, British accent" \
  --output output.wav

支持描述:

  • 性别
  • 年龄
  • 音调
  • 方言
  • 口音
  • 耳语等

适用场景:

  • 有声书批量生成角色配音
  • 游戏 NPC 语音

功能 3:非语言符号控制

可以在文本中插入标签,生成带情绪的语音。

[laughter] 笑声
[sigh] 叹气
[breath] 呼吸声

功能 4:拼音/音素发音纠正

多音字、专有名词可以用拼音标注,解决中文 TTS 常见发音问题。

支持方言:

  • 粤语:zh-yue
  • 四川话:zh-sichuan

功能 5:批量任务、SRT 配音、多人对话

WebUI 整合包支持:

  • 批量生成:成百上千个音频文件一键生成
  • 智能 SRT 匹配:自动识别字幕时间轴,音画同步配音
  • 多人对话模拟:自由分配不同角色音色,生成剧本音频

三、与主流 TTS 工具对比

对比项 OmniVoice CosyVoice3 ElevenLabs v2 GPT-SoVITS
语言覆盖 646 种 约 50 种 约 30 种 中英日少数
推理速度 RTF 0.025,约 40× 约 0.1 云端 0.3-0.5
参考音频 3-10 秒 3 秒+ 注册上传 5 秒+
免费商用 Apache-2.0 支持 付费 需确认
本地部署 支持 支持 不支持 支持
中文 WER 0.84% 约 1.5% 约 2% 视模型而定

优势总结:

  • 语言覆盖广
  • 中文准确率高
  • 推理速度快
  • 免费商用
  • 支持本地部署

四、本地部署教程

硬件配置要求

硬件 推荐配置 最低要求
显卡 RTX 4060 Ti 16G+ RTX 3060 8G
显存 12GB+ 4GB,半精度
内存 32GB 16GB
硬盘 50GB NVMe 20GB

macOS Apple Silicon 也支持,包括 M1/M2/M3/M4。

CPU 能跑但极慢,大约 1 秒语音需要 10 秒生成,仅适合测试。

方式 1:整合包

适合新手,免配置环境。

百度网盘:pan.baidu.com/s/1cq7qbjaQ2gyj-oTdZRRLOA
提取码:8888

步骤:

1. 下载整合包
2. 解压到无中文路径,例如 D:\OmniVoice
3. 双击启动 一键启动.bat
4. 首次启动会自动从国内镜像下载模型
5. 打开浏览器访问 http://127.0.0.1:8081

建议:

  • 不要解压到中文路径
  • 不建议使用系统自带解压或 360 解压
  • 推荐使用 WinRAR

方式 2:源码安装

适合开发者和二次开发。

前置条件:

  • Python >= 3.10
  • NVIDIA GPU + CUDA
git clone https://github.com/k2-fsa/OmniVoice.git

cd OmniVoice

uv sync --default-index "https://mirrors.aliyun.com/pypi/simple"

export HF_ENDPOINT="https://hf-mirror.com"

uv run omnivoice-demo --ip 0.0.0.0 --port 8081

Python API 调用

from omnivoice import OmniVoice
import soundfile as sf
import torch

model = OmniVoice.from_pretrained(
    "k2-fsa/OmniVoice",
    device_map="cuda:0",
    dtype=torch.float16,
)

audio = model.generate(
    text="你好,这是测试。",
    ref_audio="ref.wav",
    ref_text="参考音频对应的文字",
)

sf.write("output.wav", audio[0], 24000)

Apple Silicon 可将设备改为 mps

五、OmniVoice 适合谁?

人群 场景
内容创作者 视频配音、有声书、播客
独立开发者 App 语音功能、AI 助手
游戏开发者 NPC 配音、角色语音
企业团队 客服语音、培训材料

六、使用注意事项

  • 参考音频 3-10 秒最佳,过长会降低速度,效果不一定提升
  • 跨语言克隆可能带原生口音,属于正常现象
  • 路径和文件名尽量不要使用中文,避免报错
  • 方言支持包括粤语 zh-yue、四川话 zh-sichuan
  • 商用或克隆他人声音时,需要确保获得合法授权

七、资源链接

GitHub 仓库

github.com/k2-fsa/OmniVoice

Hugging Face 模型

huggingface.co/k2-fsa/OmniVoice

整合包下载

pan.baidu.com/s/1cq7qbjaQ2gyj-oTdZRRLOA
提取码:8888

总结

ElevenLabs 能做的,OmniVoice 都能做。

它免费、开源、支持本地部署,并覆盖 600+ 语言。

关键词:

  • 600+ 语言
  • Apache-2.0
  • 中文 WER 0.84%
  • 3 秒音频克隆人声
Logo

openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐