小米开源的声音克隆大模型 OmniVoice,3 秒克隆人声,支持 600 多种语言,Apache-2.0 协议可免费商用,附整合包一键安装。

前段时间在群里看到有人分享小米开源了一个声音克隆的大模型,叫 OmniVoice,说是 3 秒就能克隆别人的声音,还支持 600 多种语言。当时没太当回事,后来下下来试了一下,效果确实不差,就整理了一下相关信息分享给大家。

备用下载

OmniVoice 是什么

OmniVoice 是小米 AI 实验室旗下的语音团队 k2-fsa(下一代 Kaldi 团队)于 2026 年 4 月正式对外开源的一个多语言文本转语音模型(TTS)。官方把它定位成零样本多语言语音克隆系统:给它一段 3 到 10 秒的参考音频,它就能学会这个声音的特征,用这个声音朗读任意文字,无需专门训练

模型参数量 0.8B,用 58.1 万小时开源语音数据训练而来,代码与权重托管在 GitHub 和 Hugging Face,Apache-2.0 协议,个人 / 商业免费使用

和多数 TTS 工具不同,OmniVoice 采用单阶段扩散语言模型,直接从文字映射到声学 token,减少中间环节、降低误差。

核心功能

1. 语音克隆(最核心)

上传 3–10 秒参考音频 → 输入文本 → 生成同款音色语音。

  • 手机录音即可用,内置去噪,轻微噪音不影响
  • 建议:安静环境、清晰完整语句,效果更稳
  • 缺点:音频太短 / 噪音多,音色会略 “飘”

2. 语音设计(文字造声)

用文字描述生成全新音色,例如:male, elderly, low pitch, British accent

  • 支持:性别、年龄、音调、方言、口音、耳语等
  • 场景:有声书、游戏批量生成角色配音

3. 非语言符号控制(加情绪)

文本插入标签,生成带情绪语音:

  • [laughter] — 笑声
  • [sigh] — 叹气
  • [breath] — 呼吸声

4. 拼音 / 音素发音纠正(中文友好)

多音字 / 专有名词用拼音标注,解决发音不准问题。

硬件配置要求

推荐配置

  • 显卡:NVIDIA GPU,6GB 显存起步,10GB + 更稳(RTX 3090/4090/A10)
  • 系统:Linux 最佳;macOS(Apple Silicon)支持;Windows 用 WSL2 或整合包
  • 内存:≥16GB
  • 硬盘:解压后约14GB,预留空间

最低可跑

  • 4GB 显存:可跑整合包,生成速度偏慢
  • CPU:能跑但极慢(1 秒语音≈10 秒生成),仅测试用

和主流工具对比

对比项 OmniVoice CosyVoice3 ElevenLabs v2 GPT-SoVITS
语言覆盖 646 种 约 50 种 约 30 种 中英日少数
推理速度(RTF) 0.025(快 40 倍) 约 0.1 云端 0.3~0.5
参考音频时长 3~10 秒 3 秒 + 注册上传 5 秒 +
免费商用 ✅ Apache-2.0 ❌付费 ❌需确认
本地部署
中文词错率(WER) 0.84% 约 1.5% 约 2% 视模型而定
相似度 高于 ElevenLabs v2 较好 行业标杆 依赖训练

优势总结:语言覆盖最广、中文准确率高、速度最快、完全免费商用、本地可部署。

安装教程(两种方式)

方法一:整合包(新手推荐,免配环境)

下载地址

通过网盘分享的文件:OmniVoice.zip链接: https://pan.baidu.com/s/1465pTIzECb0qb-EdpPHgUg?pwd=8888 提取码: 8888

操作步骤
  1. 下载 .7z 压缩包,推荐 WinRAR 解压(别用系统 / 360 解压,易报错)
  2. 解压到无中文路径目录,如:D:\OmniVoice
  3. 双击 一键启动.bat
  4. 首次启动自动从国内镜像(hf-mirror.com)下载模型
  5. 浏览器打开:http://127.0.0.1:8081
界面使用
  • 语音克隆:输入文本 → 上传参考音频 → 生成
  • 声音设计:切换标签 → 文字描述音色 → 生成
  • 生成后:右侧音频直接下载

方法二:源码安装(适合开发者 / 二次开发)

前置条件
  • Python ≥3.10
  • NVIDIA 显卡 + CUDA
  • 安装 uv 依赖工具
安装命令
# 1. 克隆仓库
git clone https://github.com/k2-fsa/OmniVoice.git
cd OmniVoice

# 2. 安装依赖(国内加速)
uv sync --default-index "https://mirrors.aliyun.com/pypi/simple"

# 3. 启动Web界面
uv run omnivoice-demo --ip 0.0.0.0 --port 8081
国内模型加速
export HF_ENDPOINT="https://hf-mirror.com"
命令行生成
# 语音克隆
omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "这是一个测试。" \
  --ref_audio ref.wav \
  --ref_text "参考音频文本" \
  --output output.wav

# 声音设计
omnivoice-infer \
  --model k2-fsa/OmniVoice \
  --text "这是一个测试。" \
  --instruct "male, British accent" \
  --output output.wav
Python 调用示例
from omnivoice import OmniVoice
import soundfile as sf
import torch

model = OmniVoice.from_pretrained(
    "k2-fsa/OmniVoice",
    device_map="cuda:0",  # Apple Silicon用"mps"
    dtype=torch.float16
)

# 语音克隆
audio = model.generate(
    text="你好,这是测试。",
    ref_audio="ref.wav",
    ref_text="参考音频对应的文字"
)

sf.write("output.wav", audio[0], 24000)

使用注意事项

  1. 参考音频:3–10 秒,过长降速、效果不增
  2. 跨语言克隆:带原生口音,属正常现象
  3. 路径规范:所有路径、文件名无中文,避免报错
  4. 方言支持:粤语zh-yue、四川话zh-sichuan
  5. 商用合规:克隆他人声音需合法授权

GitHub 地址

项目地址:https://github.com/k2-fsa/OmniVoice

Logo

openvela 操作系统专为 AIoT 领域量身定制,以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势,已成为众多物联网设备和 AI 硬件的技术首选,涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐