VALL-EX ：一个开源的多语言文本到语音合成与语音克隆模型

项目简介

该模型支持多种语言（英语、中文和日语）和零样本语音克隆，你只需要提供一个人短短几秒钟的录音（3-10秒），就能模仿出那个人的声音。此外，它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型，它更轻量、更快速... VALL-EX最初由微软发布。但并未发布任何代码或预训练模型。作者认识到了这项技术的潜力和价值，复现并训练了一个开源可用的VALL-E X模型。VALL-E X 模型具有以下显著的功能特点：

1.多语言 TTS（文本到语音合成）: 支持英语、中文和日语，能进行自然和富有表现力的语音合成。

2.零样本语音克隆: 只需录制说话人短短的 3~10 秒录音，即可生成个性化、高质量的语音。

3.语音情感控制: 能合成与给定说话人录音相同情感的语音。

4.零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。

5.口音控制: 允许用户控制所合成音频的口音。

6.声学环境保留: 当给定说话人的录音在不同的声学环境下录制时，模型可以保留该声学环境。

VALL-E X 模型还采用了GPT风格的自回归模型和EnCodec解码器，以实现高效和高质量的多语言文本到语音合成。这意味着模型会考虑到之前生成的音频片段来生成接下来的音频。这种结构使模型在计算资源和时间方面更加经济，同时也能生成高质量的中文和日文语音。

本地安装

使用pip安装，推荐使用Python 3.10，CUDA 11.7 ~ 12.0，PyTorch 2.0+

git clone https://github.com/Plachtaa/VALL-E-X.gitcd VALL-E-Xpip install -r requirements.txt

注意：如果需要制作prompt，需要安装 ffmpeg 并将其所在文件夹加入到环境变量PATH中

第一次运行程序时，会自动下载相应的模型。如果下载失败并报错，请按照以下步骤手动下载模型。

（请注意目录和文件夹的大小写）

1.检查安装目录下是否存在checkpoints文件夹，如果没有，在安装目录下手动创建checkpoints文件夹（./checkpoints/）。

2.检查checkpoints文件夹中是否有vallex-checkpoint.pt文件。如果没有，请从这里手动下载vallex-checkpoint.pt文件并放到checkpoints文件夹里。

3.检查安装目录下是否存在whisper文件夹，如果没有，在安装目录下手动创建whisper文件夹（./whisper/）。

4.检查whisper文件夹中是否有medium.pt文件。如果没有，请从这里手动下载medium.pt文件并放到whisper文件夹里。

项目链接

https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md

关注「GitHubStore」公众号

扫一扫以下微信

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

VALL-EX ：一个开源的多语言文本到语音合成与语音克隆模型

hqy 发表于2025-03-01 22:49:34 浏览32 评论0百度已收录

项目简介

本地安装

使用pip安装，推荐使用Python 3.10，CUDA 11.7 ~ 12.0，PyTorch 2.0+

项目链接

少长咸集