×

VALL-EX :一个开源的多语言文本到语音合成与语音克隆模型

hqy hqy 发表于2025-03-01 22:49:34 浏览12 评论0百度已收录

抢沙发发表评论

项目简介

该模型支持多种语言(英语、中文和日语)和零样本语音克隆,你只需要提供一个人短短几秒钟的录音(3-10秒),就能模仿出那个人的声音。此外,它还具有语音情感控制和口音控制等高级功能。同时相对于其他模型,它更轻量、更快速... VALL-EX最初由微软发布。但并未发布任何代码或预训练模型。作者认识到了这项技术的潜力和价值,复现并训练了一个开源可用的VALL-E X模型。VALL-E X 模型具有以下显著的功能特点:

1.多语言 TTS(文本到语音合成): 支持英语、中文和日语,能进行自然和富有表现力的语音合成。

2.零样本语音克隆: 只需录制说话人短短的 3~10 秒录音,即可生成个性化、高质量的语音。 

3.语音情感控制: 能合成与给定说话人录音相同情感的语音。 

4.零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。 

5.口音控制: 允许用户控制所合成音频的口音。

6.声学环境保留: 当给定说话人的录音在不同的声学环境下录制时,模型可以保留该声学环境。

VALL-E X 模型还采用了GPT风格的自回归模型和EnCodec解码器,以实现高效和高质量的多语言文本到语音合成。这意味着模型会考虑到之前生成的音频片段来生成接下来的音频。这种结构使模型在计算资源和时间方面更加经济,同时也能生成高质量的中文和日文语音。

本地安装

使用pip安装,推荐使用Python 3.10,CUDA 11.7 ~ 12.0,PyTorch 2.0+

git clone https://github.com/Plachtaa/VALL-E-X.gitcd VALL-E-Xpip install -r requirements.txt

注意:如果需要制作prompt,需要安装 ffmpeg 并将其所在文件夹加入到环境变量PATH中

第一次运行程序时,会自动下载相应的模型。如果下载失败并报错,请按照以下步骤手动下载模型。

(请注意目录和文件夹的大小写)

1.检查安装目录下是否存在checkpoints文件夹,如果没有,在安装目录下手动创建checkpoints文件夹(./checkpoints/)。

2.检查checkpoints文件夹中是否有vallex-checkpoint.pt文件。如果没有,请从这里 手动下载vallex-checkpoint.pt文件并放到checkpoints文件夹里。

3.检查安装目录下是否存在whisper文件夹,如果没有,在安装目录下手动创建whisper文件夹(./whisper/)。

4.检查whisper文件夹中是否有medium.pt文件。如果没有,请从这里 手动下载medium.pt文件并放到whisper文件夹里。

项目链接

https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md

 关注「GitHubStore」公众号

扫一扫以下微信

1 加入技术交流群,备注开发语言-城市-昵称

2 若招聘需求,技术合作等「商务合作,备注合作