×

全灵(深圳)网络申请梅尔频谱图生成模型训练及语音转换方法专利 提升文本到语音整体转化效率

hqy hqy 发表于2025-07-09 09:47:13 浏览1 评论0百度已收录

抢沙发发表评论

本文源自:金融界

金融界2025年7月8日消息,国家知识产权局信息显示,全灵(深圳)网络有限公司申请一项名为“梅尔频谱图生成模型的训练方法以及语音转换方法”的专利,公开号CN120279887A,申请日期为2025年04月。

专利摘要显示,本申请提供了梅尔频谱图生成模型的训练方法以及语音转换方法。训练方法包括:获得音素序列向量、情感特征向量、非语言发声特征向量;获得第二梅尔频谱图,并通过线性插值处理对第二梅尔频谱图进行噪声注入,得到第三梅尔频谱图;对音素序列向量、情感特征向量、非语言发声特征向量、第二梅尔频谱图以及第三梅尔频谱图进行特征拼接,并将拼接后的特征输入至待训练梅尔频谱图生成模型中的扩散变换器,获取扩散变换器输出的预测向量场;计算预测向量场与理想向量场之间的流匹配损失,并依据流匹配损失调整待训练梅尔频谱图生成模型的模型参数。

天眼查资料显示,全灵(深圳)网络有限公司,成立于2022年,位于深圳市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本117.6471万人民币。通过天眼查大数据分析,全灵(深圳)网络有限公司共对外投资了2家企业,此外企业还拥有行政许可6个。