×

谷歌申请用于多语言语音辨识的通用单语言输出层专利,接收声学帧序列作为多语言自动语音辨识ASR模型输入

hqy hqy 发表于2025-06-21 01:19:25 浏览2 评论0百度已收录

抢沙发发表评论

本文源自:金融界

金融界2025年6月20日消息,国家知识产权局信息显示,谷歌有限责任公司申请一项名为“用于多语言语音辨识的通用单语言输出层”的专利,公开号CN120188214A,申请日期为2023年10月。

专利摘要显示,一种方法(500)包括:接收声学帧序列(100)作为给多语言自动语音辨识ASR模型(200)的输入,该多语言ASR模型配置为辨识多种不同支持的语言的语音;以及由多语言ASR的音频编码器(204)针对对应声学帧生成更高阶特征表示(212、222)。该方法还包括:由多语言ASR的语言识别(LID)预测器(230)针对对应更高阶特征表示生成语言预测表示(232)。该方法还包括:由多语言ASR的解码器(240)基于对应更高阶特征表示、非空白符号序列(121)以及对应语言预测表示来生成可能的语音辨识结果上的概率分布(252)。该解码器包括单语言输出层(400),该单语言输出层具有多个输出节点(410),每个输出节点共享多个语言特定词片模型(420)。