谷歌申请用于多语言语音辨识的通用单语言输出层专利，接收声学帧序列作为多语言自动语音辨识ASR模型输入

本文源自:金融界

金融界2025年6月20日消息，国家知识产权局信息显示，谷歌有限责任公司申请一项名为“用于多语言语音辨识的通用单语言输出层”的专利，公开号CN120188214A，申请日期为2023年10月。

专利摘要显示，一种方法(500)包括：接收声学帧序列(100)作为给多语言自动语音辨识ASR模型(200)的输入，该多语言ASR模型配置为辨识多种不同支持的语言的语音；以及由多语言ASR的音频编码器(204)针对对应声学帧生成更高阶特征表示(212、222)。该方法还包括：由多语言ASR的语言识别(LID)预测器(230)针对对应更高阶特征表示生成语言预测表示(232)。该方法还包括：由多语言ASR的解码器(240)基于对应更高阶特征表示、非空白符号序列(121)以及对应语言预测表示来生成可能的语音辨识结果上的概率分布(252)。该解码器包括单语言输出层(400)，该单语言输出层具有多个输出节点(410)，每个输出节点共享多个语言特定词片模型(420)。