×

中电信人工智能申请面向多说话人环境语音识别相关专利,解决多人同时发言场景下识别准确率低问题

hqy hqy 发表于2025-06-11 14:49:50 浏览11 评论0百度已收录

抢沙发发表评论

本文源自:金融界

金融界2025年6月11日消息,国家知识产权局信息显示,中电信人工智能科技(北京)有限公司申请一项名为“面向多说话人环境的语音识别方法、装置与电子设备”的专利,公开号CN120126480A,申请日期为2025年03月。

专利摘要显示,本申请提供了一种面向多说话人环境的语音识别方法、装置与电子设备。包括:获取音频数据;采用语音活动检测技术对音频数据中各语音的起止时间进行标定处理,得到音频标定结果,再采用自动语音识别技术对音频标定结果进行转录处理,得到音频数据对应的转录文本集,转录文本集包括多条音频文本片段,且音频文本片段标记了起止时间;采用说话人分离技术对音频数据进行聚类分析处理,得到以说话人分组的片段数据集,其中,片段数据集包括多个记录片段起止时间和说话人编号的片段数据;采用时间对齐算法对转录文本集和片段数据集进行融合处理,得到音频数据的最终识别结果。解决了现有语音识别技术在多人同时发言场景下存在识别准确率较低的问题。

天眼查资料显示,中电信人工智能科技(北京)有限公司,成立于2023年,位于北京市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本300000万人民币。通过天眼查大数据分析,中电信人工智能科技(北京)有限公司共对外投资了1家企业,参与招投标项目372次,专利信息365条,此外企业还拥有行政许可1个。