×

四川语言桥取得一种根据向量表示生成的提升机翻鲁棒性增强数据的专利,增强机器翻译的鲁棒性大别山出现猪獾,常挖8米深的直洞,设2个出口,在洞外清洁身体

hqy hqy 发表于2025-04-14 08:01:24 浏览19 评论0百度已收录

抢沙发发表评论

金融界 2024 年 8 月 25 日消息,天眼查知识产权信息显示,四川语言桥信息技术有限公司取得一项名为“一种根据向量表示生成的提升机翻鲁棒性增强数据的方法、装置及计算机可读存储介质“,授权公告号 CN117094330B,申请日期为 2023 年 7 月。

专利摘要显示,本发明属于机器翻译技术领域,提供了一种根据向量表示生成的提升机翻鲁棒性增强数据的方法、装置及计算机可读存储介质,包括:从集合Γ中遍历出一个原文句子 x,加入 mask,输入至 bert 语言模型,输出概率值并取排名最低的后 n 个词;随机挑选出其中一个词 wi,计算词 wi 与合法词表集合 M’里的所有词的词向量,得出与 wi 词向欧式距离最近的 k 个预选词,构成预选词集合 M`i;用预选词集合 M`i 里的词遍历,分别替换原文句子 x 中的待替换词;计算每个替换后句子 x’和原文句子 x 的余弦相似度差值,取分值最高的替换后句子 x`替换原文句子 x;判断替换后句子 x`是否满足增强数据集合若满足,则将替换后句子 x`和其相对应的替换前句子的标准译文 yref 存入集合 Z。