金融界2025年5月12日消息,国家知识产权局信息显示,大连理工大学;国投智能(厦门)信息股份有限公司申请一项名为“一种提高向量检索性能的文本数据增强方法”的专利,公开号CN119961436A,申请日期为2025年2月。
专利摘要显示,本发明提供了一种提高向量检索性能的文本数据增强方法,属于计算机数据分析领域。该方法首先使用大语言模型的提示模板对长文本数据进行压缩处理,将其分解为若干条短文本;在训练过程中,这些短文本将替换原来的长文本被用作训练数据,从而节约单条信息占用的显存大小;为应对文本长度缩短可能导致的表示能力下降问题,本发明通过组合来源于同一长文本的多条短文本构建出指引向量,并将指引向量作为辅助信息指导单个短文本的编码过程。通过这种方式,本发明能够有效地减少文本缩短对模型表示能力的不利影响,从而在使用更短的单条信息的前提下,提升模型的训练效果和泛化能力。
本文源自金融界