金融界2024年6月7日消息,天眼查知识产权信息显示,四川新网银行股份有限公司申请一项名为“一种应用于发票信息挖掘的自然语言处理方法及装置“,公开号CN202311849356.8,申请日期为2023年12月。
专利摘要显示,本发明公开一种应用于发票信息挖掘的自然语言处理方法及装置,涉及自然语言处理技术领域,拟解决现有自然语言处理技术并不适用于发票信息提取的问题;本发明包括对企业销项发票的开票明细进行数据清洗,提取有效的销售信息;将清洗后的开票明细转换为高维词向量;对高维词向量进行无监督聚类;对无监督聚类结果进行人工整合和标注,得到学习样本;利用学习样本对自然语言处理模型进行迁移学习,训练出能够识别商品类型标签的模型;将企业销项发票输入模型获取对应预测结果,根据预测结果得到企业的销售利润预估指数;本发明采用了全新设计的标注样本和针对类别不平衡优化损失函数,使得模型在发票识别上达到超过85%的精确度。
本文源自金融界