×

信华信申请基于AST抽象语法树同义替换的代码大模型等价数据增强方法专利,自动增强代码大模型训练语料

hqy hqy 发表于2025-06-20 09:35:02 浏览2 评论0百度已收录

抢沙发发表评论

金融界2025年5月20日消息,国家知识产权局信息显示,大连理工大学;信华信技术股份有限公司申请一项名为“一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法”的专利,公开号CN120010852A,申请日期为2025年01月。

专利摘要显示,本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。

本文源自金融界