金融界2025年5月20日消息,国家知识产权局信息显示,大连理工大学;信华信技术股份有限公司申请一项名为“一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法”的专利,公开号CN120010852A,申请日期为2025年01月。
专利摘要显示,本发明属于智能软件工程的数据增强方法领域,尤其涉及一种基于AST抽象语法树同义替换的代码大模型等价数据增强方法。首先进行数据筛选和静态语法分析检查,之后通过AST抽象语法树提取其代码所含变量名、函数名、类名建立词库进行筛选,在此基础上采用四种等价替换方法进行数据增强,最终将其与原始数据合并,获得最后的增强代码数据集。本发明可用于自动增强代码大模型训练语料,以微调提升大语言模型在垂直领域的性能。
本文源自金融界