金融界2025年5月19日消息,国家知识产权局信息显示,中科苏州智能计算技术研究院、中科深健(苏州)科技有限公司申请一项名为“基于对话式大语言模型的文本数据构建方法和介质”的专利,公开号 CN119990070A,申请日期为 2025 年 1 月。
专利摘要显示,本发明公开了基于对话式大语言模型的文本数据构建方法和介质,方法包括包括根据自然语言处理的需求,获取多样式文本数据作为第一数据,第一数据形成第一数据集;对所有第一数据进行预处理以形成第二数据,预处理后的第二数据形成第二数据集;将每个第二数据插入设定好的清洗 prompt 中,将清洗 prompt 输入大语言模型,以对第二数据进行指令评估和赋予标签;对标签进行过滤以过滤掉部分第二数据,并形成过滤后的第三数据集;将第三数据集中的第二数据插入设定好的转换 prompt 中,将转换 prompt 输入大语言模型,大语言模型将第二数据转换为满足自然语言处理需求的文本数据。无需人工处理,提高了效率、降低了成本,并减少了对专业知识的依赖。
本文源自金融界