中科苏州智能计算等申请基于对话式大语言模型的文本数据构建方法专利，提高效率

金融界2025年5月19日消息，国家知识产权局信息显示，中科苏州智能计算技术研究院、中科深健（苏州）科技有限公司申请一项名为“基于对话式大语言模型的文本数据构建方法和介质”的专利，公开号 CN119990070A，申请日期为 2025 年 1 月。

专利摘要显示，本发明公开了基于对话式大语言模型的文本数据构建方法和介质，方法包括包括根据自然语言处理的需求，获取多样式文本数据作为第一数据，第一数据形成第一数据集；对所有第一数据进行预处理以形成第二数据，预处理后的第二数据形成第二数据集；将每个第二数据插入设定好的清洗 prompt 中，将清洗 prompt 输入大语言模型，以对第二数据进行指令评估和赋予标签；对标签进行过滤以过滤掉部分第二数据，并形成过滤后的第三数据集；将第三数据集中的第二数据插入设定好的转换 prompt 中，将转换 prompt 输入大语言模型，大语言模型将第二数据转换为满足自然语言处理需求的文本数据。无需人工处理，提高了效率、降低了成本，并减少了对专业知识的依赖。

本文源自金融界