金融界2025年7月18日消息,国家知识产权局信息显示,浙江大学;OPPO广东移动通信有限公司申请一项名为“一种大语言模型推荐系统的自优化微调方法及推荐系统”的专利,公开号CN120338044A,申请日期为2025年04月。
专利摘要显示,本发明公开了一种大语言模型推荐系统的自优化微调方法及推荐系统,所述方法包括:使用自蒸馏技术生成辅助训练数据集,所述辅助训练数据集由经过监督微调的大语言模型根据输入生成多个输出,并从中选择最接近真实项目的输出构建而成;采用课程学习微调策略,根据大语言模型的当前学习状态自适应调整简单任务和困难任务的训练权重,逐步将训练焦点从辅助训练数据集转移到真实数据集。本发明通过自蒸馏技术,让模型自身生成更接近推荐领域分布的数据,作为中间训练目标,缓解领域适配困难。通过课程学习策略,动态调整训练数据难度,使模型逐步适应真实数据分布。通过自蒸馏生成多样化候选输出,并结合课程学习优化模型生成策略。
本文源自金融界