渊慧科技申请用于执行推理任务的基于奖励模型的强化学习专利，有助于训练用于执行推理任务的语言模型

本文源自:金融界

金融界2025年5月15日消息，国家知识产权局信息显示，渊慧科技有限公司申请一项名为“用于执行推理任务的基于奖励模型的强化学习”的专利，公开号CN119998819A，申请日期为2023年9月。

专利摘要显示，方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于训练用于执行推理任务的语言模型。该系统获得多个训练示例。每个训练示例包括表征相应样本查询的相应样本查询文本序列和包括对相应样本查询的参考最终答案的相应参考响应文本序列。该系统在多个训练示例上训练奖励模型。奖励模型被配置为接收包括表征查询的查询文本序列和响应于查询而已经生成的一个或多个推理步骤的输入，并处理输入以计算奖励得分，该奖励得分指示一个或多个推理步骤在产生对查询的正确最终答案中的成功程度。该系统使用所训练的奖励模型训练语言模型。