科学家提出阶段式强化学习策略，让小模型在多项数学推理测试达SOTA

在人工智能领域，大语言模型的推理能力已取得长足进步。然而，当这一能力扩展到需要同时处理文本和图像的多模态场景时，研究者们遇到了棘手挑战——尤其是对于参数规模较小的多模态小语言模型，问题更为突出。

香港理工大学杨红霞教授团队提出了一个名为 Infi-MMR 训练框架，通过创新的三阶段训练策略，成功激活了小语言模型的多模态推理潜能，并在多项数学推理基准测试中达到最强性能（SOTA，State of the Art）水平，甚至超越部分参数量更大的模型。

图丨论文作者柳泽宇、刘宇航和谢淙恺（来源：该团队）

日前，相关论文以《Infi-MMR：基于课程学习的多模态小语言模型分阶段强化学习解锁多模态推理能力》（Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models）为题发表在预印本网站 arXiv[1]。香港理工大学科研助理柳泽宇和浙江大学硕士生刘宇航是共同第一作者，香港理工大学杨红霞教授担任通讯作者。

图丨相关论文（来源：arXiv）

该团队致力于将 DeepSeek-R1 在文本领域的基于规则强化学习的成果扩展到多模态领域，同时也致力于解决多模态强化学习中存在的问题。

小语言模型本身参数量少，面临着以下三个难题：

第一，模态推理数据的质量有待提高。基于规则的强化学习需要可验证的答案，然而大多数多模态任务侧重于标题、图像描述和视觉问题回答。此外，现有的多模态推理数据集主要处理简单任务（如计数），很少能同时提供复杂的推理问题和可验证的答案。

第二，多模态大语言模型基本推理能力的退化。多模态大语言模型整合视觉和文本数据时，往往会削弱其基本推理能力，这种情况在小模型上表现得尤为明显。此外，跨模态融合的复杂性可能会破坏结构化推理，从而导致推理任务性能的下降。

第三，复杂但不可靠的推理步骤。直接通过多模态数据进行强化学习训练的多模态大语言模型，往往会生成复杂的推理过程，但是这种推理步骤不仅十分冗长而且通常并不准确。

图丨Infi-MMR 框架中不同训练阶段数据类型的利用（来源：arXiv）

Infi-MMR 框架的核心在于其独特的“渐进式”三阶段训练方法。第一个阶段为基础推理激活（Foundational Reasoning Activation），该阶段侧重于使用文本数据激发多模态模型的推理能力。

据了解，这一阶段不是直接用多模态数据，而是利用高质量的文本推理数据，通过强化学习来强化模型的基础推理能力。这种方法为模型的稳健逻辑推理做好了准备，解决了标准多模态大模型的一个关键限制——通过多模态数据训练导致的推理能力退化。

第二阶段是跨模态推理适应（Cross-Modal Reasoning Adaptation）。基于第一阶段建立的基础推理能力，本阶段采用多模态问答对，并添加说明文字信息，逐步将这些能力转移到多模态领域。

第三阶段是多模态推理增强（Multimodal reasoning Enhancement）。为了更加符合现实世界场景，即缺乏图像描述的多模态问题，研究团队在第二阶段建立的基础上，使用多模态问答对进一步训练模型。通过消除对文本说明的依赖，这个阶段迫使模型直接从原始视觉输入中进行解释和推理，从而减少语言偏差，促进稳健的多模态推理。

图丨Infi-MMR 的整体框架（来源：arXiv）

值得关注的是，该团队创新性地引入了标题增强多模态数据（caption-augmented multimodal data），它能帮助模型把在文字领域的推理能力顺利转移到多模态领域，让模型在不同模态之间进行更可靠的推理。

最后，他们使用 Infi-MMR 这一框架基于 Qwen2.5-VL-3B 的基础上训练出专注于数学推理的 Infi-MMR-3B 模型，并在多个多模态数学 benchmark 上达到了 SOTA。

其中，在涵盖代数、几何等多领域的 MathVerse 测试集上取得 43.68% 的准确率，不仅超越同参数规模模型，甚至优于部分 80 亿参数的大模型；在考察综合推理能力的 MathVista 测试中达到 67.2%，较基线提升 3.8%。更引人注目的是，其数学推理能力已逼近专有模型 GPT-4o（MathVerse 39.4%）。

这些成绩不仅证明了 Infi-MMR 框架的有效性，也展示了模型在多模态领域推理能力的成功转移。此外，Infi-MMR-3B 在 MathVista 测试中也取得了 67.2% 的成绩，进一步验证了其在多模态数学推理能力上的优异表现。

（来源：arXiv）

该团队表示，尽管这一模型专注于数学推理领域，但是这一推理能力也能够泛化到其他需要推理的领域，例如教育、医疗、自动驾驶等。一个有强推理能力的多模态模型，有望帮助人类解决多种相对复杂的问题。后续，他们将继续在多模态大模型领域内进行探索，让小模型也拥有强推理的能力。

参考资料：

1.https://arxiv.org/pdf/2505.23091

运营/排版：何晨龙返回搜狐，查看更多

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

科学家提出阶段式强化学习策略，让小模型在多项数学推理测试达SOTA

hqy 发表于2025-06-24 22:35:27 浏览21 评论0百度已收录

少长咸集