×

AI+丨物理学院首届大语言模型调优挑战赛圆满结束

hqy hqy 发表于2025-03-01 21:39:41 浏览22 评论0百度已收录

抢沙发发表评论

AI +

WECHAT ID: DEANPKU  

关键词:大语言模型调优挑战赛 人工智能 物理 

2月16日,在北大物理学院支持指导下,由物院学生会承办的“首届大语言模型调优挑战赛”圆满落幕。此次竞赛旨在为同学们提供学习、使用和微调大语言模型的机会,设定的目标是训练和微调能够解决本科层次物理问题的大语言模型。为了帮助零基础选手快速上手,热心的赛事志愿者特别设计了系统化教程,涵盖大模型原理、部署应用、微调策略等核心内容。

挑战赛线下展示会在北京大学第一教学楼举行,朱守华、马滟青、杨志成老师担任特邀评审嘉宾,共评出10个优胜团队。这场聚焦人工智能与物理学科交叉领域的创新实践竞赛,吸引了42支队伍、近170名同学参与,为寒冬时节的校园注入了科技创新的活力。首先,让我们一起听听同学们的获奖感言吧!

获奖同学说

第一名 15队

队长:卫家燊(物理学院本科生)

成员:

宣苏航(信息科学技术学院本科生)

刘文璞(软件与微电子学院硕士生)

非常感谢学院提供的算力和平台,让我们能够熟悉大模型的微调方法,并在这个过程中增进了对大模型原理和工程实践的了解。

我们组最终选择的方案是微调+提示词相结合。首先,在模型选择上,我们使用了去年12月份由微软开源的模型phi-4。作为微软phi系列模型的新作,phi-4通过引入大量合成数据,仅14B的模型就能在复杂数学问题的表现上超越GPT-4o,适合作为本次任务的基座模型使用。

我们把主要精力放在了构建数据集上,在这里要特别感谢本次比赛中第二组的同学,他们在完成了对部分电动力学教材、辅导书的OCR工作后,将结果无私分享到了比赛群内,为我们构建数据集节约了大量时间。

我们的数据集分为三个部分,第一部分是从网络上找到的物理领域开源数据集;此外我们通过并发调用商用大模型的接口,将教材分割喂给AI,生成符合训练格式的数据,帮助AI完成对电动力学基本概念的了解;又针对书后习题,将题目、解题步骤和最终答案喂给AI,让AI也经历“刷题”的过程。最后,我们利用开源微调框架LLaMA-Factory,在这三部分数据的基础上对phi-4模型进行微调,得到了我们用于考试答题的模型。

为了显示出更清晰的解题步骤,我们还在调用AI的代码中添加了system提示词,尝试引导AI分步骤输出解答过程,同时引导AI在回答的过程中随时自我检查,虽然这部分工作带来的能力提升并不大,但却让模型的回答格式变得更加清晰有条理。

在最终答题表现上,微调后的模型数学计算的准确度仍然有所欠缺,在训练过程中我们也认识到了构造高质量数据集的不易,期待能够有更多人关注到大模型在物理领域的应用,使用更好的数据构建更强大、更高效的模型。

第二名 09队

队长:吴诚舟(物理学院本科生)

成员:

周博文(物理学院本科生)

张加弛(元培学院本科生)

陆誉文(物理学院本科生)

第二名确实是个惊喜,因为我们的模型确实和刚参加比赛时的想象相去甚远。刚开始以为只需要将网上的数据集copy下来,扔进已经写好的训练代码里就行了。然而,首次的sft尝试令人大失所望。由于各个教材和习题集的语言风格和符号系统迥异,训完的模型表现远不如训练前,甚至出现了循环生成的现象。之后,我们尝试了利用deepseek-v3生成答案进行蒸馏,以及强化学习等方法,都没有取得较好的效果。开玩笑地说,能让模型在训练后产生正收益,已经是极大的成功。最终,考虑到考试时间和计算资源等因素,我们选择了phi-4进行微调。

尽管微调效果不太令人满意,在准备比赛的过程中,我们还是有很大收获。从初期了解模型架构和微调原理,到训练集准备阶段的数据清洗工作,再到之后的超参数调优,以及面对偏离预期的结果时的反思和方案优化,我们在理论和实践层面都对大模型这一领域有了初步的认知。包括改变超参数时,在loss曲线中也能观察到一些有趣的现象。

实际上,绝大多数商业模型解答电动力学题目的能力也并不强。和我们的14B模型一样,它们也没法区分球体和球壳(deepseek-R1除外)。尽管大模型已经在数学推理方面拥有了极强的能力,大多数模型在理解物理图像上仍然存在困难。这些困难或许是传统的sft方法无法解决的。也希望物院的大模型挑战赛越办越好!(如果还有下一届hhh)

第三名 29队

队长:殷知骏(物理学院博士生)

成员:

崔璠(集成电路学院博士生)

方尤乐(物理学院博士生)

在此次物院大语言模型挑战赛中获得第三名,让我们小组成员倍感荣幸,也收获颇多。回顾整个参赛过程,我们不仅在技术上得到了提升,也在团队协作、项目管理和问题解决等方面累积了宝贵的经验。

首先,最大的收获是团队合作的默契与凝聚力。为了在有限的时间与数据中尽可能提高模型对电动力学习题的解题能力,我们从数据处理、模型微调到验证测试,都进行了紧密的分工与协作。

面对数据量有限的挑战,我们采用了多轮次的数据筛选和结构化预处理:一方面使用Gemini提取题目并进行翻译,另一方面调用DeepSeek API辅助生成高质量参考答案,再通过严格筛选来保证训练数据的有效性。这个过程不仅考验了每位成员的耐心和细致,也促使我们在不断沟通、碰撞中凝结成更高效的战斗团队。

其次,在技术层面,我们尝试了低秩适配器进行微调,这种方法能够以较低的额外参数开销来调整大模型,极大地避免了过度拟合和训练资源的浪费。同时,为了应对模型过度思考、迟迟不输出答案的问题,我们设计了“两阶段生成策略”:通过限定6k + 2k tokens并设置“思考停止标志”,成功降低了模型反复推理带来的不确定性,让解题过程更加稳健高效。

最终,我们基于DeepSeek-R1-Distill-Qwen-14B训练而来的模型在电动力学领域的解题能力得到了提升,这也证明了我们技术路线的可行性。

最后,这个成就的取得离不开所有团队成员的努力与坚持,也得益于大赛为我们提供的宝贵实践机会。整个备赛和参赛过程中,我们对大语言模型的训练、优化、推理和数据管理都有了更深入的理解。此外,我们也在与其他优秀队伍的交流中学会了新的方法与思路。特别感谢物理学院和学校提供的优质学术环境、资源支持和比赛平台,让我们有机会在前沿技术领域挑战自我、提升能力。

赛事进程回顾

▲2024年12月10日:赛事报名通道开启

▲12月14日:在北大高能中心举办规则说明会,志愿者手把手展示了如何对大模型进行微调改进

高能中心说明会

▲12月22日 ~ 2025年2月14日:比赛期间,北大理论所老师提供GPU计算资源供参赛同学使用

▲1月8日:哈佛大学Schwartz教授带来关于人工智能与理论物理前沿的专题讲座

▲1月20日:阿里巴巴通义千问大模型算法负责人、北大校友林俊旸分享Qwen开源大模型的工业界最新动向

▲2月15日:在线考试评估同学们调优后的大模型在电动力学专题中的表现

▲2月16日:线下展示会在一教举行,朱守华、马滟青、杨志成老师担任特邀评审嘉宾

一教ppt展示

展示结束后部分同学合影

经过近两个月的紧张学习、训练和比赛,本次活动取得了圆满成功。通过这次比赛,同学们不仅加深了对大模型和人工智能的认识,还获得了实际运行和微调大模型的经验,激发了进一步学习的兴趣。

特别致谢:

▲志愿者团队:袁书润、张辰玺、宋卓洋、张舒涛、阮洪奕等同学在比赛筹备和比赛期间付出了辛勤劳动。

▲指导老师:北大理论所朱华星、曹庆宏老师,以及北京计算科学研究中心罗民兴院士提供了全程支持。

优胜团队名单

第一名

15队  

卫家燊(物理学院本科生

宣苏航(信息科学技术学院本科生

刘文璞(软件与微电子学院硕士生)

第二名

09队  

吴诚舟(物理学院本科生

周博文(物理学院本科生

张加弛(元培学院本科生

陆誉文(物理学院本科生

第三名

29队  

殷知骏(物理学院博士生)

崔璠(集成电路学院博士

方尤乐(物理学院博士

优胜奖

25队  

刘一麟(物理学院本科生)

周润桂(物理学院本科生

林雨轩 (物理学院本科生

03队  

寇皓(物理学院本科生

应嘉禾(物理学院本科生

黄逸涵(物理学院本科生

刘储闻 (数学科学学院本科生

02队  

仇是(物理学院本科生

陈思远(物理学院本科生

李伊然(中国语言文学系本科生

16队 

宋卓洋(物理学院本科生

梅振超物理学院本科生

陆金浩物理学院本科生

姚秉宸物理学院本科生

朱信霖物理学院本科生

13队

黄张铃物理学院本科生

李承容物理学院本科生

陈乐颜 物理学院本科生

26队

郭绍阳物理学院本科生

梁傲钦物理学院本科生

宁夏物理学院本科生

闵开言(工学院本科生)

董浩然物理学院本科生

39队  

和宜周物理学院本科生

仲伯钧物理学院本科生

张宸(物理学院硕士生)

转载自“物院学生会”公众号

美编丨陈洵琳

推 荐 阅 读

今晚开讲 | “审美与人生”博雅美学系列讲座:“审美镜鉴:‘一带一路’沿线国家的文化特点”

@25届本科毕业生ers!快来一键解锁北大毕业流程

报名通知|实地研学通识课:北京春季开花植物观察

本科教育动态 | 2025.2.24