×

AI

攻克大模型训练难题!360实现全网首个开源强化学习LoRA训练方案

hqy hqy 发表于2025-06-07 浏览3 评论0

  在大模型的训练中,强化学习算法一直是提升模型性能的关键。然而,其面临着计算资源要求高、训练速度慢等问题,让普通企业机构望而却步。面对行业共性难题,近日,在360数字安全集团冰刃实验室主导下,打造出“轻量化、高性能”的AI训练方案:RL-LoRA,在保持模型泛化能力的前提下,体积仅为原始全参数模型的1%-5%,实现强化学习训练技术引领性突破。目前,360安全大模型已深度融合RL-LoRA技术,相关核心代码也已正式对外开放下载使用。

AI

Qwen真是怪胎,奖励错了,模型反而更强,强化学习得推翻重来?

hqy hqy 发表于2025-06-07 浏览4 评论0

Qwen真是怪胎,奖励错了,模型反而更强,强化学习得推翻重来?\n来自华盛顿大学、艾伦人工智能实验室、伯克利的研究团队发布一篇论文,引爆了 AI 界,他们发现使用虚假奖励也能让大语言模型的推理能力提升。难道强化学习必须奖励精准的传统认知要被打破了吗?#论文#大语言模型#奖励机制#强化学习#LLM#RLVR#RL#AI#人工智能#科技#前沿科技\n

【法护营商】深入学习贯彻《云南省优化营商环境条例》,做实“三个强化”为营商环境注入司法动能

AI

【法护营商】深入学习贯彻《云南省优化营商环境条例》,做实“三个强化”为营商环境注入司法动能

hqy hqy 发表于2025-06-07 浏览3 评论0

营商环境,“优”无止境。2023年1月1日起正式施行的《云南省优化营商环境条例》(以下简称《条例》),为打造市场化、法治化、国际化一流营商环境提供了方向指引。嵩明法院将优化营商环境工作融入审判执行全流程各环节,推动《条例》的深入学习贯彻,做实“三个强化”,努力为营商环境注入司法动能。