
AI
10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
hqy 发表于2025-06-07 浏览3 评论0
AI
攻克大模型训练难题!360实现全网首个开源强化学习LoRA训练方案
hqy 发表于2025-06-07 浏览3 评论0
在大模型的训练中,强化学习算法一直是提升模型性能的关键。然而,其面临着计算资源要求高、训练速度慢等问题,让普通企业机构望而却步。面对行业共性难题,近日,在360数字安全集团冰刃实验室主导下,打造出“轻量化、高性能”的AI训练方案:RL-LoRA,在保持模型泛化能力的前提下,体积仅为原始全参数模型的1%-5%,实现强化学习训练技术引领性突破。目前,360安全大模型已深度融合RL-LoRA技术,相关核心代码也已正式对外开放下载使用。
AI
Qwen真是怪胎,奖励错了,模型反而更强,强化学习得推翻重来?
hqy 发表于2025-06-07 浏览4 评论0
Qwen真是怪胎,奖励错了,模型反而更强,强化学习得推翻重来?\n来自华盛顿大学、艾伦人工智能实验室、伯克利的研究团队发布一篇论文,引爆了 AI 界,他们发现使用虚假奖励也能让大语言模型的推理能力提升。难道强化学习必须奖励精准的传统认知要被打破了吗?#论文#大语言模型#奖励机制#强化学习#LLM#RLVR#RL#AI#人工智能#科技#前沿科技\n

AI
推理健身房:带有可验证奖励的强化学习推理环境
hqy 发表于2025-06-07 浏览4 评论0
AI
秦丝科技申请融合多智能体强化学习的柔性生产线自适应调度控制方法专利,提升生产效率与灵活性
hqy 发表于2025-06-07 浏览4 评论0
本文源自:金融界
金融界2025年6月6日消息,国家知识产权局信息显示,深圳市秦丝科技有限公司申请一项名为“融合多智能体强化学习的柔性生产线自适应调度控制方法”的专利,公开号CN120103803A,申请日期为2025年04月。

AI
强化学习之父Richard Sutton:人类数据耗尽,AI正在进入“经验时代”!
hqy 发表于2025-06-07 浏览3 评论0
来源:AI科技大本营
文 | 郑丽媛
AI
海康威视取得支持多智能体多仿真环境高效强化学习模型训练框架专利
hqy 发表于2025-06-07 浏览2 评论0
本文源自:金融界
金融界2025年6月6日消息,国家知识产权局信息显示,杭州海康威视数字技术股份有限公司取得一项名为“一种智能体的强化学习模型训练方法及系统”的专利,授权公告号CN114117752B,申请日期为2021年11月。
AI
首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
hqy 发表于2025-06-07 浏览2 评论0
在文本推理领域,以 GPT-o1、DeepSeek-R1 为代表的 " 慢思考 " 模型凭借显式反思机制,在数学和科学任务上展现出远超 " 快思考 " 模型(如 GPT-4o)的优势。

AI
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制机器之心Pro2025-06-05 18:55天津机器之心Pro2025-06-05 18:55天津导读
hqy 发表于2025-06-07 浏览1 评论0

AI
【法护营商】深入学习贯彻《云南省优化营商环境条例》,做实“三个强化”为营商环境注入司法动能
hqy 发表于2025-06-07 浏览3 评论0
营商环境,“优”无止境。2023年1月1日起正式施行的《云南省优化营商环境条例》(以下简称《条例》),为打造市场化、法治化、国际化一流营商环境提供了方向指引。嵩明法院将优化营商环境工作融入审判执行全流程各环节,推动《条例》的深入学习贯彻,做实“三个强化”,努力为营商环境注入司法动能。