×

深度强化学习的串联圆柱射流控制,南理工陈志华教授发表在Physics of Fluids

hqy hqy 发表于2025-02-28 16:19:34 浏览13 评论0百度已收录

抢沙发发表评论

好消息!加入知识星球,详细阅读 PDF 完整版 本文

基于深度强化学习的串联圆柱射流控制研究

“Deep reinforcement learning-based jet control for tandem cylinders”这篇论文发表于Physics of Fluids期刊2025年第37卷013616期,作者为何贤军、黄江流、吴明雨等。研究提出基于深度强化学习(DRL)的射流控制框架,对比单智能体和双智能体控制策略在不同圆柱半径和间距下对串联圆柱流场的控制效果。

研究背景

当流体流经圆柱体时,会产生复杂流动现象,影响结构气动性能和能源效率。传统流动控制方法多样,随着技术发展,新控制技术不断涌现,如射流控制、电磁强迫等,在钝体流动分离问题上取得一定成果。同时,人工智能与流动控制结合成为趋势,DRL算法为流动控制提供新思路,但多体流动环境下DRL的应用面临挑战,单智能体和多智能体控制策略性能有待研究。

研究方法

控制方程与计算域设置:将圆柱绕流视为粘性不可压缩流动,采用二维Navier–Stokes方程进行模拟,通过无量纲化处理得到动量方程和连续性方程:

计算域为串联双圆柱绕流,设置入口、出口和边界条件,圆柱表面采用无滑移边界条件,射流边界速度方向垂直于边界。2. 评估指标:通过积分圆柱表面应力得到升力和阻力,进而定义升力系数和阻力系数

深度强化学习算法:采用近端策略优化(PPO)算法,该算法基于演员-评论家架构,用于连续和离散动作空间。通过优势函数评估特定动作的预期回报优势,计算公式为,并引入裁剪机制限制策略更新幅度,最终得到PPO算法的目标函数强化学习与流动控制结合:构建流动控制框架,环境基于数值模拟,智能体通过圆柱上的射流孔执行动作,状态信息由尾流区域采样点的局部速度数据构成,奖励由两圆柱的时均计算得到。训练时,演员网络根据流场运动学信息生成动作概率分布,评论家网络估计价值,智能体利用奖励更新网络。

结果与讨论

不同圆柱半径下控制效果对比分析:以无量纲圆柱半径0.4、0.5和0.6为例,在DRL训练前使流场达到周期性涡脱落状态作为初始条件。训练结果表明,随着训练次数增加,智能体学习到更有效的射流控制策略。半径为0.4时,单智能体奖励值波动小、收敛稳定;半径为0.6时,双智能体策略奖励值上升快且稳定在更高水平。在阻力系数方面,不同策略表现各异,总体上双智能体策略在稳定性上更具优势。不同圆柱间距下控制效果评估:研究不同间距(5、6、7)下的控制效果,单智能体控制策略在奖励值和阻力减少方面总体优于双智能体策略,尤其在较小间距时更明显。随着间距增加,两者性能差距缩小,间距为7时,双智能体策略奖励值和波动较大,稳定性有待提高。

研究结论

论文提出基于DRL的串联圆柱射流控制框架,对比单智能体和双智能体控制策略,研究不同圆柱半径和间距下的控制性能。结果表明,小半径时单智能体策略在减少上表现更好,大半径时双智能体策略优势凸显;圆柱间距方面,单智能体策略在奖励值和阻力减少上占优,双智能体策略稳定性需优化。双智能体策略在复杂场景下虽有潜力,但仍需改进以适应更多条件。

欢迎各位老师联系本公众号宣传科研成果