CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名基于强化学习动作空间精简的时序决策任务算法研究
作者王梓薏
答辩日期2024-05
文献子类硕士
关键词时序决策 强化学习 动作空间约简 分层强化学习 动作掩码
英文摘要

近年来,强化学习作为解决最优时序决策问题的关键技术迅速发展,尤其是 深度强化学习的兴起引起了广泛的关注和应用。尽管强化学习算法本身的性能 已经相当优秀和稳定,但在复杂环境下的探索效率仍然是一个挑战。特别地,任 务所定义的动作空间的规模和冗余程度会对算法的性能产生重要影响。另一方 面,现实世界中许多问题的动作空间具有较大的噪声,并且是动态变化的,这使 得人工定义紧凑的动作空间变得困难。此外,针对动作空间精简或状态-动作空 间联合精简的研究相对较少,这进一步凸显了该问题的迫切性和挑战性。 在这一背景下,本文围绕时序决策问题下的强化学习动作空间精简算法展 开研究,旨在促进对该问题的理解,并推动强化学习算法解决大规模动作空间任 务这一问题上的进步。本文有两个主要贡献: 首先,本文提出了一种自动学习强化学习动作掩码的算法。该算法通过学习 每个状态下的动作掩码,在保留动作空间关键维度的同时,大大减少了动作空间 的大小,提高了智能体在探索过程中的效率,并且精简后的动作空间具有强可解 释性。实验结果表明,该算法在加速强化学习算法训练并提升算法性能方面取得 了显著成效。 其次,本文提出了一种基于分层强化学习的多步组合优化问题动作空间精 简算法。该算法利用分层框架,定义上层强化学习任务的动作为多步组合优化问 题中多步约束方程的值,下层运筹学方法求解单步组合优化问题,有效简化了强 化学习智能体动作空间的同时保持了算法的准确性和可解释性。实证分析表明, 该算法在解决原油产业链资源调度问题时优于传统运筹学方法和经典强化学习 算法,证实了其在实际问题中的有效性。

 
语种中文
页码62
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/58504]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
王梓薏. 基于强化学习动作空间精简的时序决策任务算法研究[D]. 2024.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace