基于强化学习动作空间精简的时序决策任务算法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	基于强化学习动作空间精简的时序决策任务算法研究
作者	王梓薏
答辩日期	2024-05
文献子类	硕士
关键词	时序决策强化学习动作空间约简分层强化学习动作掩码
英文摘要	近年来，强化学习作为解决最优时序决策问题的关键技术迅速发展，尤其是深度强化学习的兴起引起了广泛的关注和应用。尽管强化学习算法本身的性能已经相当优秀和稳定，但在复杂环境下的探索效率仍然是一个挑战。特别地，任务所定义的动作空间的规模和冗余程度会对算法的性能产生重要影响。另一方面，现实世界中许多问题的动作空间具有较大的噪声，并且是动态变化的，这使得人工定义紧凑的动作空间变得困难。此外，针对动作空间精简或状态-动作空间联合精简的研究相对较少，这进一步凸显了该问题的迫切性和挑战性。在这一背景下，本文围绕时序决策问题下的强化学习动作空间精简算法展开研究，旨在促进对该问题的理解，并推动强化学习算法解决大规模动作空间任务这一问题上的进步。本文有两个主要贡献：首先，本文提出了一种自动学习强化学习动作掩码的算法。该算法通过学习每个状态下的动作掩码，在保留动作空间关键维度的同时，大大减少了动作空间的大小，提高了智能体在探索过程中的效率，并且精简后的动作空间具有强可解释性。实验结果表明，该算法在加速强化学习算法训练并提升算法性能方面取得了显著成效。其次，本文提出了一种基于分层强化学习的多步组合优化问题动作空间精简算法。该算法利用分层框架，定义上层强化学习任务的动作为多步组合优化问题中多步约束方程的值，下层运筹学方法求解单步组合优化问题，有效简化了强化学习智能体动作空间的同时保持了算法的准确性和可解释性。实证分析表明，该算法在解决原油产业链资源调度问题时优于传统运筹学方法和经典强化学习算法，证实了其在实际问题中的有效性。
语种	中文
页码	62
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/58504]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	王梓薏. 基于强化学习动作空间精简的时序决策任务算法研究[D]. 2024.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们