基于观测空间关系提取的多智能体强化学习
许书卿2,3,4,5; 臧传治1; 王鑫3,4,5; 刘鼎2,3,4,5; 刘玉奇3,4,5; 曾鹏3,4,5
刊名计算机应用研究
2022
页码1-5
关键词多智能体 强化学习 注意力机制 观测空间
ISSN号1001-3695
其他题名Multi-agent reinforcement learning based on observation relation extraction
产权排序1
英文摘要

针对多智能体系统(multi-agent systems,MASs)中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取(observation relation extraction,ORE)的方法,该方法使用一个完全图来建模MASs中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景(StarCraft multi-agent challenge,SMAC)上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。

语种中文
资助机构国家自然科学基金资助项目(92067205) ; 辽宁省自然科学基金资助项目(2020-KF-11-02) ; 机器人学国家重点实验室开放课题(2020-Z11)
内容类型期刊论文
源URL[http://ir.sia.cn/handle/173321/31032]  
专题沈阳自动化研究所_工业控制网络与系统研究室
通讯作者臧传治
作者单位1.沈阳工业大学
2.中国科学院大学
3.中国科学院机器人与智能制造创新研究院
4.中国科学院网络化控制系统重点实验室
5.中国科学院沈阳自动化研究所机器人学国家重点实验室
推荐引用方式
GB/T 7714
许书卿,臧传治,王鑫,等. 基于观测空间关系提取的多智能体强化学习[J]. 计算机应用研究,2022:1-5.
APA 许书卿,臧传治,王鑫,刘鼎,刘玉奇,&曾鹏.(2022).基于观测空间关系提取的多智能体强化学习.计算机应用研究,1-5.
MLA 许书卿,et al."基于观测空间关系提取的多智能体强化学习".计算机应用研究 (2022):1-5.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace