基于观测空间关系提取的多智能体强化学习 | |
许书卿2,3,4,5; 臧传治1; 王鑫3,4,5; 刘鼎2,3,4,5; 刘玉奇3,4,5; 曾鹏3,4,5 | |
刊名 | 计算机应用研究 |
2022 | |
页码 | 1-5 |
关键词 | 多智能体 强化学习 注意力机制 观测空间 |
ISSN号 | 1001-3695 |
其他题名 | Multi-agent reinforcement learning based on observation relation extraction |
产权排序 | 1 |
英文摘要 | 针对多智能体系统(multi-agent systems,MASs)中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题,提出了一种名为观测空间关系提取(observation relation extraction,ORE)的方法,该方法使用一个完全图来建模MASs中智能体观测空间不同部分之间的关系,并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上,提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景(StarCraft multi-agent challenge,SMAC)上的实验结果表明,与原始算法相比,带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。 |
语种 | 中文 |
资助机构 | 国家自然科学基金资助项目(92067205) ; 辽宁省自然科学基金资助项目(2020-KF-11-02) ; 机器人学国家重点实验室开放课题(2020-Z11) |
内容类型 | 期刊论文 |
源URL | [http://ir.sia.cn/handle/173321/31032] |
专题 | 沈阳自动化研究所_工业控制网络与系统研究室 |
通讯作者 | 臧传治 |
作者单位 | 1.沈阳工业大学 2.中国科学院大学 3.中国科学院机器人与智能制造创新研究院 4.中国科学院网络化控制系统重点实验室 5.中国科学院沈阳自动化研究所机器人学国家重点实验室 |
推荐引用方式 GB/T 7714 | 许书卿,臧传治,王鑫,等. 基于观测空间关系提取的多智能体强化学习[J]. 计算机应用研究,2022:1-5. |
APA | 许书卿,臧传治,王鑫,刘鼎,刘玉奇,&曾鹏.(2022).基于观测空间关系提取的多智能体强化学习.计算机应用研究,1-5. |
MLA | 许书卿,et al."基于观测空间关系提取的多智能体强化学习".计算机应用研究 (2022):1-5. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论