基于观测空间关系提取的多智能体强化学习

CORC > 沈阳自动化研究所 > 中国科学院沈阳自动化研究所 > 工业控制网络与系统研究室

	基于观测空间关系提取的多智能体强化学习
	许书卿 2,3,4,5; 臧传治 1; 王鑫 3,4,5; 刘鼎 2,3,4,5; 刘玉奇 3,4,5; 曾鹏 3,4,5
刊名	计算机应用研究
	2022
页码	1-5
关键词	多智能体强化学习注意力机制观测空间
ISSN号	1001-3695
其他题名	Multi-agent reinforcement learning based on observation relation extraction
产权排序	1
英文摘要	针对多智能体系统（multi-agent systems,MASs）中环境具有不稳定性、智能体决策相互影响所导致的策略学习困难的问题，提出了一种名为观测空间关系提取（observation relation extraction,ORE）的方法，该方法使用一个完全图来建模MASs中智能体观测空间不同部分之间的关系，并使用注意力机制来计算智能体观测空间不同部分之间关系的重要程度。通过将该方法应用在基于值分解的多智能体强化学习算法上，提出了基于观测空间关系提取的多智能体强化学习算法。在星际争霸微观场景（StarCraft multi-agent challenge,SMAC）上的实验结果表明，与原始算法相比，带有ORE结构的值分解多智能体算法在收敛速度和最终性能方面都有更好的性能。
语种	中文
资助机构	国家自然科学基金资助项目（92067205） ; 辽宁省自然科学基金资助项目（2020-KF-11-02） ; 机器人学国家重点实验室开放课题（2020-Z11）
内容类型	期刊论文
源URL	[http://ir.sia.cn/handle/173321/31032]
专题	沈阳自动化研究所_工业控制网络与系统研究室
通讯作者	臧传治
作者单位	1.沈阳工业大学 2.中国科学院大学 3.中国科学院机器人与智能制造创新研究院 4.中国科学院网络化控制系统重点实验室 5.中国科学院沈阳自动化研究所机器人学国家重点实验室
推荐引用方式 GB/T 7714	许书卿,臧传治,王鑫,等. 基于观测空间关系提取的多智能体强化学习[J]. 计算机应用研究,2022:1-5.
APA	许书卿,臧传治,王鑫,刘鼎,刘玉奇,&曾鹏.(2022).基于观测空间关系提取的多智能体强化学习.计算机应用研究,1-5.
MLA	许书卿,et al."基于观测空间关系提取的多智能体强化学习".计算机应用研究 (2022):1-5.