一种用于两人零和博弈对手适应的元策略演化学习算法

	一种用于两人零和博弈对手适应的元策略演化学习算法
	吴哲 1,2; 李凯 1,2; 徐航 1,2; 兴军亮 1,2
刊名	自动化学报
	2022-03-14
页码	0
英文摘要	围绕两人零和博弈所开展的一系列研究, 近年来在围棋、德州扑克等问题中取得了里程碑式的突破. 现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展, 是一种力求不败的保守型策略, 但在实际博弈中由于对手非理性等原因并不能保证收益最大化. 对手建模为最大化博弈收益提供了一种新途径, 但仍存在建模困难等问题. 结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架. 在训练阶段, 首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据, 然后利用元策略更新方法来调整元模型的网络权重, 使其获得快速适应的能力. 在Leduc扑克、两人有限注德州扑克和RoboSumo上的大量实验结果表明, 本算法能够有效克服现有方法的弊端, 实现针对未知风格对手的快速适应, 从而为两人零和博弈收益最大化求解提供了一种新思路.
语种	中文
内容类型	期刊论文
源URL	[http://ir.ia.ac.cn/handle/173211/48790]
专题	智能系统与工程
通讯作者	兴军亮
作者单位	1.中国科学院大学人工智能学院 2.中国科学院自动化研究所智能系统与工程研究中心
推荐引用方式 GB/T 7714	吴哲,李凯,徐航,等. 一种用于两人零和博弈对手适应的元策略演化学习算法[J]. 自动化学报,2022:0.
APA	吴哲,李凯,徐航,&兴军亮.(2022).一种用于两人零和博弈对手适应的元策略演化学习算法.自动化学报,0.
MLA	吴哲,et al."一种用于两人零和博弈对手适应的元策略演化学习算法".自动化学报 (2022):0.