一种用于两人零和博弈对手适应的元策略演化学习算法
吴哲1,2; 李凯1,2; 徐航1,2; 兴军亮1,2
刊名自动化学报
2022-03-14
页码0
英文摘要

围绕两人零和博弈所开展的一系列研究, 近年来在围棋、德州扑克等问题中取得了里程碑式的突破. 现有的两人零和 博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展, 是一种力求不败的保守型策略, 但在实际博弈中由于对手非理 性等原因并不能保证收益最大化. 对手建模为最大化博弈收益提供了一种新途径, 但仍存在建模困难等问题. 结合元学习的思 想提出了一种能够快速适应对手策略的元策略演化学习求解框架. 在训练阶段, 首先通过种群演化的方法不断生成风格多样 化的博弈对手作为训练数据, 然后利用元策略更新方法来调整元模型的网络权重, 使其获得快速适应的能力. 在Leduc扑克、 两人有限注德州扑克和RoboSumo上的大量实验结果表明, 本算法能够有效克服现有方法的弊端, 实现针对未知风格对手的快 速适应, 从而为两人零和博弈收益最大化求解提供了一种新思路.

语种中文
内容类型期刊论文
源URL[http://ir.ia.ac.cn/handle/173211/48790]  
专题智能系统与工程
通讯作者兴军亮
作者单位1.中国科学院大学人工智能学院
2.中国科学院自动化研究所智能系统与工程研究中心
推荐引用方式
GB/T 7714
吴哲,李凯,徐航,等. 一种用于两人零和博弈对手适应的元策略演化学习算法[J]. 自动化学报,2022:0.
APA 吴哲,李凯,徐航,&兴军亮.(2022).一种用于两人零和博弈对手适应的元策略演化学习算法.自动化学报,0.
MLA 吴哲,et al."一种用于两人零和博弈对手适应的元策略演化学习算法".自动化学报 (2022):0.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace