CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于深度强化学习的足球智能体球员策略方法研究
作者刘博寅
答辩日期2024-05
文献子类博士
关键词足球 多智能体系统 深度强化学习 互信息 内在激励 预训练
英文摘要

足球运动作为全球范围内广受欢迎且具有深远影响力的体育项目,在我国同样享有极高的人气。近年来,我国政府对足球事业的发展给予了高度关注,并出台了一系列旨在推动足球改革与发展的政策。人工智能技术的兴起为我国足球产业的发展带来了新的机遇。利用人工智能技术设计出既高效又智能的策略,以提升决策水平,已成为当前研究的核心关键技术。深度强化学习以其在学习和探索方面的优势,为球员策略研究提供了新的方向,并展现出显著的发展潜力。国内外学者在该领域已取得初步成果。尽管如此,在足球策略的研究中,深度强化学习仍面临一系列挑战。例如,在状态层面,动态多变的比赛状态中蕴藏着大量亟待挖掘的空间状态信息;在协作层面,个体短视带来的个体协作水平的低下会阻碍整个团队有效策略的组成,而优异的团体策略还依赖于球员策略的多样化;在训练架构层面,由于足球比赛动态、不确定、强对抗等特性挑战,现有训练架构在大场景中学习效率低下且所学策略简单。

本文以足球运动为研究对象,聚焦于深度强化学习在足球智能体球员策略方法中的应用。研究旨在系统性地探讨训练过程中的关键问题,以增强足球智能体球员的决策能力,并为足球运动的研究与应用提供理论基础。本文的主要贡献与创新点包括:

(1) 状态层面,针对策略训练过程中空间状态难以捕捉问题,提出一种领域知识嵌入的智能体球员策略训练方法。首先,为了应对空间影响值难以量化的挑战,本文考量了个体能力的差异对空间影响值的影响,设计了一个空间影响模型来量化空间态势。其次,构建了一个领域知识嵌入的状态表征模块来全面捕捉空间态势。此外,针对传统卷积网络在处理足球场景中几何变形和对称性的局限性,设计了一种基于变形卷积的特征处理模块来理解空间态势。最后,在Google Research Footbal (GRF)的两个场景中进行的仿真实验结果表明,所提出的方法能够有效地提升策略优化效率和策略表现能力。

%设计了观测异构图注意力神经网络被设计去处理多种类别的局部观测信息。具体地,利用了先验知识对局部信息进行类别分组,

(2)协作层面(自下而上),针对策略训练过程中智能体球员个体决策短视导致的协作水平低下问题,提出了一种基于未来期望认知的策略训练方法来学习长期策略。采用自下而上的方法论,通过加强个体的决策能力来促进团队协作。该方法的核心在于构建了一个未来期望认知模块,并通过最大化未来期望认知与实际未来轨迹之间的互信息训练该模块学习未来期望认知。智能体球员的决策网络中集成了未来期望认知模块,从而使得智能体球员在决策过程中能自适应平衡短期和长期利益,以此来缓解短视问题。价值分解的混合网络中也集成了未来期望认知模块,以提高混合网络计算的联合动作值函数评估准确性从而促进长远策略学习。在GRF的四个场景中进行的仿真实验结果表明,所提出方法能够有效地缓解短视行为,促使智能体在制定策略时更加注重长期效益。


(3)协作层面(自上而下),针对智能体团队在策略训练过程中策略趋同的问题,提出了一种基于内在激励的全局多样性学习方法。采用自上而下的方法论,从团队层面出发多样化个体策略来实现分工协作。该方法设计了两项内在激励,分别是团队多样性内在激励和个体差异化内在激励,旨在促进智能体球员团队在全局层面上涌现出行为多样性,从而实现高效协作。团队多样性内在激励最大化在给定全局状态下智能体球员可控状态与身份的互信息,从而在团队层面上产生多样性。个体差异化内在激励最大化智能体球员两两之间的可控状态分布,从而进一步激发个体间的差异性、加速团队层面上多样性的形成。在GRF的六个场景中进行了实验,包括两个大场景,以全面评估所提出方法的性能。实验结果表明,所提出的方法能够有效提高智能体球员策略的多样性,并提升团队的整体表现。

(4)训练架构层面,针对大场景下智能体球员策略训练效率低下以及复杂策略难以学习的问题,提出一种离线在线结合的两阶段训练方法。在离线阶段采用了基于策略涌现的离线策略扩充学习方法,以应对不完备数据集的挑战。通过意图聚合、策略对齐和策略分离三个关键步骤,有效提升了预训练策略的多样性和适应性。在线阶段,利用离线训练得到的行动者网络作为在线训练的初始状态,并利用离线评论家函数提供额外的价值信号,以辅助在线学习过程。在GRF的四个大场景中进行了实验,实验结果表明,与现有方法相比,所提出的方法在策略复杂性、学习效率和整体表现等方面均展现出显著的优势。

综上所述,本文采用深度强化学习技术,针对足球智能体球员的策略学习进行了深入研究。通过提出一系列创新的解决方案,提升了足球智能体球员在复杂环境中的策略执行能力。在多个具有挑战性的GRF任务场景中,所提出的策略经过了严格的实验验证和结果分析,显示出其有效性和可行性。这些研究成果不仅为足球智能体球员策略的理论发展提供了坚实的基础,而且为相关实际应用提供了宝贵的参考。通过这些方法的应用,有望推动足球智能体球员策略研究的进一步发展,并在实际场景中实现更广泛的应用。

语种中文
学科主题计算机科学技术
页码168
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/58535]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
刘博寅. 基于深度强化学习的足球智能体球员策略方法研究[D]. 2024.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace