CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于平行学习的混合智能调控方法与应用研究
作者李小双
答辩日期2022-05-19
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师王飞跃 ; 王晓
关键词平行学习 混合智能调控 示教数据 模仿学习 深度强化学习
学位专业社会计算
英文摘要


随着社会经济的发展,交通、电网等实际系统的复杂程度不断提高,调控难度持续增大,调控需求也越发迫切。而运行机理无法准确建模、状态-动作空间复杂、调控目标多样等特点,也使得传统调控方法在应对实际复杂系统调控问题时,面临越来越大的挑战。人工智能理论方法的飞速进步,为解决复杂系统调控问题提供了新的思路。构建融合机器智能与先验知识经验的混合智能调控方法,对推动复杂系统调控方法的研究、提升复杂系统的管控水平具有重要的理论和现实意义。

平行学习是近年来针对复杂系统管理与控制而提出的理论框架,它包含描述学习、预测学习和引导学习三个过程,并借助这三个过程将数据、知识和行动策略融合进一个完整的闭环优化系统中,以解决实际复杂场景中面临的数据不足、策略优化困难等问题。本论文在平行学习理论框架基础上,通过模仿学习、深度强化学习等方法,对融合机器智能与先验知识经验的混合智能调控方法开展了研究,主要工作归纳如下:

1. 针对示教数据的策略建模问题,基于描述学习思路,提出了基于模仿学习的示教数据挖掘方法,实现了对示教数据中的先验知识经验的学习和建模。首先,在真实示教数据下,提出了一种基于掩码的缺失数据编码机制,设计并构建了能够同时提取示教数据时空特征的模仿学习模型,从而实现对真实示教数据的有效建模。进一步地,提出了一种启发式无梯度参数优化方法和虚拟示教数据生成机制,构建了基于虚拟示教数据的模仿学习模型,进而有效集成和整合离线优化方法中的先验知识经验。最后,将上述方法应用于交通信号调控场景,结果表明所提方法能够良好建模示教数据中的先验知识经验,形成可复用的虚拟专家模型,提高模型在交通信号调控任务上的性能。

2. 针对示教数据规模和多样性对上述模仿学习模型的限制,从预测学习的角度出发,设计了通用的先验知识经验增强方法,实现了对少量真实示教数据的扩充和增强。首先,提出了一种融合时空特征与先验知识的数据编解码机制,设计并构建了基于对抗学习和自注意力机制的通用示教数据增强模型,使离散时间序列数据被有效表征和增强。其次,在所提数据增强模型和编解码机制的基础上,提出了混合示教数据集构建方法,从而显著提高了原始示教数据的规模和多样性。最后,利用混合示教数据,训练模仿学习模型,显著改善了模型的学习效果。在交通信号调控场景进行实验,结果表明所提方法能够有效增强先验知识和示教数据,提高深度模仿学习模型对先验知识经验的建模和利用能力。

3. 针对专家策略模型的利用与优化问题,从引导学习的角度出发,提出了一种有监督学习与深度强化学习相融合的辅导型深度强化学习框架,实现了深度强化学习方法对先验知识经验的充分利用,从而不断优化专家策略模型。在前述策略建模过程基础上,分别设计了基于Q值软间隔的有监督专家损失函数和基于优势函数估计的有监督专家损失函数,构建了能够有效利用先验知识经验的深度强化学习模型。此外,提出了示教数据动态更新机制,通过不断微调模仿学习模型,实现有监督学习模型和深度强化学习模型的深度融合。最后,在通用平台和电网电压紧急控制场景中进行实验,结果表明所提方法能够充分利用示教数据,有效优化已有策略,提高模型的学习能力和调控性能。


本论文针对复杂系统调控问题,围绕混合智能调控方法与应用开展研究。在平行学习理论指导下,从示教数据的挖掘与建模、先验知识经验的扩充与增强和专家策略的利用与优化三个方面设计混合智能调控模型和方法。在交通信号调控和电网电压调控这两个典型实际复杂场景实验验证所提方法的可行性和有效性,取得了一定的研究成果。本论文期望通过对混合智能调控方法的研究,推动计算机辅助决策在实际复杂场景中的推广和应用,促进复杂系统调控理论与方法的发展。

语种中文
页码164
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48847]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
李小双. 基于平行学习的混合智能调控方法与应用研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace