题名 | 基于平行学习的混合智能调控方法与应用研究 |
作者 | 李小双 |
答辩日期 | 2022-05-19 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 中国科学院自动化研究所 |
导师 | 王飞跃 ; 王晓 |
关键词 | 平行学习 混合智能调控 示教数据 模仿学习 深度强化学习 |
学位专业 | 社会计算 |
英文摘要 |
平行学习是近年来针对复杂系统管理与控制而提出的理论框架,它包含描述学习、预测学习和引导学习三个过程,并借助这三个过程将数据、知识和行动策略融合进一个完整的闭环优化系统中,以解决实际复杂场景中面临的数据不足、策略优化困难等问题。本论文在平行学习理论框架基础上,通过模仿学习、深度强化学习等方法,对融合机器智能与先验知识经验的混合智能调控方法开展了研究,主要工作归纳如下: 1. 针对示教数据的策略建模问题,基于描述学习思路,提出了基于模仿学习的示教数据挖掘方法,实现了对示教数据中的先验知识经验的学习和建模。首先,在真实示教数据下,提出了一种基于掩码的缺失数据编码机制,设计并构建了能够同时提取示教数据时空特征的模仿学习模型,从而实现对真实示教数据的有效建模。进一步地,提出了一种启发式无梯度参数优化方法和虚拟示教数据生成机制,构建了基于虚拟示教数据的模仿学习模型,进而有效集成和整合离线优化方法中的先验知识经验。最后,将上述方法应用于交通信号调控场景,结果表明所提方法能够良好建模示教数据中的先验知识经验,形成可复用的虚拟专家模型,提高模型在交通信号调控任务上的性能。 2. 针对示教数据规模和多样性对上述模仿学习模型的限制,从预测学习的角度出发,设计了通用的先验知识经验增强方法,实现了对少量真实示教数据的扩充和增强。首先,提出了一种融合时空特征与先验知识的数据编解码机制,设计并构建了基于对抗学习和自注意力机制的通用示教数据增强模型,使离散时间序列数据被有效表征和增强。其次,在所提数据增强模型和编解码机制的基础上,提出了混合示教数据集构建方法,从而显著提高了原始示教数据的规模和多样性。最后,利用混合示教数据,训练模仿学习模型,显著改善了模型的学习效果。在交通信号调控场景进行实验,结果表明所提方法能够有效增强先验知识和示教数据,提高深度模仿学习模型对先验知识经验的建模和利用能力。 3. 针对专家策略模型的利用与优化问题,从引导学习的角度出发,提出了一种有监督学习与深度强化学习相融合的辅导型深度强化学习框架,实现了深度强化学习方法对先验知识经验的充分利用,从而不断优化专家策略模型。在前述策略建模过程基础上,分别设计了基于Q值软间隔的有监督专家损失函数和基于优势函数估计的有监督专家损失函数,构建了能够有效利用先验知识经验的深度强化学习模型。此外,提出了示教数据动态更新机制,通过不断微调模仿学习模型,实现有监督学习模型和深度强化学习模型的深度融合。最后,在通用平台和电网电压紧急控制场景中进行实验,结果表明所提方法能够充分利用示教数据,有效优化已有策略,提高模型的学习能力和调控性能。
|
语种 | 中文 |
页码 | 164 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/48847] |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 李小双. 基于平行学习的混合智能调控方法与应用研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论