一类基于谱方法的强化学习混合迁移算法

CORC > 中国矿业大学（徐州）

	一类基于谱方法的强化学习混合迁移算法
	朱美强 ; 程玉虎 ; 李明 ; 王雪松 ; 冯涣婷
	2015-09-10 ; 2015-09-10
关键词	强化学习迁移学习谱图理论原型值函数层次分解
中文摘要	在状态空间比例放大的迁移任务中,原型值函数方法只能有效迁移较小特征值对应的基函数,用于目标任务的值函数逼近时会使部分状态的值函数出现错误.针对该问题,利用拉普拉斯特征映射能保持状态空间局部拓扑结构不变的特点,对基于谱图理论的层次分解技术进行了改进,提出一种基函数与子任务最优策略相结合的混合迁移方法.首先,在源任务中利用谱方法求取基函数,再采用线性插值技术将其扩展为目标任务的基函数;然后,用插值得到的次级基函数(目标任务的近似Fiedler特征向量)实现任务分解,并借助改进的层次分解技术求取相关子任务的最优策略;最后,将扩展的基函数和获取的子任务策略一起用于目标任务学习中.所提的混合迁移方法可直接确定目标任务部分状态空间的最优策略,减少了值函数逼近所需的最少基函数数目,降低了策略迭代次数,适用于状态空间比例放大且具有层次结构的迁移任务.格子世界的仿真结果验证了新方法的有效性.
内容类型	期刊论文
源URL	[http://ir.calis.edu.cn/hdl/232060/14158]
专题	中国矿业大学（徐州）
推荐引用方式 GB/T 7714	朱美强,程玉虎,李明,等. 一类基于谱方法的强化学习混合迁移算法[J],2015, 2015.
APA	朱美强,程玉虎,李明,王雪松,&冯涣婷.(2015).一类基于谱方法的强化学习混合迁移算法..
MLA	朱美强,et al."一类基于谱方法的强化学习混合迁移算法".(2015).

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们