CORC  > 自动化研究所  > 中国科学院自动化研究所  > 学术期刊  > 自动化学报
基于表征学习的离线强化学习方法研究综述
王雪松; 王荣荣; 程玉虎
刊名自动化学报
2024
卷号50期号:6页码:1104-1128
关键词强化学习 离线强化学习 表征学习 历史经验数据 分布偏移
ISSN号0254-4156
DOI10.16383/j.aas.c230546
英文摘要强化学习(Reinforcement learning, RL)通过智能体与环境在线交互来学习最优策略, 近年来已成为解决复杂环境下感知决策问题的重要手段. 然而, 在线收集数据的方式可能会引发安全、时间或成本等问题, 极大限制了强化学习在实际中的应用. 与此同时, 原始数据的维度高且结构复杂, 解决复杂高维数据输入问题也是强化学习面临的一大挑战. 幸运的是, 基于表征学习的离线强化学习能够仅从历史经验数据中学习策略, 而无需与环境产生交互. 它利用表征学习技术将离线数据集中的特征表示为低维向量, 然后利用这些向量来训练离线强化学习模型. 这种数据驱动的方式为实现通用人工智能提供了新契机. 为此, 对近期基于表征学习的离线强化学习方法进行全面综述. 首先给出离线强化学习的形式化描述, 然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理, 进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态. 最后, 对全文进行总结, 并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势, 以期为后续的研究提供有益参考.
内容类型期刊论文
源URL[http://ir.ia.ac.cn/handle/173211/57737]  
专题自动化研究所_学术期刊_自动化学报
推荐引用方式
GB/T 7714
王雪松,王荣荣,程玉虎. 基于表征学习的离线强化学习方法研究综述[J]. 自动化学报,2024,50(6):1104-1128.
APA 王雪松,王荣荣,&程玉虎.(2024).基于表征学习的离线强化学习方法研究综述.自动化学报,50(6),1104-1128.
MLA 王雪松,et al."基于表征学习的离线强化学习方法研究综述".自动化学报 50.6(2024):1104-1128.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace