基于表征学习的离线强化学习方法研究综述

doi:10.16383/j.aas.c230546

CORC > 自动化研究所 > 中国科学院自动化研究所 > 学术期刊 > 自动化学报

	基于表征学习的离线强化学习方法研究综述
	王雪松; 王荣荣; 程玉虎
刊名	自动化学报
	2024
卷号	50 期号:6 页码:1104-1128
关键词	强化学习离线强化学习表征学习历史经验数据分布偏移
ISSN号	0254-4156
DOI	10.16383/j.aas.c230546
英文摘要	强化学习(Reinforcement learning, RL)通过智能体与环境在线交互来学习最优策略, 近年来已成为解决复杂环境下感知决策问题的重要手段. 然而, 在线收集数据的方式可能会引发安全、时间或成本等问题, 极大限制了强化学习在实际中的应用. 与此同时, 原始数据的维度高且结构复杂, 解决复杂高维数据输入问题也是强化学习面临的一大挑战. 幸运的是, 基于表征学习的离线强化学习能够仅从历史经验数据中学习策略, 而无需与环境产生交互. 它利用表征学习技术将离线数据集中的特征表示为低维向量, 然后利用这些向量来训练离线强化学习模型. 这种数据驱动的方式为实现通用人工智能提供了新契机. 为此, 对近期基于表征学习的离线强化学习方法进行全面综述. 首先给出离线强化学习的形式化描述, 然后从方法、基准数据集、离线策略评估与超参数选择3个层面对现有技术进行归纳整理, 进一步介绍离线强化学习在工业、推荐系统、智能驾驶等领域中的研究动态. 最后, 对全文进行总结, 并探讨基于表征学习的离线强化学习未来所面临的关键挑战与发展趋势, 以期为后续的研究提供有益参考.
内容类型	期刊论文
源URL	[http://ir.ia.ac.cn/handle/173211/57737]
专题	自动化研究所_学术期刊_自动化学报
推荐引用方式 GB/T 7714	王雪松,王荣荣,程玉虎. 基于表征学习的离线强化学习方法研究综述[J]. 自动化学报,2024,50(6):1104-1128.
APA	王雪松,王荣荣,&程玉虎.(2024).基于表征学习的离线强化学习方法研究综述.自动化学报,50(6),1104-1128.
MLA	王雪松,et al."基于表征学习的离线强化学习方法研究综述".自动化学报 50.6(2024):1104-1128.