深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero | |
唐振韬1,2; 邵 坤1,2; 赵冬斌1,2; 朱圆恒1,2 | |
刊名 | 控 制 理 论 与 应 用 |
2017 | |
卷号 | 34期号:12页码:1529-1546 |
关键词 | 深度强化学习 AlphaGo Zero 深度学习 强化学习 人工智能 |
英文摘要 | 2016年初, AlphaGo战胜李世石成为人工智能的里程碑事件. 其核心技术深度强化学习受到人们的广泛关 注和研究, 取得了丰硕的理论和应用成果. 并进一步研发出算法形式更为简洁的AlphaGo Zero, 其采用完全不基于 人类经验的自学习算法, 完胜AlphaGo, 再一次刷新人们对深度强化学习的认知. 深度强化学习结合了深度学习和 强化学习的优势, 可以在复杂高维的状态动作空间中进行端到端的感知决策. 本文主要介绍了从AlphaGo到Alpha Go Zero的深度强化学习的研究进展. 首先回顾对深度强化学习的成功作出突出贡献的主要算法, 包括深度Q网络 算法、A3C算法、策略梯度算法及其他算法的相应扩展. 然后给出AlphaGo Zero的详细介绍和讨论, 分析其对人工智 能的巨大推动作用. 并介绍了深度强化学习在游戏、机器人、自然语言处理、智能驾驶、智能医疗等领域的应用进 展, 以及相关资源进展. 最后探讨了深度强化学习的发展展望, 以及对其他潜在领域的人工智能发展的启发意义. |
语种 | 中文 |
内容类型 | 期刊论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/45043] |
专题 | 复杂系统管理与控制国家重点实验室_深度强化学习 |
通讯作者 | 赵冬斌 |
作者单位 | 1.中国科学院大学, 北京 100190 2.中国科学院 自动化研究所 复杂系统管理与控制国家重点实验室, 北京 100190 |
推荐引用方式 GB/T 7714 | 唐振韬,邵 坤,赵冬斌,等. 深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero[J]. 控 制 理 论 与 应 用,2017,34(12):1529-1546. |
APA | 唐振韬,邵 坤,赵冬斌,&朱圆恒.(2017).深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero.控 制 理 论 与 应 用,34(12),1529-1546. |
MLA | 唐振韬,et al."深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero".控 制 理 论 与 应 用 34.12(2017):1529-1546. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论