面向智能驾驶视觉控制的深度强化学习方法

CORC > 自动化研究所 > 中国科学院自动化研究所 > 复杂系统管理与控制国家重点实验室 > 深度强化学习

题名	面向智能驾驶视觉控制的深度强化学习方法
作者	李栋
答辩日期	2019-05-22
文献子类	博士
授予单位	中国科学院大学
授予地点	中国科学院自动化研究所
导师	赵冬斌
关键词	深度强化学习智能驾驶视觉控制目标检测图注意力网络
学位名称	工学博士
学位专业	控制理论与控制工程
英文摘要	智能驾驶技术可以将人类驾驶员从复杂单调的驾驶任务中解放出来，由于其智能性和高效性，被认为是引领新一代智能交通系统的革命技术。现有的智能驾驶感知与控制方案在借助摄像机传感器的同时，还依赖于激光雷达和毫米波雷达等传感器，采用人工设计的驾驶规则来完成控制。但由于激光雷达和毫米波雷达昂贵的价格以及传感器本身的局限性，延缓了智能驾驶的大规模商用。此外基于规则的控制方案在系统的自适应性和智能性方面也有所不足。基于视觉的控制方案在实现车辆智能化控制的同时减少了对昂贵传感器的依赖，现已成为智能驾驶领域最新的研究热点。然而，如何高效准确地从图像数据中感知周围的交通环境，设计出数据高效利用的智能驾驶控制策略仍存在着许多困难与挑战。本文在综述当前研究现状的基础上，针对智能驾驶视觉控制问题，围绕深度学习和强化学习方法展开深入研究。首先聚焦于车辆前方远距离的交通标志识别问题和近距离的关键道路特征提取问题，随后根据视觉感知结果基于强化学习方法研究车辆的横向控制和换道决策等问题。此外，针对强化学习控制策略收敛缓慢的问题，分别基于高斯过程和图神经网络理论提出了数据高效利用的深度强化学习方法，加快了算法的收敛速度，提高了算法的控制性能。论文的主要章节包含以下工作和贡献：围绕视觉输入的环境感知问题，提出了一种基于深度学习的多阶段视频流交通标志识别方法。针对交通标志尺寸小、样本相关性强、类间样本数量分布不均匀等难点，采用交通标志检测与精细分类相分离的多阶段识别方法，有效改善了过拟合问题。在识别结果的基础上挖掘视频流的上下文时序特征，提出了一种交通标志追踪方法，提高了识别的准确率与召回率。最后在交通标志识别数据集上验证了方法的有效性。针对视觉输入的车辆横向控制问题，提出了一种基于多任务的强化学习视觉控制方法。考虑多个道路特征之间的关系及其与横向控制之间的关系，采用多任务学习卷积神经网络提取多个相关道路特征之间的共享特征，以提高关键道路特征预测的准确率。针对强化学习横向控制问题，根据道路几何结构特征设计奖赏函数，基于确定策略梯度方法成功实现了视觉输入的车道保持控制，在仿真环境中对比现有的感知与控制方法，验证了所提方法的性能。针对无模型强化学习方法控制策略收敛缓慢的问题，提出了一种块数据输入的受扰高斯过程建模强化学习方法。通过在局部时间内逼近强化学习环境的状态转移函数和奖赏函数模型，并结合当前控制策略在状态动作空间生成虚拟探索样本，将其与智能体真实交互样本一同用于控制策略更新，从而加速策略收敛。此外，在高斯过程建模阶段，改进了传统的单样本输入高斯过程方法，使其在接受最小批输入数据的同时，能够有效防止因高斯过程不确定性降低而无法追踪系统模型变化的问题。最后在仿真环境中验证了模型逼近的性能和强化学习收敛速度的提升。针对在现有强化学习方法中由于智能体被动地接受环境状态输入这一反应式学习机制而导致的策略收敛缓慢问题，提出了一种基于图注意力的深度强化学习视觉控制方法。利用环境探索的先验知识，通过深度学习构造环境拓扑图，并在此基础上提出了一种递归式图注意力特征提取方法，从拓扑图中聚合多节点特征来作为辅助先验特征，用以提升控制策略的收敛速度。最后通过实验对比了所提方法和现有的视觉控制方法，验证了所提方法的有效性。针对两种常见的智能驾驶场景，对于高速公路换道决策问题，提出了一种基于强化学习的换道决策方法。设计了一种同时考虑换道必要性和舒适性的奖赏函数，实现了换道时机选择和超车功能。对于城市结构化道路的交通灯路口场景，提出了一种基于视觉的路口启停速度控制方法，实现了红灯停车绿灯通行的功能。最后通过实验分别验证了两种方法的有效性。
语种	中文
页码	158
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/23944]
专题	复杂系统管理与控制国家重点实验室_深度强化学习
推荐引用方式 GB/T 7714	李栋. 面向智能驾驶视觉控制的深度强化学习方法[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.