基于深度强化学习的机器人抓取策略的研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 复杂系统管理与控制国家重点实验室 > 机器人应用与理论组

题名	基于深度强化学习的机器人抓取策略的研究
作者	陈斌
答辩日期	2020-05
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	北京
导师	苏建华
关键词	深度强化学习，机器人自主抓取，多动作协同抓取
学位名称	工学硕士
学位专业	控制理论与控制工程
英文摘要	机器人自主抓取是指机器人在不依赖于外界信号的指导下，根据自我决策的能力实现对目标物体抓取的技术。无论是在工业机器人领域、服务机器人领域还是军用机器人领域，机器人自主抓取是机器人实现物体分拣、装配、配送等功能的基础操作。因此赋予机器人自主抓取的能力，是实现机器人智能化基础而又重要的功能之一。在实现机器人自主抓取的过程中，基于数据驱动的策略学习方法由于具有自主学习的能力，且泛化性、鲁棒性好，因此成为了目前学习抓取策略的主流方法。然而目前该方法仍然存在一些亟需解决的问题：首先在大部分应用场景中，带有标签的抓取数据搜集是一项艰巨的任务；其次在模型训练的过程中，需要进一步加快模型的训练速度、提升数据的利用率；最后在实际环境中部署模型时，如何消除仿真环境和真实环境的差异性，保证模型在实际环境中的效果也需要相应的方法去解决。本文基于工业机器人应用场景，通过深度强化学习技术（DeepReinforcement learning，DRL）来学习机器人自主抓取策略。本论文的主要工作和创新点归纳如下： 1. 提出了一种普通场景下的工业机器人单动作自主抓取模型针对普通抓取场景（只存在单个目标物体，或者多个物体零散分布），单个抓取动作即可完成抓取任务。针对形状规则1的或者摆放姿态确定的物体，本文通过确定性策略梯度（DeepDeterministicPolicyGradient，DDPG）算法学习了一个连续的4-D动作( , , , )控制机器人进行抓取，并融合了模型预训练、行为克隆、设计样本优先级采样机制、奖励函数切片操作等技术，来提高样本利用率以及模型学习效率。其次对于形状不规则2且摆放姿态不固定的物体，不仅需要检测物体的位置，还需要判断物体的姿态才能精确地抓取。因此本文通过对模型进行改进，学习了一个连续的5-D动作( , , , , )控制机器人进行抓取，其中表示物体的旋转姿态。 2. 提出了一种复杂场景下的工业机器人多动作协同抓取模型针对复杂抓取场景（存在多个物体堆叠分布、紧密分布），单个抓取动作显然无法直接完成抓取任务。物体互相遮挡、物体之间没有给手爪预留足够的抓取空间，都会导致失败的抓取。因此本文通过深度Q网络（DeepQ-Network，DQN）算法实现了一种复杂场景下的机器人多动作协同抓取模型。通过奖励函数的设计，使得模型学习到的“抓”和“推”两个动作互相配合：“推”的动作用于改变物体的分布，有助于完成抓取的过程；“抓”的动作的执行能够预留出更多的工作空间，来帮助“推”的动作顺利执行。 3. 在真实环境中搭建了机器人抓取平台并验证了抓取模型的可行性在真实环境中搭建了一个面向实际应用场景的机器人抓取平台，并通过域迁移技术，将本文提出的多动作协同抓取模型部署到真实抓取平台中，验证所提出抓取策略的可行性。这个工作在本文中具有重要的意义：模型在仿真环境下的测试结果只是验证算法理论可行性的一个手段，在真实环境中取得理想的实验效果才是本课题的最终目标。
语种	中文
页码	96
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/39074]
专题	自动化研究所_复杂系统管理与控制国家重点实验室_机器人应用与理论组
推荐引用方式 GB/T 7714	陈斌. 基于深度强化学习的机器人抓取策略的研究[D]. 北京. 中国科学院自动化研究所. 2020.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们