题名 | 基于深度强化学习的机器人抓取策略的研究 |
作者 | 陈斌 |
答辩日期 | 2020-05 |
文献子类 | 硕士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 北京 |
导师 | 苏建华 |
关键词 | 深度强化学习,机器人自主抓取,多动作协同抓取 |
学位名称 | 工学硕士 |
学位专业 | 控制理论与控制工程 |
英文摘要 | 机器人自主抓取是指机器人在不依赖于外界信号的指导下,根据自我决策 的能力实现对目标物体抓取的技术。无论是在工业机器人领域、服务机器人领域 还是军用机器人领域,机器人自主抓取是机器人实现物体分拣、装配、配送等功 能的基础操作。因此赋予机器人自主抓取的能力,是实现机器人智能化基础而又 重要的功能之一。 1. 提出了一种普通场景下的工业机器人单动作自主抓取模型 针对普通抓取场景(只存在单个目标物体,或者多个物体零散分布),单个 抓取动作即可完成抓取任务。针对形状规则1的或者摆放姿态确定的物体,本文 通过确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法学习了一 个连续的4-D动作( , , , )控制机器人进行抓取,并融合了模型预训练、行为 克隆、设计样本优先级采样机制、奖励函数切片操作等技术,来提高样本利用率 以及模型学习效率。其次对于形状不规则2且摆放姿态不固定的物体,不仅需要 检测物体的位置,还需要判断物体的姿态才能精确地抓取。因此本文通过对模型 进行改进,学习了一个连续的5-D动作( , , , , )控制机器人进行抓取,其中 表示物体的旋转姿态。 2. 提出了一种复杂场景下的工业机器人多动作协同抓取模型 针对复杂抓取场景(存在多个物体堆叠分布、紧密分布),单个抓取动作显 然无法直接完成抓取任务。物体互相遮挡、物体之间没有给手爪预留足够的抓取 空间,都会导致失败的抓取。因此本文通过深度Q网络(DeepQ-Network,DQN) 算法实现了一种复杂场景下的机器人多动作协同抓取模型。通过奖励函数的设 计,使得模型学习到的“抓”和“推”两个动作互相配合:“推”的动作用于改 变物体的分布,有助于完成抓取的过程;“抓”的动作的执行能够预留出更多的 工作空间,来帮助“推”的动作顺利执行。 3. 在真实环境中搭建了机器人抓取平台并验证了抓取模型的可行性 在真实环境中搭建了一个面向实际应用场景的机器人抓取平台,并通过域 迁移技术,将本文提出的多动作协同抓取模型部署到真实抓取平台中,验证所提 出抓取策略的可行性。这个工作在本文中具有重要的意义:模型在仿真环境下的 测试结果只是验证算法理论可行性的一个手段,在真实环境中取得理想的实验 效果才是本课题的最终目标。 |
语种 | 中文 |
页码 | 96 |
内容类型 | 学位论文 |
源URL | [http://ir.ia.ac.cn/handle/173211/39074] ![]() |
专题 | 自动化研究所_复杂系统管理与控制国家重点实验室_机器人应用与理论组 |
推荐引用方式 GB/T 7714 | 陈斌. 基于深度强化学习的机器人抓取策略的研究[D]. 北京. 中国科学院自动化研究所. 2020. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论