CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名基于元学习和强化学习的机器人操作视觉模仿技术研究
作者李佳怡
答辩日期2022-05
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师鲁涛
关键词机器人操作学习 视觉模仿 元学习 强化学习
学位专业控制工程
英文摘要

随着智能化技术的发展,机器人的应用范围不断扩大,各类机器人已广泛应用于工业制造、生活服务、军事部署等领域。机器人的部署亟需更加智能的操作技能学习技术,使机器人快速适应动态、复杂的真实环境。而受制于数据量及策略效率等问题,机器人的操作技能学习技术依然面临着诸多挑战。本文以视觉模仿为主要方式,结合元学习及强化学习方法研究机器人操作策略快速学习的相关技术,实现机器人自然示教、快速学习的任务目标。本文的主要工作如下:

(1) 为建立高效自然的机器人学习方式,本文提出了一种仅需人类示教视频的机器人元模仿学习方法。在无需机器人示教数据的情况下,该方法利用生成式图像转换模型与逆运动学耦合的网络结构建立人类域及机器人域的相互映射,并得到与动作相关的任务场景低维特征表示用以元模仿策略的学习,在元策略训练阶段,通过评估生成图像的质量稳定策略的训练性能。实验结果表明,该方法使机器人仅需观察一次人类示教视频,即可实现新技能的学习。

(2) 针对机器人操作技能学习中强化学习方法在稀疏奖励下样本效率低、训练成本高的问题,提出了一种操作策略快速探索方法。该方法提出基于经验样本密度的内在动机机制,鼓励机器人探索新颖状态,并引入自适应动作噪声动态调节探索步长,实现机器人探索与利用的协同。实验结果表明,该方法有效地提高了算法的收敛速度和学习性能。

(3) 针对前述两种方法在策略训练中的作用,将两者的优势互补,提出了一种基于策略初始化和示教数据融合相结合的示教强化学习方法。该方法利用元模仿学习为强化学习提供初始网络参数及示教数据,以直接和间接的方式引导策略学习,并结合策略快速探索方法,进一步提高算法的收敛速度。实验结果表明,该方法在元模仿策略基础上经过有限次环境交互大幅提高了策略性能。

本文所提三种方法共同形成了一套机器人视觉模仿快速学习框架,在一次视频示教条件下机器人经过“观测(Watch)-尝试(Try)-学习(Learn)”实现了基于经验和环境交互的技能快速学习。

语种中文
页码90
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48507]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
李佳怡. 基于元学习和强化学习的机器人操作视觉模仿技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace