CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名基于动态网络结构的视觉场景理解方法研究
作者李彦玮
答辩日期2020-05-28
文献子类硕士
授予单位中国科学院大学
授予地点中科院自动化所
导师王欣刚
关键词场景理解 深度学习 动态网络 轻量化设计
学位专业模式识别与智能系统
英文摘要

视觉场景理解是计算机视觉领域基础且具有挑战的任务,其对于智能机器人及无人驾驶具有重要的意义。随着应用场景的多样化,人们对场景理解算法的精度和效率提出了更高的要求,因此探索高性能的视觉场景理解方法变得尤为关键。在以往基于深度学习的网络模型中,前景物体和背景环境的感知往往由不同的网络模型来完成,使得模型参数量大且运行速度慢。在现实生活中,同一物体在不同图像中往往存在尺寸差异,给图像尺寸分布带来较大的方差。传统基于静态网络结构来缓解尺寸差异的模型往往受限于数据集本身的尺度分布,很难找到单独的网络结构来适应所有场景的数据分布。且所提供的计算资源往往随着实际场景而发生变化,这就要求网络能够根据资源限制自适应地进行调整。虽然上述问题已经取得广泛的研究,但仍存在性能偏低和资源消耗过大的问题。

本文结合场景感知任务的特点,对基于动态网络结构的视觉场景理解方法进行研究。本文的主要工作及贡献如下:

1. 本文提出了一种基于共享基础网络并结合注意力机制的视觉场景理解网络结构框架。该框架使用共享的基础网络结构用于提取前景物体和背景环境的共有特征,并使用两个子任务分支分别处理前景物体和背景环境的感知。结合视觉注意力机制,本文提出了分别在物体层级和像素层级建立前景物体和背景环境的互补联系,从而实现更加精确鲁棒的场景感知。该方法的有效性在多个数据集上进行验证,相对于基线模型及传统结构,该方法在准确率上有明显提升。

2. 本文提出了一种基于动态网络的视觉场景理解网络结构拓展方法。相比于传统的静态网络模型,本文使用条件门控网络根据不同的输入图像自适应地生成相应的网络结构,进一步缓解了不同输入所带来的尺度差异。该方法能够针对不同尺度分布的输入自适应地调整网络结构,从而建立多尺度目标检测器和优化算法,实现多尺度目标的准确检测与背景环境的精确感知。该方法的有效性在多个数据集上进行了验证。相对于传统网络连接,动态网络结构不论在感知性能抑或是效率上均有提升。通过对比实验和可视化分析,本文所提出的动态网络结构展现出优异的性能。

3. 本文提出了一种针对动态网络结构的自适应模型轻量化方法。该方法使用可微的条件门控网络根据不同的计算资源限制自适应地丢弃不必要的计算节点以减少动态网络结构的资源消耗。本文提出的可微条件门控网络可以在优化场景感知网络的同时根据所给定的参数进行端到端的动态网络结构轻量化设计,从而保持了训练和推断过程的一致性。通过对实验结果的定性和定量分析表明,本文所提出的动态网络轻量化设计方法相对于传统的静态网络结构在不同的计算限制下均有良好的性能表现,验证了所提出轻量化设计方法的有效性。

综上所述,本文通过对视觉场景理解网络的结构框架的研究,提出了一种能够高效感知前景和背景的网络框架。通过对该框架动态化及轻量化的扩展,实现了根据输入图像和计算资源限制自适应地生成场景感知网络的目标。经实验证明,本文提出的方法具有良好的性能,对视觉场景理解领域的研究具有一定的借鉴意义。

语种中文
页码86
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/39171]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
李彦玮. 基于动态网络结构的视觉场景理解方法研究[D]. 中科院自动化所. 中国科学院大学. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace