题名基于图卷积网络的人体骨架行为识别若干问题研究
作者宋一帆
答辩日期2021-05-14
文献子类博士
授予单位中国科学院大学人工智能学院
授予地点智能化大厦16层1610
导师王亮
关键词行为识别 骨架序列 图卷积网络 注意力机制 神经结构搜索
学位名称工学博士
学位专业计算机应用技术
英文摘要

人的运动行为分析是计算机视觉领域中的一个经典问题,其要求对一段视频进行分析计算,从而识别出视频中的运动目标正在进行的动作类别,或对其接下来一段时间内的行为进行预测。传统的行为识别方法主要分为两类,其一是将RGB视频看作一个三维的张量,并采用三维卷积神经网络(Convolutional Neural Network, CNN)进行建模。第二类方案是采用二维CNN对视频逐帧进行建模,后采用循环神经网络(Recurrent Neural Network, RNN)来提取时间信息。然而,传统基于RGB视频的行为识别方法,存在严重的信息冗余问题,同时复杂背景、光照条件等环境因素也都严重影响行为识别模型的鲁棒性。而与此同时,随着新型传感器的出现和人体姿态估计方法的不断发展,人体骨架作为一种更高效精简的人体结构表达逐渐成为行为识别的基础数据,基于骨架的行为识别逐渐成为热门的研究领域。骨架行为识别与传统方法的区别在于,其输入数据是一组给定骨架点的三维坐标,并通过这些骨架点的坐标变化来表示一个行为动作。骨架行为识别不仅能避免RGB视频中存在的背景和光照等问题;同时,相对于RGB视频,骨架行为识别在行为特征表达方面更为高效,所需计算消耗非常低,且识别正确率也与RGB视频相近。虽然骨架行为识别具有很多优势,但其仍然存在一些亟待解决的问题。对此,本文提出了四种方法来解决骨架行为识别领域中存在的问题:

(1)针对骨架点的三维坐标在真实环境中易被遮挡或扰动的情况,本文设计了一种有序多流模型,逐步地对模型关注到的区域进行拓展,可有效解决骨架行为识别中的遮挡和噪声扰动问题。该方案主要是通过一个富激活模块来实现的,该模块可以有效地提取出当前网络流关注到的骨架点,并在下一条网络流学习过程中通过人工隐藏的方法,迫使网络在尚未关注的骨架点中捕捉不同行为的区分性信息。在四种遮挡数据集和两种噪声扰动数据集上的实验结果表明,相对于传统方法,本文方法可有效提升行为识别模型对由遮挡和姿态估计误差所带来的噪声骨架数据的鲁棒性。

(2)针对当前高性能骨架行为识别模型参数量大、训练和推理时间过长的问题,本文提出一种新的轻量化模型,其包含了多分支早期融合、残差网络模块和人体部件注意力模块,可在行为识别准确性与当前最优模型相当的情况下(NTU60数据库中可达90.9%的正确率),极大降低模型参数量,甚至仅相当于某些大模型参数量的1/34。这一轻量级模型可作为一个行为识别的基准模型,有助于未来研究者更高效地开发高性能行为识别模型。

(3)骨架行为识别虽然有着较低的计算代价,但同时由于骨架点数据过少,会导致一些微小的动作表达不充分。对此,本文提出了一种动态的骨架扩充方案。该模型使用多层感知机(Multi-layer Perception, MLP)技术提升了模型对细粒度动作的表达能力,即采用更多的骨架点来表示一个行为动作。为了建模扩充后的骨架数据,本文又设计了一个全连接图注意力模块,用来建模骨架数据的空间信息。该骨架扩充方案在两组相似动作组成的子数据集中,识别精度优于传统的算法,平均性能提升达到了2.5%。

(4)针对骨架行为识别中的图卷积网络感受野参数自动设定问题,本文参考了可微分模型结构搜索的方法,将感受野配置参数作为可学习的超参数,在训练过程中同步进行最优解搜索,以实现自适应设定感受野配置。该方法分别在时间和空间维度上堆叠了多个搜索单元,每个搜索单元中的模型结构在搜索过程中自动确定。在大规模公开数据集上的实验表明,所提方法能够以更少的参数量获得更高的识别正确率(采用2.23*10^6的参数量实现了90.8%的正确率),同时也为自动超参数选取提供了可行的解决方案。

语种中文
学科主题模式识别
页码134
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/44959]  
专题自动化研究所_智能感知与计算研究中心
通讯作者宋一帆
推荐引用方式
GB/T 7714
宋一帆. 基于图卷积网络的人体骨架行为识别若干问题研究[D]. 智能化大厦16层1610. 中国科学院大学人工智能学院. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace