CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于自适应细粒度语义对齐的行人重识别研究
作者朱宽
答辩日期2023-05
文献子类博士
关键词行人重识别 语义对齐 伪标签生成 Transformer 网络 自监督学习
英文摘要

行人重识别任务旨在匹配同一个行人在不同摄像头、不同场景下的所有图片。随着视觉监控数据的指数级增长,行人重识别技术逐渐展现出了其广泛的应用场景和重大的研究价值,可以在安防、刑侦和智慧城市中提供重要的技术支持。

 

行人重识别由于其任务的特性,天然要面对行人姿态差异、视角差异、障碍物遮挡、行人检测器误差等干扰因素,这些因素都会导致行人重识别领域最具挑战性的问题之一:语义不对齐问题。这促使研究学者开始研究基于语义对齐的行人重识别方法,即首先定位局部语义位置,然后提取对应的局部语义特征,来实现局部特征层面的语义对齐。但是现有的方法要么只能粗糙地定位局部语义,要么不能识别对于行人重识别任务至关重要的非人体语义部分(例如背包、手提包等),即无法实现自适应、细粒度的语义对齐以应对不可预知的、复杂的应用场景。另外,随着视觉Transformer新型网络结构的出现,如何利用Transformer的结构优势以及其对数据强大的适配能力为自适应细粒度语义对齐带来新的解决方案和性能提升,也是当前行人重识别领域亟需解决的核心问题。

 

本文基于深度学习技术,针对以上问题分别提出了相对应的解决方案,主要创新点包括:

 

1. 针对现有方法存在局部语义定位粗糙以及无法识别非人体语义的问题,本文提出了基于身份指导人体语义解析学习的行人重识别方法,其可以仅利用图片级别的ID标注就在像素级别同时定位人体和非人体局部语义。本方法设计了级联聚类模块在图像特征图上生成人体局部语义的伪标签。具体地,对于同一个行人所有图片的特征图上的像素,级联聚类首先根据响应度将它们划分到前景或者背景类别,然后将前景类别中的像素聚类为若干个不同的局部语义部分。聚类的结果随后被当作行人局部语义的伪标签来监督行人局部语义估计的学习。最终,人体和非人体的局部语义特征都会根据网络预测的局部语义位置获得。本方法迭代地进行伪标签的产生和网络的优化,这种迭代方式可以让两个模块的性能循环交替上升。在进行图片检索的时候,只有查询图片和图库集图像的共同可见语义部分参与相似度的计算。大量的实验验证了本方法在各大数据集上的突出性能。

 

2. 为了更高效地实现自适应细粒度语义对齐,本文提出了基于语义一致水平块和语义自精细化的行人重识别方法。其中,语义一致水平块模块负责自适应地根据局部语义位置将输入图片切分成水平块,其中每一个水平块对应一个确定的语义。具体地,本方法对图像特征图的每一行进行聚类并得到每一行的伪标签,然后利用该伪标签,学习一个对图片进行切分的行分类器。同样的,本方法迭代地进行伪标签的产生和网络优化,使它们的性能循环交替上升。此外,本文设计语义自精细化模块在线地去除水平块中的背景噪声。具体地,所有的像素均通过行分类器得到其属于行人局部语义部分(前景)或者背景的概率,输出的结果被称为类激活图。只有在类激活图中置信度最高的区域被分配前景或者背景伪标签来监督语义自精细化的学习。最终,通过计算语义一致水平块和前景区域的交集,本方法可以获得像素级别的行人局部语义定位,进而提取到细粒度局部语义特征。实验结果表明本方法不仅可以更高效地实现细粒度语义对齐,也会进一步提升行人重识别的性能。

 

3. 针对现有的基于Transformer网络的行人重识别方法无法实现语义对齐的问题,本文提出了自动语义对齐的Transformer网络,其可以在线地、自动地在图像块级别定位行人局部语义并提取对应的局部特征。首先,本文最先提出了``局部令牌''的概念,其由可学习向量构成,在自注意力机制的计算过程中,一个局部令牌只和某个图像块子集进行交互而不是所有的图像块,因此可以为Transformer学习该图像块子集的局部特征表达。然后,为了实现自适应的图像块子集划分,本文设计了自动语义对齐的Transformer网络。具体地,AAformer将局部令牌看作局部语义的类别原型,并使用了一种快速的最优传输算法在线地将图像块分配到局部令牌上,以使包含相同语义的图像块聚集到同一个局部令牌中。最终,本方法和谐地将局部语义对齐过程整合到自注意力计算过程中。实验结果验证了局部令牌的有效性和本方法的性能优势。

 

4. 针对现有的自监督预训练方法无法为行人重识别任务提供细粒度局部语义特征的问题,本文提出了局部语义感知的行人重识别自监督预训练方法,其专注于行人重识别任务,可以通过预训练赋予模型自适应提取细粒度局部特征的能力。首先,本方法会将行人图片划分为若干个局部区域,然后从同一个局部区域裁剪出的局部视图会被分配同一个特定的局部令牌。{同时,从整张图像上裁剪出的全局视图则被分配所有的局部令牌}。本方法学习匹配从局部视图和全局视图输出的同一个局部令牌,换句话说,从局部视图中输出的局部令牌只需要学习匹配从全局视图中输出的那一个对应的局部令牌,而不是所有的局部令牌。作为结果,每一个局部令牌都可以专注到一个特定的局部区域并从该区域提取细粒度局部特征。实验结果表明经过本方法预训练过的模型可以在各大下游行人重识别任务上获得当前最好的性能。

 

本文针对行人重识别领域中最具挑战的语义不对齐问题,设计出了一系列基于自适应细粒度语义对齐的行人重识别方法,不断地提升了行人重识别模型的性能,并在一定范围内吸引了相关研究学者的关注。

语种中文
页码146
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/51926]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
朱宽. 基于自适应细粒度语义对齐的行人重识别研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace