题名基于多模态深度对比聚类的自监督视频行为识别研究
作者魏久桐
答辩日期2022-05-20
文献子类硕士
授予单位中国科学院大学
授予地点中国科学院自动化所
导师罗冠
关键词自监督学习,多模态内容理解,行为识别,深度聚类
学位专业计算机应用技术
英文摘要

       随着移动互联网及多媒体技术的发展,大量视频应用的兴起促使网络视频
数量呈爆炸式增长。作为目前主流的信息传播方式,视频已广泛应用于数字媒
体、科技教育、安防监控等诸多领域。然而,日益增长的视频数据在满足用户
需求的同时,也为视频数据的组织、归类及应用带来了巨大挑战。现有基于监
督或半监督的视频行为分类方法虽然获得了显著的性能提升,但通常需要基于
大规模的高质量标签数据进行模型学习。因此,如何在无类别标签的视频数据
中准确地获取有效信息、探索视频数据本质结构特性及类别分布,成为了计算
机视觉和人工智能领域的热点研究课题之一。
       本文主要关注基于多模态特征学习的自监督视频行为识别问题,创新性地
提出了基于深度聚类的对比学习框架。本文首先针对视频特征矩阵的特点,将
对比学习分成实例对比和集群对比两种方式。针对视频中的背景偏差问题,在
实例对比模块中设计了背景加噪的正样本增强方法;针对实例对比学习中的语
义偏差问题,设计了更高层级的集群对比进行补充修正,最后将该框架应用于
音视频融合的多模态领域。通过多种迁移实验,证明了所提出算法的有效性。
具体来说,本文的主要工作和贡献如下:
        • 提出了一种背景加噪的数据增强方式,并将其应用于视频自监督框架中。
视频数据中行为及其发生的场景,往往都具有很强的依赖性,在这种情况下,
神经网络无需学习到复杂的时空语义信息,仅靠空间表观信息即可实现一定的
分类准确率,这种背景偏差的问题会导致模型的泛化性不足。针对这一问题,
本文借鉴图像领域中混合增强的思想,随机抽取训练视频中的一静态帧,并将
其叠加到训练样本的每一帧上,由此得到正样本进行对比学习。叠加后的增强
视频的表观信息发生了显著变化,但由于叠加的静态帧与训练样本的像素分布
相似,增强操作并不会对光流信息造成过多影响,从而保证了增强样本的语义
不会受到较大破坏,促使模型深度挖掘视频的深层时序语义信息。最后在行为
识别和视频检索任务上验证了这种方式的有效性。
        • 提出了一种针对视频的集群级对比学习方式。目前主流的视频实例对比
学习设置负样本的方法大多是直接从不同的视频中采样,但这种采样往往会将实际语义相似的视频在特征空间中相互推远,造成语义混淆。针对这一问题,
本文利用特征矩阵的列代表类别的特点,设计了一种集群级的对比损失函数。
具体的,首先使用编码器将每个视频表示成一维行向量,组成二维的特征矩阵,
然后利用特征矩阵的列向量进行对比学习。通过这种方式设置的负样本不再受
限于不同的实例,而是以更高层级的集群级语义做对比,从而促使模型在不同
的语义层级上对特征进行学习和修正。本文在两个公开数据行为识别数据库上
进行了识别和检索的迁移实验,取得了与当前最新方法可比较的指标。
        • 将集群级对比学习方法与音视频多模态数据相结合,提出了基于多模态
深度聚类的自监督视频行为识别框架。在主流的多模态对比学习框架中,往往
是将两种模态的数据映射到同一特征空间中进行对齐。但多模态数据在视频的
语义层面是互补关系,而并非完全一致,多模态特征严格对齐往往破坏了多模
态数据在特征空间中的流行分布。因此,本文将集群级对比学习应用于音视频
的多模态对比学习。具体的,模型分别对音频输入和 RGB 输入提取特征,互相
交叉进行集群对比学习。这种在集群上的多模态对比方式缓解了前述的对齐问
题,同时又能挖掘多模态之间更深层次的信息,促进提高模型对视频语义表征
的准确性和泛化性。为了验证所提方法的有效性,本文在两个公开视频行为识
别数据库上进行了识别和检索的迁移实验,不仅超过了主流的多模态自监督方
法,并且得到了很多极具价值的结论。
 

语种中文
页码60
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/48694]  
专题自动化研究所_模式识别国家重点实验室_视频内容安全团队
推荐引用方式
GB/T 7714
魏久桐. 基于多模态深度对比聚类的自监督视频行为识别研究[D]. 中国科学院自动化所. 中国科学院大学. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace