基于多模态深度对比聚类的自监督视频行为识别研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 视频内容安全团队

题名	基于多模态深度对比聚类的自监督视频行为识别研究
作者	魏久桐
答辩日期	2022-05-20
文献子类	硕士
授予单位	中国科学院大学
授予地点	中国科学院自动化所
导师	罗冠
关键词	自监督学习，多模态内容理解，行为识别，深度聚类
学位专业	计算机应用技术
英文摘要	随着移动互联网及多媒体技术的发展，大量视频应用的兴起促使网络视频数量呈爆炸式增长。作为目前主流的信息传播方式，视频已广泛应用于数字媒体、科技教育、安防监控等诸多领域。然而，日益增长的视频数据在满足用户需求的同时，也为视频数据的组织、归类及应用带来了巨大挑战。现有基于监督或半监督的视频行为分类方法虽然获得了显著的性能提升，但通常需要基于大规模的高质量标签数据进行模型学习。因此，如何在无类别标签的视频数据中准确地获取有效信息、探索视频数据本质结构特性及类别分布，成为了计算机视觉和人工智能领域的热点研究课题之一。本文主要关注基于多模态特征学习的自监督视频行为识别问题，创新性地提出了基于深度聚类的对比学习框架。本文首先针对视频特征矩阵的特点，将对比学习分成实例对比和集群对比两种方式。针对视频中的背景偏差问题，在实例对比模块中设计了背景加噪的正样本增强方法；针对实例对比学习中的语义偏差问题，设计了更高层级的集群对比进行补充修正，最后将该框架应用于音视频融合的多模态领域。通过多种迁移实验，证明了所提出算法的有效性。具体来说，本文的主要工作和贡献如下： • 提出了一种背景加噪的数据增强方式，并将其应用于视频自监督框架中。视频数据中行为及其发生的场景，往往都具有很强的依赖性，在这种情况下，神经网络无需学习到复杂的时空语义信息，仅靠空间表观信息即可实现一定的分类准确率，这种背景偏差的问题会导致模型的泛化性不足。针对这一问题，本文借鉴图像领域中混合增强的思想，随机抽取训练视频中的一静态帧，并将其叠加到训练样本的每一帧上，由此得到正样本进行对比学习。叠加后的增强视频的表观信息发生了显著变化，但由于叠加的静态帧与训练样本的像素分布相似，增强操作并不会对光流信息造成过多影响，从而保证了增强样本的语义不会受到较大破坏，促使模型深度挖掘视频的深层时序语义信息。最后在行为识别和视频检索任务上验证了这种方式的有效性。 • 提出了一种针对视频的集群级对比学习方式。目前主流的视频实例对比学习设置负样本的方法大多是直接从不同的视频中采样，但这种采样往往会将实际语义相似的视频在特征空间中相互推远，造成语义混淆。针对这一问题，本文利用特征矩阵的列代表类别的特点，设计了一种集群级的对比损失函数。具体的，首先使用编码器将每个视频表示成一维行向量，组成二维的特征矩阵，然后利用特征矩阵的列向量进行对比学习。通过这种方式设置的负样本不再受限于不同的实例，而是以更高层级的集群级语义做对比，从而促使模型在不同的语义层级上对特征进行学习和修正。本文在两个公开数据行为识别数据库上进行了识别和检索的迁移实验，取得了与当前最新方法可比较的指标。 • 将集群级对比学习方法与音视频多模态数据相结合，提出了基于多模态深度聚类的自监督视频行为识别框架。在主流的多模态对比学习框架中，往往是将两种模态的数据映射到同一特征空间中进行对齐。但多模态数据在视频的语义层面是互补关系，而并非完全一致，多模态特征严格对齐往往破坏了多模态数据在特征空间中的流行分布。因此，本文将集群级对比学习应用于音视频的多模态对比学习。具体的，模型分别对音频输入和 RGB 输入提取特征，互相交叉进行集群对比学习。这种在集群上的多模态对比方式缓解了前述的对齐问题，同时又能挖掘多模态之间更深层次的信息，促进提高模型对视频语义表征的准确性和泛化性。为了验证所提方法的有效性，本文在两个公开视频行为识别数据库上进行了识别和检索的迁移实验，不仅超过了主流的多模态自监督方法，并且得到了很多极具价值的结论。
语种	中文
页码	60
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48694]
专题	自动化研究所_模式识别国家重点实验室_视频内容安全团队
推荐引用方式 GB/T 7714	魏久桐. 基于多模态深度对比聚类的自监督视频行为识别研究[D]. 中国科学院自动化所. 中国科学院大学. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们