题名 | 基于结构信息利用的人脸及人体形状和姿态估计 |
作者 | 张鸿文
|
答辩日期 | 2021-05
|
文献子类 | 博士
|
授予单位 | 中国科学院大学
|
授予地点 | 中国科学院自动化研究所
|
导师 | 孙哲南
|
关键词 | 形状和姿态估计
人脸关键点定位
人体模型重建
结构信息利用
|
学位名称 | 工学博士
|
学位专业 | 计算机应用技术
|
英文摘要 | 随着人工智能的兴起,以人为中心的形状和姿态估计算法的应用场景层出不穷,如智能家居、全息通信、辅助驾驶等。这些新兴的应用对形状和姿态估计算法的准确性和鲁棒性提出了新的要求。在这些以人为中心的感知和理解应用中,人脸和人体成为了备受关注的物体。然而,人脸和人体是极具可塑性的三维柔性物体,实际应用中存在的姿态变化、遮挡等因素也严重影响了算法的性能,在现实场景中的人脸和人体的形状和姿态估计至今仍是一个具有挑战性的课题。此外,人脸和人体同时也是极具结构性的可形变物体,有效利用其内在的结构信息对提高算法的鲁棒性、准确性和可解释性有着重大意义。为了提升现实场景下人脸及人体的形状和姿态估计性能,本文从形状和姿态的表示方式和结构信息利用两方面入手开展研究工作,并基于结构模型约束、对抗性结构先验学习、结构特征学习和对齐反馈等策略提出了几种形状和姿态估计算法。
本文取得的主要研究成果归纳如下:
1、基于结构模型约束的人脸关键点定位。
针对严重遮挡等复杂条件下人脸图像的关键点定位,本文提出一种基于数据及模型混合驱动的人脸关键点定位方法,目的在于充分利用数据驱动下深度网络的表达能力和模型驱动下点分布模型的推理能力。其中,深度网络充分提取人脸图片中的纹理信息,而点分布模型存储了形状结构信息。为使两者有机互补,本文提出一种加权约束均值漂移算法迭代地精调关键点位置。实验结果表明,所提出的方法能较好地应对人脸图片中因表情、姿态和遮挡引起的变化,极大地提高了关键点定位的鲁棒性。
2、基于对抗性语义结构先验的三维人脸关键点定位。
针对自然环境下的三维人脸关键点定位,本文提出一种用于表示三维关键点形状的语义型体素表达。相比于传统方式,这种体素表达既能有效降低表达的维数,同时也能保留关键点在体素表达中的语义信息,从而有效地辅助三维人脸关键点定位任务。在此基础上,本文提出联合体素和坐标回归框架进行统一的二维与三维人脸关键点定位,其端到端的训练方式使得定位结果更为精确。此外,本文还提出了伴随回归对抗学习策略,将三维标注数据库中的人脸几何结构迁移到现实场景的二维标注数据库中,从而进一步提升算法在现实场景下的三维人脸关键点形状估计性能。
3、基于稠密部件结构特征学习的三维人体模型重建。
为应对人体重建过程中高度非线性映射带来的挑战和解决旋转姿态表示方式带来的位置偏差问题,本文提出一种基于稠密部件信息聚合的三维人体模型重建方法。所提出的方法采用稠密部件关联图作为网络的中间表示,并在网络设计时针对形状及姿态估计的需要兼顾全局和细粒度信息的感知。为更好地利用人体各部件的结构先验知识,本文根据人体运动链设计图卷积模块对部件信息进行聚合,从而有效提升人体各部件位置和旋转姿态的重建精度。实验结果表明所提出的方法能有效应对现实场景中人体图像出现的遮挡,光照、背景变化等复杂情况。
4、基于结构特征对齐反馈的三维人体模型重建。
在人体模型重建中,微小的参数偏差也可能导致预测的网格模型的重投影和图像之间有明显的偏差。为了进一步解决这个问题,本文提出一种基于网格对齐特征反馈的深度回归网络,使得重建网络能够根据当前预测的网格模型与图像的对齐状态显式地修正人体模型参数。所提出的网络的核心是能够从高分辨率特征提取网格对齐特征作为闭环中的反馈信息,从而能够有效地校正偏离的人体部件位置。此外,文中还提出对高分辨率特征使用像素级的辅助监督,以增强空间结构特征的相关性和可靠性。实验结果表明,所提出的方法显著改善了重建的人体模型与图像的对齐效果。 |
语种 | 中文
|
页码 | 158
|
内容类型 | 学位论文
|
源URL | [http://ir.ia.ac.cn/handle/173211/44864] |
专题 | 自动化研究所_智能感知与计算研究中心
|
通讯作者 | 张鸿文 |
推荐引用方式 GB/T 7714 |
张鸿文. 基于结构信息利用的人脸及人体形状和姿态估计[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.
|
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论