题名基于对抗机制的文本图像生成与变换方法研究
作者刘希岩
答辩日期2021-12
文献子类博士
授予单位中国科学院自动化研究所
授予地点自动化大厦13层第一会议室
导师潘春洪 ; 孟高峰
关键词文本图像几何变换 文本图像生成 对抗学习 生成模型 解耦表示
学位专业模式识别与智能系统
英文摘要

文本图像作为文化交流与传承的重要载体之一,它在我们的日常生活中扮演着重要角色。随着人工智能技术的不断发展,借助计算机实现自动地文本数字化、版面分析以及艺术创作等引起了人们越来越多的兴趣。作为计算机视觉领域的一项重要研究课题,基于文本图像的生成与变换一直备受关注。现实中,无论是文本图像的全局变换还是局部字符的风格迁移都具有广泛的应用需求,例如对扭曲的文本图像进行几何矫正有利于后续文本识别与理解,对字符的分析和生成会促进艺术创作等。虽然相关研究已经取得了一定进展,但是针对文本图像的生成与变换任务仍然面临着诸多挑战。首先,自然场景中文本图像的多样化内容以及复杂的几何形变严重限制了文档图像矫正的质量。另外,字体风格的多变性以及不同字体之间的拓扑差异也导致字符级的生成任务变得十分困难。本文针对上述挑战,以生成式对抗网络作为技术手段,考虑多粒度的文本图像内容,即文档图像、单字符、序列字符。进而对文档图像几何矫正,单字符字体生成以及序列字符生成等具体任务展开研究。本文取得的研究成果主要包含以下三项。

针对文档图像几何矫正问题,本文将其重定义为一个密集网格预测任务,并通过回归的训练方式使模型能够端到端的直接输出矫正网格。具体地,本文提出一个金字塔式编码器-解码器结构并以由粗糙到精细的方式预测多尺度网格。考虑到文档图像的结构性线索,比如文本行、文本块、表格线等这些对于矫正任务至关重要的信息在图像中是非均匀分布的,三类门控模块被提出用于指导模型更加关注这些有效信息并忽略干扰元素(例如大面积空白区域以及复杂的背景)。为了生成视觉感知更优的结果,对抗训练机制被用来训练模型并隐式地约束网格的估计。所提出的模型能够矫正多种扭曲形式的文档图像,且不受复杂页面排版以及杂乱背景环境的干扰。在开源数据集以及合成数据集上的实验表明,所提出的方法在OCR识别率以及几个常用的图像质量评价指标上均达到先进性能。

针对单字符字体生成任务,本文充分考虑字符图像生成时的风格一致性与内容准确性,提出一种基于解耦表示的字体生成方法。基于解耦机制,一个生成式模型FontGAN被提出,它将字体风格化、去风格化以及多字体变换纳入一个统一的框架下。具体地,字符图像被解耦为风格表示和内容表示,这提供了对这两种类型变量的细粒度控制,从而提高了生成结果的质量。为了有效地捕获风格信息,本文引入了风格一致性模块(SCM)。从技术上讲,SCM 利用类别指导的 Kullback-Leibler 散度将风格表示显示地建模为不同的先验分布。通过这种方式,所提出的模型能够在一个框架中实现多个域之间的转换。此外,本文还提出了内容先验模块(CPM)为模型提供内容先验,从而指导内容编码过程并缓解字体去风格化过程中笔画缺失的问题。得益于解耦和重组的思想,FontGAN 足以实现字形结构的多对多迁移任务。实验结果表明,所提出的 FontGAN 在字符字体生成方面达到了先进的性能。

针对序列字符生成任务,本文提出一个有效的生成模型HTG-GAN,它可以直接从潜在先验生成手写文本图像。与单字符字体合成不同的是,所提出的模型能够生成任意长度的序列字符,它更加关注相邻字符之间的结构关联性。具体地,本文将字符间的结构关系建模为风格表示从而避免对笔画布局进行显示地建模。技术上,文本图像首先被解耦为风格表示和内容表示,其中风格表示被映射到高斯分布,而内容表示直接用字符索引编码。通过这种方式,所提出的模型能够生成具有指定文本内容的且风格多样化的新图像。进而将其用于数据增广,可提升手写文本识别(HTR)性能。实验结果证明所提出的方法在手写文本生成领域优于其他方法。

语种中文
页码120
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/46644]  
专题自动化研究所_模式识别国家重点实验室_遥感图像处理团队
通讯作者刘希岩
推荐引用方式
GB/T 7714
刘希岩. 基于对抗机制的文本图像生成与变换方法研究[D]. 自动化大厦13层第一会议室. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace