题名低质图像文本识别方法研究
作者许铭潮
答辩日期2020-12
文献子类硕士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师刘成林
关键词低质图像文本识别,超分辨率,空间变换网络,梯度剖面损失,对抗学习
学位名称工学硕士
学位专业计算机应用技术
英文摘要

文本识别(从图像中识别文字并转换为数字代码)具有广泛的应用需求。近 年来,随着深度学习的兴起和发展,文本识别算法在创新性、实用性和效率等方 面都有明显的提升。但是,这些识别算法大多是针对高质量的文本图片。在实际 应用中,光照不均匀,相机焦距差异、拍摄设备抖动等问题都会造成不同程度的 图像失真和模糊。这些低质图像会造成识别的精度损失,无法满足实际应用的需 求。因此,本文研究低质图像文本识别方法,主要利用超分辨率算法对低质文本 图像进行恢复,从而改善识别器的性能。主要工作内容分为以下两部分:

1. 面向文本识别对多种超分辨率算法进行了评价和改进。首先,在低质场 景文本图像数据集 TextZoom 中比较了 10 种前沿超分辨率算法的性能,并使用 三种识别算法(ASTER、MORAN、CRNN)来测试生成图像的识别精度。在此基 础上引入了空间变换网络和梯度剖面损失来提升各个超分辨率算法的生成效果。 其次,本文提出了一种低质文本图像生成优化算法。该算法基于识别器的反传梯 度指导生成器进行学习,从而改善识别效果,通过固定识别器参数以及引入识别 损失,进一步提升了识别器精度,有效地缓解了低质图像文本识别困难的问题。

2. 提出了一个基于超分辨率和生成对抗网络的文本识别框架——SRR-GAN。 该框架对传统的级联方案(图像超分和文本识别分步进行)进行了改进,在对抗 学习的框架下,将文本识别任务和超分任务集成起来。通过对识别模型和超分辨 率模型联合训练,该框架可以使神经网络在不同分辨率图片中学习到更通用的 特征,进而对不同分辨率图像都能保持较高的识别精度。

语种中文
页码74
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/43339]  
专题自动化研究所_模式识别国家重点实验室
推荐引用方式
GB/T 7714
许铭潮. 低质图像文本识别方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace