不规则场景文本的端到端检测与识别研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	不规则场景文本的端到端检测与识别研究
作者	徐珊波
答辩日期	2022-05-19
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	彭思龙
关键词	不规则场景文本环形文本端到端检测与识别自动校正
学位名称	工学硕士
学位专业	模式识别与智能系统
英文摘要	随着具备拍照功能的智能电子设备的广泛应用，大量的蕴含文本的自然场景图像被拍摄存储并用于信息传递。准确地提取场景图像中的高层文本信息能有效辅助图像内容理解，并在图像检索、智能交通、增强现实等领域发挥日渐显著的作用。与扫描文档图像相比，场景图像中的不规则文本具有更多样的形状变化，这对场景文本的端到端识别任务造成了挑战。本文围绕不规则场景文本的端到端识别问题展开研究，主要工作和创新点归纳如下：（1）针对通用不规则场景文本，本文提出了基于角点与字符辅助的文本端到端识别模型。该模型结合了基于坐标回归和实例分割的端到端识别方法的优势，以少量的计算代价学习了文本角点热力图和字符位置热力图。其中，文本角点热力图将用于矫正由回归法所预测得到的不准确的文本角点坐标，字符位置热力图则用于增强字符中心特征以辅助文本识别。在两个基准数据集上的检测和识别结果证明了该模型的有效性。（2）针对圆环文本难以刻画轮廓和难以进行特征矫正的问题，本文提出了基于圆弧对齐的环形文本端到端识别模型。该模型的检测模块负责定位圆弧边界的控制点（起点、中点和终点），并用这些点对文本边界进行描述。圆弧采样结构将圆弧形的文本特征对齐为规则矩形特征以送入识别模块，并由此实现了检测模块和识别模块的端到端训练。在本文所提出的英文硬币数据集上的实验证明，该模型保留了圆环文本的空间信息，在检测和识别指标中均取得当前最优结果。（3）针对圆环文本检测和识别中的不一致性问题，本文提出了自动校正的环形文本端到端识别模型。为充分利用识别分支对检测分支的梯度反向传播作用，本模型提出将原先的圆弧采样点替换为可微的圆弧采样点生成器，从而允许识别结果对检测结果进行自动校正。为了缓解识别分支的输入特征在训练与测试阶段的不一致性问题，本模型在训练时依相同概率选取真实文本坐标和预测文本坐标进行特征采样。实验表明，自动校正方法使本模型在检测和识别性能上获得明显提升，并在各指标上均远超其他先进方法。
语种	中文
学科主题	模式识别
页码	100
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48497]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	徐珊波. 不规则场景文本的端到端检测与识别研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们