CORC  > 清华大学
印刷体汉字识别后处理方法的研究
张宏涛 ; 龙翀 ; 朱小燕 ; 孙俊 ; ZHANG Hongtao ; LONG Chong ; ZHU Xiaoyan ; SUN Jun
2010-06-09 ; 2010-06-09
关键词计算机应用 中文信息处理 汉字识别 OCR 语言模型 后处理 computer application Chinese information processing Chinese character recognition OCR language model post-processing TP391.4
其他题名Post-Processing Approach for Printed Chinese Character Recognition
中文摘要高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。; In Chinese OCR post-processing,the high-order Chinese n-gram language models,such as word based tri-gram and four-gram is still a challenging issue because of the data sparseness issue and large memory cost led by big model size.In this paper,we focus on the post-processing of printed Chinese character recognition and propose a byte-based language model.By choosing byte as the representing unit of language model,we achieve a remarkable reduction of model size which overcomes the sparseness problem to a great extent.The experimental results show that the new language model based on byte works very well with higher performance and lowest time and space costs.For the test set with segmentation errors,the recognition accuracy increases from 88.67% to 98.32%,which means 85.18% error reduction.Compared with the system using traditional word based tri-gram,the new system saves 95% time cost and nearly 98% memory cost at almost no cost in the accuracy performance.; 富士通研究开发中心OCR后处理方法研究资助项目
语种中文 ; 中文
内容类型期刊论文
源URL[http://hdl.handle.net/123456789/56139]  
专题清华大学
推荐引用方式
GB/T 7714
张宏涛,龙翀,朱小燕,等. 印刷体汉字识别后处理方法的研究[J],2010, 2010.
APA 张宏涛.,龙翀.,朱小燕.,孙俊.,ZHANG Hongtao.,...&SUN Jun.(2010).印刷体汉字识别后处理方法的研究..
MLA 张宏涛,et al."印刷体汉字识别后处理方法的研究".(2010).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace