题名 | 大规模古藉电子化关键技术及实现 |
作者 | 王晓波 |
学位类别 | 博士 |
答辩日期 | 2000 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 中国科学院软件研究所 |
关键词 | 古籍电子化 XML标准 软件环境 |
学位专业 | 计算机应用技术 |
中文摘要 | 本文在总结作者亲自参与的《文渊阁四库全书》电子版的基础上,探讨了大规模古籍电子化的关键技术及实现。本文探讨了OCR相关的前后处理技术,使OCR真正实际应用于大规模古籍电子化的工程上。根据特征提取的概念,舍弃图像上的细枝末节,构造了一个自上而下的版面分析系统,并开发了OCR后处理的一系列校对工具。使《四库全书》电子化的错误率见到万分之一以下,达到了重点出版物的出版标准。为衡量OCR的准确度,文中提出了一个在工程中行之有效的独特方法来衡量OCR的可信度,这在工程及理论上都有意义。文中探讨了UNICODE在大规模古籍电子化的实现技术:显示、全文检索及跨平台等技术实现。为实现在Internet上享用古藉电子化,文中结合XML标准,构造了一个古籍电子化的软件环境。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 68 |
内容类型 | 学位论文 |
源URL | [http://ir.iscas.ac.cn/handle/311060/5792] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 王晓波. 大规模古藉电子化关键技术及实现[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2000. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论