中文电子文档的数学公式定位研究; Research on Mathematical Formula Identification in Digital Chinese Documents | |
林晓燕 ; 高良才 ; 汤帜 | |
刊名 | 北京大学学报 自然科学版 |
2014 | |
关键词 | 数学公式识别 数学公式定位 电子文档 中文文档 mathematical formula recognition mathematical formula identification digital documents Chinese documents |
DOI | 10.13209/j.0479-8023.2014.009 |
英文摘要 | 区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法.设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段.实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域.此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估.; 国家重点基础研究发展计划; 国家自然科学基金; 中文核心期刊要目总览(PKU); 中国科技核心期刊(ISTIC); 中国科学引文数据库(CSCD); 0; 1; 17-24; 50 |
语种 | 中文 |
内容类型 | 期刊论文 |
源URL | [http://ir.pku.edu.cn/handle/20.500.11897/268640] |
专题 | 计算机科学技术研究所 |
推荐引用方式 GB/T 7714 | 林晓燕,高良才,汤帜. 中文电子文档的数学公式定位研究, Research on Mathematical Formula Identification in Digital Chinese Documents[J]. 北京大学学报 自然科学版,2014. |
APA | 林晓燕,高良才,&汤帜.(2014).中文电子文档的数学公式定位研究.北京大学学报 自然科学版. |
MLA | 林晓燕,et al."中文电子文档的数学公式定位研究".北京大学学报 自然科学版 (2014). |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论