CORC  > 清华大学
半结构化文档中非标记化表格的抽取
宋强 ; 徐鹏 ; 李涓子 ; SONG Qiang ; XU Peng ; LI Juanzi
2010-06-09 ; 2010-06-09
关键词非标记化表格 信息抽取 分层聚类 Untagged table Information extraction Hierarchical clustering TP311.11
其他题名Untagged Table Extraction in Semi-structured Documents
中文摘要对非标记化表格进行数据建模,利用非标记化表格在文档中的结构分布特征,给出了非标记化表格的抽取算法。对非标记化表格进行行列划分,然后进行标题归纳和单元格合并。实验结果表明,论文提出的算法的正确性令人满意。; Based on the data modeling of the untagged table,this paper proposes an extraction algorithm by using its structural distribution features in documents.It splits the untagged table into rows and columns,and then inducts headers and merges cells.Experimental results indicate that the accuracy of the algorithm is satisfactory.
语种中文 ; 中文
内容类型期刊论文
源URL[http://hdl.handle.net/123456789/55086]  
专题清华大学
推荐引用方式
GB/T 7714
宋强,徐鹏,李涓子,等. 半结构化文档中非标记化表格的抽取[J],2010, 2010.
APA 宋强,徐鹏,李涓子,SONG Qiang,XU Peng,&LI Juanzi.(2010).半结构化文档中非标记化表格的抽取..
MLA 宋强,et al."半结构化文档中非标记化表格的抽取".(2010).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace