基于文本密度模型的Web正文抽取 | |
朱泽德1; 李淼2; 张健2; 陈雷2; 曾新华2 | |
刊名 | 模式识别与人工智能 |
2013 | |
卷号 | 026 |
关键词 | Web挖掘 正文抽取 文本密度 高斯平滑 最大子序列 |
ISSN号 | 1003-6059 |
其他题名 | Web Content Extraction Based on Text Density Model |
英文摘要 | 为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型. |
语种 | 中文 |
CSCD记录号 | CSCD:4901889 |
内容类型 | 期刊论文 |
源URL | [http://ir.hfcas.ac.cn:8080/handle/334002/47133] |
专题 | 中国科学院合肥物质科学研究院 |
作者单位 | 1.中国科学技术大学自动化系 2.中国科学院合肥智能机械研究所 3.中国科学院合肥智能机械研究所 4.中国科学院合肥智能机械研究所 5.中国科学院合肥智能机械研究所 |
推荐引用方式 GB/T 7714 | 朱泽德,李淼,张健,等. 基于文本密度模型的Web正文抽取[J]. 模式识别与人工智能,2013,026. |
APA | 朱泽德,李淼,张健,陈雷,&曾新华.(2013).基于文本密度模型的Web正文抽取.模式识别与人工智能,026. |
MLA | 朱泽德,et al."基于文本密度模型的Web正文抽取".模式识别与人工智能 026(2013). |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论