基于文本密度模型的Web正文抽取
朱泽德1; 李淼2; 张健2; 陈雷2; 曾新华2
刊名模式识别与人工智能
2013
卷号026
关键词Web挖掘 正文抽取 文本密度 高斯平滑 最大子序列
ISSN号1003-6059
其他题名Web Content Extraction Based on Text Density Model
英文摘要为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
语种中文
CSCD记录号CSCD:4901889
内容类型期刊论文
源URL[http://ir.hfcas.ac.cn:8080/handle/334002/47133]  
专题中国科学院合肥物质科学研究院
作者单位1.中国科学技术大学自动化系
2.中国科学院合肥智能机械研究所
3.中国科学院合肥智能机械研究所
4.中国科学院合肥智能机械研究所
5.中国科学院合肥智能机械研究所
推荐引用方式
GB/T 7714
朱泽德,李淼,张健,等. 基于文本密度模型的Web正文抽取[J]. 模式识别与人工智能,2013,026.
APA 朱泽德,李淼,张健,陈雷,&曾新华.(2013).基于文本密度模型的Web正文抽取.模式识别与人工智能,026.
MLA 朱泽德,et al."基于文本密度模型的Web正文抽取".模式识别与人工智能 026(2013).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace