基于文本密度模型的Web正文抽取

	基于文本密度模型的Web正文抽取
	朱泽德 1; 李淼 2; 张健 2; 陈雷 2; 曾新华 2
刊名	模式识别与人工智能
	2013
卷号	026
关键词	Web挖掘正文抽取文本密度高斯平滑最大子序列
ISSN号	1003-6059
其他题名	Web Content Extraction Based on Text Density Model
英文摘要	为从大量无关信息中获取有用内容，正文抽取成为Web数据应用不可或缺的组成部分．文中提出一种基于文本密度模型的新闻网页正文抽取方法．主要通过融合网页结构和语言特征的统计模型，将网页文档按文本行转化成正、负密度序列，再根据邻近行的内容连续性，利用高斯平滑技术修正文本密度序列，最后采用改进的最大子序列分割序列抽取正文内容．该方法保持正文完整性并排除噪声干扰，且无需人工干预或反复训练．实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性，且准确率和召回率优于现有统计模型．
语种	中文
CSCD记录号	CSCD:4901889
内容类型	期刊论文
源URL	[http://ir.hfcas.ac.cn:8080/handle/334002/47133]
专题	中国科学院合肥物质科学研究院
作者单位	1.中国科学技术大学自动化系 2.中国科学院合肥智能机械研究所 3.中国科学院合肥智能机械研究所 4.中国科学院合肥智能机械研究所 5.中国科学院合肥智能机械研究所
推荐引用方式 GB/T 7714	朱泽德,李淼,张健,等. 基于文本密度模型的Web正文抽取[J]. 模式识别与人工智能,2013,026.
APA	朱泽德,李淼,张健,陈雷,&曾新华.(2013).基于文本密度模型的Web正文抽取.模式识别与人工智能,026.
MLA	朱泽德,et al."基于文本密度模型的Web正文抽取".模式识别与人工智能 026(2013).