基于野点学习的中文网页分类系统

CORC > 北京大学 > 信息科学技术学院

	基于野点学习的中文网页分类系统
	罗定生 ; 王馨浩 ; 吴玺宏 ; 迟惠生
	2005
关键词	中文网页分类野点学习 AdaBoost算法网页信息处理机器学习
英文摘要	网页分类,作为网页信息处理的一个关键技术,是一个典型的机器学习任务.然而由于网页数据的多样性,使得该任务成为一类基于不完整数据学习问题.野点问题是导致网页数据不完整的主要原因之一.网页数据中的野点大致包括:无意义网页,错误标记的网页或者位于多类类别边界的网页,以及类别属性超出预定义类别标记集的网页等.这些存在于网页分类任务中的大量野点,严重影响了系统的分类性能.本文在引入AdaBoost算法的基础上,提出了一种野点剔除策略,并基于此实现了一个中文网页分类系统,实验结果不仅表明新系统具有较好的分类能力,也验证了野点学习的有效性.; 0
语种	中文
内容类型	其他
源URL	[http://ir.pku.edu.cn/handle/20.500.11897/24037]
专题	信息科学技术学院
推荐引用方式 GB/T 7714	罗定生,王馨浩,吴玺宏,等. 基于野点学习的中文网页分类系统. 2005-01-01.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

暂无评论

评注功能仅针对注册用户开放，请您登录

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接