CORC  > 北京大学  > 信息科学技术学院
COMMIX-Classifier-自动网页分类系统
李立宇 ; 唐世渭 ; 杨冬青 ; 叶恒强 ; 王腾蛟
2002
关键词网页分类 自动分类系统 特征削减方法
英文摘要因特网及其应用技术的迅猛发展,产生了海量的Web信息.人们普遍感到虽然可以得到海量的数据,但是却很难得到有用的信息和知识.网页自动分类是一种行之有效的解决方法,如果能够将网页分类,然后按内容进行提取、封装,然后人们在自己喜欢的类别中寻找信息,这样就可以大大节约查找的时间. COMMIX(Web环境下的信息集成、分析处理和服务系统)是“面向内容的海量信息集成、分析处理与服务”课题的原型系统。在COMMIX系统中我们可以为用户封装需要的网页,以用户预先选择的格式如 XML等方式输出。在这个处理过程中,需要对网页进行自动分类。在本文中利用机器学习的方法来进行文本分类,针对大规模文本分类的特征项选取的问题,本文详细介绍了COMMIX-Classifi-er文本分类的特征提取,特征项的削减,并在最后给出试验结果。; 0
语种中文
内容类型其他
源URL[http://ir.pku.edu.cn/handle/20.500.11897/272770]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
李立宇,唐世渭,杨冬青,等. COMMIX-Classifier-自动网页分类系统. 2002-01-01.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace