CORC  > 北京大学  > 信息科学技术学院
一种新的特征词权值计算模型及其在文本分类中的应用
邓志鸿 ; 唐世渭 ; 谢昆青 ; 杨冬青 ; 张铭
2003
关键词类区分度 文本分类 CDB-KNN 特征词权值计算 信息检索
英文摘要传统的特征词权值计算模型-TF*IDF侧重于在整个训练文档集中考虑特征词权值的计算,而没有考虑特征词在不同类别中具备不同重要性的基本事实.针对这种情况,提出基于类区分度的特征词权值计算模型-TF*CD.基于这种模型,在文档特征向量计算、相似度计算等方面对传统k-NN算法作必要修改的基础上,提出CDB-KNN算法.实验表明与基于TF*IDF的k-NN相比,CDB-KNN具备更好的分类效果.这表明在文本分类中,TF*CD比目前最常用的TF*IDF更适合计算特征词权值.; 0
语种中文
内容类型其他
源URL[http://ir.pku.edu.cn/handle/20.500.11897/274304]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
邓志鸿,唐世渭,谢昆青,等. 一种新的特征词权值计算模型及其在文本分类中的应用. 2003-01-01.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace