一种新的特征词权值计算模型及其在文本分类中的应用 | |
邓志鸿 ; 唐世渭 ; 谢昆青 ; 杨冬青 ; 张铭 | |
2003 | |
关键词 | 类区分度 文本分类 CDB-KNN 特征词权值计算 信息检索 |
英文摘要 | 传统的特征词权值计算模型-TF*IDF侧重于在整个训练文档集中考虑特征词权值的计算,而没有考虑特征词在不同类别中具备不同重要性的基本事实.针对这种情况,提出基于类区分度的特征词权值计算模型-TF*CD.基于这种模型,在文档特征向量计算、相似度计算等方面对传统k-NN算法作必要修改的基础上,提出CDB-KNN算法.实验表明与基于TF*IDF的k-NN相比,CDB-KNN具备更好的分类效果.这表明在文本分类中,TF*CD比目前最常用的TF*IDF更适合计算特征词权值.; 0 |
语种 | 中文 |
内容类型 | 其他 |
源URL | [http://ir.pku.edu.cn/handle/20.500.11897/274304] |
专题 | 信息科学技术学院 |
推荐引用方式 GB/T 7714 | 邓志鸿,唐世渭,谢昆青,等. 一种新的特征词权值计算模型及其在文本分类中的应用. 2003-01-01. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论