一种新的特征词权值计算模型及其在文本分类中的应用

CORC > 北京大学 > 信息科学技术学院

	一种新的特征词权值计算模型及其在文本分类中的应用
	邓志鸿 ; 唐世渭 ; 谢昆青 ; 杨冬青 ; 张铭
	2003
关键词	类区分度文本分类 CDB-KNN 特征词权值计算信息检索
英文摘要	传统的特征词权值计算模型-TFIDF侧重于在整个训练文档集中考虑特征词权值的计算,而没有考虑特征词在不同类别中具备不同重要性的基本事实.针对这种情况,提出基于类区分度的特征词权值计算模型-TFCD.基于这种模型,在文档特征向量计算、相似度计算等方面对传统k-NN算法作必要修改的基础上,提出CDB-KNN算法.实验表明与基于TFIDF的k-NN相比,CDB-KNN具备更好的分类效果.这表明在文本分类中,TFCD比目前最常用的TF*IDF更适合计算特征词权值.; 0
语种	中文
内容类型	其他
源URL	[http://ir.pku.edu.cn/handle/20.500.11897/274304]
专题	信息科学技术学院
推荐引用方式 GB/T 7714	邓志鸿,唐世渭,谢昆青,等. 一种新的特征词权值计算模型及其在文本分类中的应用. 2003-01-01.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

暂无评论

评注功能仅针对注册用户开放，请您登录

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接