基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类

doi:10.11896/j.issn.1002-137X.2016.12.006

CORC > 新疆理化技术研究所 > 中国科学院新疆理化技术研究所 > 多语种信息技术研究室

	基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类
	阿力甫·阿不都克里木 3; 李晓 3
刊名	计算机科学
	2016
卷号	43 期号:12 页码:36-40
关键词	维吾尔语文本分类关键词提取 Textrank算法互信息相似度
ISSN号	1002-137X
DOI	10.11896/j.issn.1002-137X.2016.12.006
英文摘要	针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。
CSCD记录号	CSCD:5872190
内容类型	期刊论文
源URL	[http://ir.xjipc.cas.cn/handle/365002/4990]
专题	新疆理化技术研究所_多语种信息技术研究室
作者单位	1.新疆多语种信息技术重点实验室 2.中国科学院大学 3.中国科学院新疆理化技术研究所
推荐引用方式 GB/T 7714	阿力甫·阿不都克里木,李晓. 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J]. 计算机科学,2016,43(12):36-40.
APA	阿力甫·阿不都克里木,&李晓.(2016).基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.计算机科学,43(12),36-40.
MLA	阿力甫·阿不都克里木,et al."基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类".计算机科学 43.12(2016):36-40.