基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类
阿力甫·阿不都克里木3; 李晓3
刊名计算机科学
2016
卷号43期号:12页码:36-40
关键词维吾尔语 文本分类 关键词提取 Textrank算法 互信息相似度
ISSN号1002-137X
DOI10.11896/j.issn.1002-137X.2016.12.006
英文摘要

针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。

CSCD记录号CSCD:5872190
内容类型期刊论文
源URL[http://ir.xjipc.cas.cn/handle/365002/4990]  
专题新疆理化技术研究所_多语种信息技术研究室
作者单位1.新疆多语种信息技术重点实验室
2.中国科学院大学
3.中国科学院新疆理化技术研究所
推荐引用方式
GB/T 7714
阿力甫·阿不都克里木,李晓. 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J]. 计算机科学,2016,43(12):36-40.
APA 阿力甫·阿不都克里木,&李晓.(2016).基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.计算机科学,43(12),36-40.
MLA 阿力甫·阿不都克里木,et al."基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类".计算机科学 43.12(2016):36-40.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace