基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 | |
阿力甫·阿不都克里木3; 李晓3 | |
刊名 | 计算机科学
![]() |
2016 | |
卷号 | 43期号:12页码:36-40 |
关键词 | 维吾尔语 文本分类 关键词提取 Textrank算法 互信息相似度 |
ISSN号 | 1002-137X |
DOI | 10.11896/j.issn.1002-137X.2016.12.006 |
英文摘要 | 针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。 |
CSCD记录号 | CSCD:5872190 |
内容类型 | 期刊论文 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/4990] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
作者单位 | 1.新疆多语种信息技术重点实验室 2.中国科学院大学 3.中国科学院新疆理化技术研究所 |
推荐引用方式 GB/T 7714 | 阿力甫·阿不都克里木,李晓. 基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类[J]. 计算机科学,2016,43(12):36-40. |
APA | 阿力甫·阿不都克里木,&李晓.(2016).基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类.计算机科学,43(12),36-40. |
MLA | 阿力甫·阿不都克里木,et al."基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类".计算机科学 43.12(2016):36-40. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论