基于聚类和索引技术的语言模型压缩方法
祁斌川 ; 杨端端 ; 丁建国
刊名计算机技术与发展
2012
期号12页码:25-28
ISSN号1673-629X
中文摘要由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。
收录类别CNKI
语种中文
公开日期2013-09-11
内容类型期刊论文
源URL[http://ir.sinap.ac.cn/handle/331007/12759]  
专题上海应用物理研究所_中科院上海应用物理研究所2011-2017年
推荐引用方式
GB/T 7714
祁斌川,杨端端,丁建国. 基于聚类和索引技术的语言模型压缩方法[J]. 计算机技术与发展,2012(12):25-28.
APA 祁斌川,杨端端,&丁建国.(2012).基于聚类和索引技术的语言模型压缩方法.计算机技术与发展(12),25-28.
MLA 祁斌川,et al."基于聚类和索引技术的语言模型压缩方法".计算机技术与发展 .12(2012):25-28.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace