基于聚类和索引技术的语言模型压缩方法

	基于聚类和索引技术的语言模型压缩方法
	祁斌川 ; 杨端端 ; 丁建国
刊名	计算机技术与发展
	2012
期号	12 页码:25-28
ISSN号	1673-629X
中文摘要	由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。
收录类别	CNKI
语种	中文
公开日期	2013-09-11
内容类型	期刊论文
源URL	[http://ir.sinap.ac.cn/handle/331007/12759]
专题	上海应用物理研究所_中科院上海应用物理研究所2011-2017年
推荐引用方式 GB/T 7714	祁斌川,杨端端,丁建国. 基于聚类和索引技术的语言模型压缩方法[J]. 计算机技术与发展,2012(12):25-28.
APA	祁斌川,杨端端,&丁建国.(2012).基于聚类和索引技术的语言模型压缩方法.计算机技术与发展(12),25-28.
MLA	祁斌川,et al."基于聚类和索引技术的语言模型压缩方法".计算机技术与发展 .12(2012):25-28.