基于聚类和索引技术的语言模型压缩方法 | |
祁斌川 ; 杨端端 ; 丁建国 | |
刊名 | 计算机技术与发展
![]() |
2012 | |
期号 | 12页码:25-28 |
ISSN号 | 1673-629X |
中文摘要 | 由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。 |
收录类别 | CNKI |
语种 | 中文 |
公开日期 | 2013-09-11 |
内容类型 | 期刊论文 |
源URL | [http://ir.sinap.ac.cn/handle/331007/12759] ![]() |
专题 | 上海应用物理研究所_中科院上海应用物理研究所2011-2017年 |
推荐引用方式 GB/T 7714 | 祁斌川,杨端端,丁建国. 基于聚类和索引技术的语言模型压缩方法[J]. 计算机技术与发展,2012(12):25-28. |
APA | 祁斌川,杨端端,&丁建国.(2012).基于聚类和索引技术的语言模型压缩方法.计算机技术与发展(12),25-28. |
MLA | 祁斌川,et al."基于聚类和索引技术的语言模型压缩方法".计算机技术与发展 .12(2012):25-28. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论