汉语文本自适应压缩算法研究

CORC > 软件研究所 > 中科院软件所 > 中科院软件所

题名	汉语文本自适应压缩算法研究
作者	王忠效
学位类别	博士
答辩日期	2000
授予单位	中国科学院软件研究所
授予地点	中国科学院软件研究所
关键词	数据压缩文本压缩 Markov模型有限上下文模型算术编码词典编码统计编码
学位专业	计算机软件与理论
中文摘要	汉语文本压缩技术既可以减少汉语文本的存储空间和传输时间，又能够起到数据加密的作用，因此，可以广泛应用于数据通信、情报检索和电子出版等领域。研究汉语文本自适应压缩算法还是探讨汉语文本自适应模型的有效途径。汉语文本自适应模型是汉语分词、汉字识别、词性标注和文本自动校对等汉语自适应处理系统的重要基础。本文综述了数据压缩、尤其是文本压缩的研究与发展情况，并对汉语文本自适应压缩技术涉及到的若干重要问题进行了全面的研究。主要工作包括：1、鉴于符号结构方面的冗余特征是现代文本压缩技术实现数据压缩的主要着眼点，本文根据LZ77词典编码算法对英汉语文本的LZ短语的分布特征进行对比研究，明确了汉语文本压缩的研究方向：1）、汉语文本压缩算法目前应该是基于有限上下文模型的统计方法；2）、0阶上下文模型至关重要；3）、结合一部小型的静态词典进行词典编码，是提高编码效率的重要途径。2、从汉字大字符集的特点出发，本文提出了动态字母表、编辑距离和新符号加权区等相关概念，研究了动态字母表模型的基本性质，并据此提出汉语文本的动态字母表0阶模型的构造方法。该模型与算术编码相结合，其编码效率超过于基于LZ词典编码与动态Huffman编码的混合算法。3、由于汉字查找算法会严重影响各种自适应汉语自理系统的时间性能，本文提出了半自适应和自适应两种方式的汉字散列分组查找算法，其时间复杂度为O（1），有力地保护了汉语文本压缩算法的时间性能。4、为了提高对普通（短小）规模的汉语文本的编码效率，提出了根据静态词典进行词典编码预处理的汉语文本压缩技术，讨论了词典的构造方法，并实现了相应算法。5、以上述工作为基础，进一步建立汉语文本的高阶上下文模型算法WRPPMn，确定汉语文本有实际意义的最高阶上下文模型为1阶模型。同迄今汉语文本最优秀的压缩算法相比，无论对于短小的、还是巨大的汉语文本，WRPPM1的压缩性能都居于领先地位。此外，作为研究工作的一部分，我们建立了供测试汉语文本压缩算法用的汉语语料库CTCC98。它不仅规模大，涉及的文本广，而且主要收集普通规模的汉语文本。
语种	中文
公开日期	2011-03-17
页码	98
内容类型	学位论文
源URL	[http://ir.iscas.ac.cn/handle/311060/7222]
专题	软件研究所_中科院软件所_中科院软件所
推荐引用方式 GB/T 7714	王忠效. 汉语文本自适应压缩算法研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2000.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们