CORC  > 软件研究所  > 中科院软件所  > 中科院软件所
题名基于索引的压缩文本查找算法研究及其并行化实现
作者李开士
学位类别博士
答辩日期2007-06-11
授予单位中国科学院软件研究所
授予地点软件研究所
关键词压缩 自索引 FM-index 分块 并行
中文摘要摘要 压缩查询是近几年兴起的一种文本模式查找技术,它是通过查找压缩文本实现初始文本的查找。在最初的时候,压缩查询是在线的,也就是在压缩文本上直接执行模式子串的匹配操作。对于海量的文本,在线的压缩查询不能满足性能要求,于是将压缩和索引结合起来形成了压缩索引的文本查询。文本索引一般包含两种类型:单词索引和全文索引。单词索引只能检索文本中的单词,而全文索引可以检索任意字符串。自索引是一种完全的索引,它完全包含索引的文本数据。 FM-index是一种压缩的自索引结构,可以实现全文检索。FM-index在简单查询和索引空间占用方面达到了很好的性能,但是在建立索引时却要消耗很大的内存,并且很难处理复杂查询,于是我们提出了一种重叠分块的FM-index索引结构,并且使用MPI对重叠分块FM-index的建立和查询实现了并行化。我们通过实验发现重叠分块的FM-index很好的解决了建立时内存占用过多的问题,它占用的内存跟文本数据量大小没有关系,只跟分块大小有关;它相对于原来的FM-index在复杂查询方面性能也有所改进;同时它占用的存储空间跟原来FM-index的大致相等。重叠分块FM-index的并行化也取得了较好的加速比效率,具有较好的可扩展性。
语种中文
公开日期2011-03-17
页码60
内容类型学位论文
源URL[http://ir.iscas.ac.cn/handle/311060/6534]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
李开士. 基于索引的压缩文本查找算法研究及其并行化实现[D]. 软件研究所. 中国科学院软件研究所. 2007.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace