题名大规模数据增量式处理关键技术研究
作者王颖
答辩日期2012-05-28
文献子类硕士
授予单位中国科学院研究生院
授予地点北京
导师廖华明
关键词增量式处理,流式处理,分块式处理,mapreduce,分布式存储
学位专业其它专业
英文摘要当前很多需要处理的大数据每天都在不断演变更新,总会有新的数据不断出现,加入现有的数据集合。因为部分数据增加或变化导致重新处理全部的数据,让之前所有的工作失去了意义,使得处理延迟与全量数据的大小成比例增长,而不是只与更新的大小相关,这种方式在大规模数据处理领域是很低效的。此外新数据的计算往往跟历史数据有着很大的关联,不能单独处理。因此针对大规模数据领域的增量式处理是很有意义的工作。 增量模型的核心思想是:缓存历史计算结果,新增数据计算过程中参考历史计算结果进而减少新增数据处理的计算量,将新增计算结果与历史数据融合,实现全量处理的效果。因此增量处理的核心就变成下面两个问题:第一, 如何缓存需要复用的历史数据;第二,新增数据计算过程中如何复用历史数据。 本文主要针对增量式数据分块处理模型进行研究,此模型融合了批量处理的思想与数据流处理思想,定期对一段时间内增加的数据进行批量处理。这样可以有效利用批处理计算模型较低的数据平均处理时间,适用于web搜索等领域需要持续处理增量数据的大规模数据处理应用场景。目前,增量式数据分块处理模型采用的技术路线主要是基于MapReduce[DG04]框架的扩展,使得批处理框架可以与带索引的外接存储交互从而实现数据增量式处理。增量式数据分块处理模型的具体实现通常根据自己的需求选择或者实现了不同的存储系统,也决定了各自的增量式处理作业只能在自己的增量式平台上运行。然而实际应用中,数据处理业务逻辑的不同,对存储有不同的需求,因此设计一个支持不同存储类型的通用增量式平台是很有意义的。此外当前大规模数据处理在随机读写方面的性能都难以同小规模数据情况相当,如何进行性能优化也是需要解决的关键问题。 针对上述问题,本文的工作主要包括以下几个方面: 1) 结合实际应用场景,从增量式处理角度,对算法进行分类,说明本文研究的增量式分块处理的适用领域,并对增量式处理的性能优势进行理论评估。 2) 设计通用的增量式分块处理框架,将用于缓存历史数据的存储系统作为MapReduce框架可配置的模块,实现MapReduce框架与历史数据存储系统的松耦合。 3) 针对MapReduce框架与分布式存储系统进行多对多交互的模式中的潜在问题,提出一种预分块存储分组处理的优化策略,提高增量处理中MapReduce与分布式存储系统交互的性能,并给出实现方案。实验测试发现此策略具有优越的性能。 4) 实现两种典型的应用场景的增量式计算,实验证明本文设计的增量式模型具有实用性,高效性,透明性,通用性。
语种中文
学科主题软件理论
公开日期2012-06-27
分类号海量数据处理,增量式,分布式
内容类型学位论文
源URL[http://ictir.ict.ac.cn/handle/311040/1424]  
专题中国科学院计算技术研究所学位论文_2012硕士
推荐引用方式
GB/T 7714
王颖. 大规模数据增量式处理关键技术研究[D]. 北京. 中国科学院研究生院. 2012.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace