CORC  > 北京大学  > 信息科学技术学院
MapReduce上基于抽样的数据划分最优化研究; Optimization Study on Sample Based Partition on MapReduce
韩蕾 ; 孙徐湛 ; 吴志川 ; 陈立军
刊名计算机研究与发展
2013
关键词抽样 MapReduce框架 数据倾斜 负载平衡 数据集划分 sampling MapReduce data skew load balance dataset division
英文摘要MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方法发挥最大程度的效益,研究了抽样效果与其重要影响因素之间的定量关系,并给出了相关理论及其证明推导,同时通过实验进一步验证了理论的正确性.基于研究的结果,可以在给定MapReduce环境中,通过分析数据特征,找到最优抽样样本规模,从而通过尽可能小的抽样代价来得到满足要求的数据划分.通过将研究成果应用在改进的Terasort算法上,以实例验证了其在MapRedece平台上的实际意义.; 中文核心期刊要目总览(PKU); 中国科技核心期刊(ISTIC); 中国科学引文数据库(CSCD); 0; z2; 77-84; 50
语种中文
内容类型期刊论文
源URL[http://ir.pku.edu.cn/handle/20.500.11897/235942]  
专题信息科学技术学院
推荐引用方式
GB/T 7714
韩蕾,孙徐湛,吴志川,等. MapReduce上基于抽样的数据划分最优化研究, Optimization Study on Sample Based Partition on MapReduce[J]. 计算机研究与发展,2013.
APA 韩蕾,孙徐湛,吴志川,&陈立军.(2013).MapReduce上基于抽样的数据划分最优化研究.计算机研究与发展.
MLA 韩蕾,et al."MapReduce上基于抽样的数据划分最优化研究".计算机研究与发展 (2013).
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace