题名基于Hadoop平台对交易记录的数据分析系统的设计与实现
作者韩岩
答辩日期2015-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词云计算 Mysql Hadoop Mongodb Mahout K-means 海量数据
学位名称硕士
学位专业计算机应用技术
英文摘要

随着大数据时代的到来,人们的生活方式和消费习惯也发生重大变化,网上购物以其方便与廉价的特点受到越来越多人的青睐。越来越多的商家不仅有自己的实体店而且开设了电子商务网站。随着电子商务网站巨大的访问量和庞大的交易额,电子商务网站将产生海量的交易记录需要存储与分析,而传统关系数据库对大数据的处理能力正面临严峻的挑战。为了解决所出现的挑战,云计算技术在如今数据急剧膨胀的时代应运而生。Hadoop 是一个对大数据进行分布式处理的云计算框架具体实现,它可以使用户在不了解分布式系统底层细节的情况下,开发分布式程序对大数据进行处理。Hadoop 现在已经成为企业界和学术界研究的热点。本文主要研究内容是基于Hadoop 平台的海量交易记录分析系统中的数据存储与算法优化。首先,对Hadoop 及其相关技术的研究,主要包括Hadoop 系统中的HDFS 和MapReduce 的研究,以及Mahout 中算法的并行化实现。其次,关系数据库、非关系型数据库与Hadoop 存储的效率对比,为存储不同类型海量数据提出一种解决方案。然后,将基于Mahout 优化聚类中心的K-means 算法与Mahout 中的K-means 算法对比,缩短了聚类的时间,提高了聚类的效率。最后,对基于Hadoop 平台的海量交易记录分析系统进行了设计和实现。这个交易记录是用户使用手机刷卡所产生的消费信息。根据用户需求实现其功能,例如:分析优质客户、用户销售量统计与分析、地域性分析与推荐等。本文将新的存储方案与改进的算法应用于该系统中,并验证了系统的可行性和正确性。

公开日期2015-06-15
内容类型学位论文
源URL[http://ir.xjipc.cas.cn/handle/365002/4229]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
韩岩. 基于Hadoop平台对交易记录的数据分析系统的设计与实现[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2015.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace