题名 | 基于Hadoop架构的大数据文本分析研究 |
作者 | SORBONI MUMIN |
答辩日期 | 2019 |
导师 | 郝晓弘 |
关键词 | 大数据 Hadoop MapReduce HDFS 文本分析 Hadoop集群 |
学位名称 | 硕士 |
英文摘要 | 我们正处于“大数据”时代,大数据的出现为处理海量数据带来了新的机遇和挑战。大数据在现代社会发挥了重要作用,为了从大量的数据中找到有用的信息,需要对数据进行分析。数据分析需要从文本、图像、视频或社交媒体帖子等出现在网络上的非结构化数据中获取信息。本文概述了大数据的优势和研究范围,介绍了 Hadoop架构及其组件中的大数据文本分析,还重点研究了大数据在数据挖掘中的应用。文本分析是工业分析中最复杂的数据分析之一。原因是在开发文本挖掘时需要处理非结构化数据(电子邮件、Facebook、Twitter和Linkedin提要),没有明确定义观察和变量(行和列)。因此,要进行任何类型的数据分析,都需要先将这个非结构化数据转换为结构化数据集,然后继续使用普通的建模框架。将非结构化数据转换为结构化格式的附加步骤由单词字典提供便利,需要一本字典来做任何类型的信息提取,情感分析词典可以在网上找到。然而,对于某些特定的分析,用户需要创建自己的字典。本文用Hadoop eco系统描述了文本分析的两个概念部分,以及具体的MapReduce。第一种方法是从2013年的tweets中收集一个大的文本文件(CSV文件)。这些tweets是使用DataSift流从Twitter的tweets中提取的一个小样本。信息流中的tweets被过滤,它们提到了苹果的产品,如iPhone、iPad、Apple Watch等。论文接下来对兰州理工大学的校区交通车数据进行了应用处理。本文的应用是通过对校兰工坪校区和彭家坪校区之间车辆运输自动确定系统的开发来实现。该应用程序可在iPhone和iPad设备的iOS平台上使用。该应用程序自动收集所有当前的GPS数据,为下一步校园巴士的研究提供了基础。将这个程序应用到Hadoop eco系统中,可以了解校园之间的交通堵塞和校车接送学生不足的时间。该应用程序还可以收集关于学生或乘客位置的实时信息,并可以确定最近的公交车站或校园。研究收集的大数据可以进一步的分析。本文解决了将文本数据处理转换为MapReduce作业来运行的主要问题。DataServices作业的errorlog只包含生成的Pig脚本提供的errorlog。它可能已经指出了问题的根源。另一方面,这里可能没有列出其他类型的问题。相反,用户需要检查Hadoop中关于Hadoop或MapReduce的日志文件。 |
语种 | 中文 |
页码 | 76 |
URL标识 | 查看原文 |
内容类型 | 学位论文 |
源URL | [http://ir.lut.edu.cn/handle/2XXMBERH/95546] ![]() |
专题 | 兰州理工大学 |
作者单位 | 兰州理工大学 |
推荐引用方式 GB/T 7714 | SORBONI MUMIN. 基于Hadoop架构的大数据文本分析研究[D]. 2019. |
个性服务 |
查看访问统计 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论