- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop 的数据存储系统的分析和设计.doc
基于Hadoop 的数据存储系统的分析和设计
【摘要】随着科技的不断进步,在物联网、云计算、移动互联网等发展的推动下,数据发生了“大爆炸”,其规模呈几何级上升,“开采”大数据(Big Data)以挖掘其内部蕴藏的“富矿”成为研究焦点。Hadoop是一个用于构建云平台的Apache开源项目,使用Hadoop框架有利于我们方便、快速的实现计算机集群。Hadoop的框架最核心的设计就是:HDFS(分布式文件系统)和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。本文结合传统的数据挖掘系统提出了一个易扩展的高效的基于Hadoop的数据存储系统。
【关键词】数据挖掘,Hadoop
1引言
1.1 数据挖掘技术概述
数据挖掘出现于 20 世纪 80 年代后期,90 年代有了突飞猛进的发展,并在进入 21 世纪后继续繁荣。随着科技的不断进步,在物联网、云计算、移动互联网等发展的推动下,数据发生了“大爆炸”,其规模呈几何级上升。如何将这些海量的、复杂的数据转化成人类可理解的、有用的知识,从而指导我们的决策正成为目前面临的重要的问题。
如今,随着云计算的出现和发展,数据挖掘技术迎来了新的机遇和挑战。现在的基于云计算的并行数据挖掘与服务的模式。数据挖掘的算法可以分布在多个节点上,并且这些算法之间是并行的。在进行数据挖掘的过程中,我们需要的资源会实现按需分配,具有很大的伸缩性。在分布式计算模型下,使用的是云计算模式。算法的实现采用 MapReduce 的方式,从而实现并行的要求。
1.2 Hadoop 框架
Hadoop是一个开源的分布式系统基础架构,由 Apache 基金会开发。Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。
Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop平台包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。
2 Hadoop数据存储平台
2.1基本设计思想
我们的基本思想是:充分利用 Hadoop的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到Hadoop集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。系统采用MVC三层架构设计使结构更加清晰,系统易于扩展。在底层,使用 Hadoop来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。
在整个系统中,我们可以使用 HDFS 来存储文件和数据。HDFS 具有很高的数据吞吐量,并且很好的实现了容错机制。HDFS 提供了多种访问接口,包括 API以及各种操作命令。使用 HDFS,我们可以为原始的大数据集提供存储空间,对临时文件进行存储,为数据预处理、数据挖掘过程提供输入数据,同时输出数据我们也保存在 HDFS 中。系统整体架构如图1所示。
2.2系统结构模型
结合以上的基本设计思想以及典型的数据挖掘系统模型,采用分层的思想,自顶向下每层都透明的调用下层接口,最顶层为交互层,用于用户和系统之间的交互。最底层为分布式计算层,使用 HADOOP 来实现文件分布式存储和并行计算功能。使用分层,各层之间变得独立,易于系统的扩展。下面详细介绍我们得到的基于 HADOOP 的数据存储系统。如图2所示。
1、交互层
提供系统和用户之间的接口。通过提供具有良好表现形式的图形界面,使得用户可以登陆系统定制各种细粒度的业务,查看或者保存各种输出结果。
交互层具有的模块包括:
①用户管理模块:实现用户身份的识别以及相应权限的设置,同时也包括对用户登陆或者注销等常用的管理。
②业务展示模块:实现用户提交的各种业务,并对业务结果进行查看,分析和保存等功能。用来将系统的返回结果交付给用户。
2、业务应用层
提供了各种业务逻辑并实现了对各种业务流程的控制和调度。用户提交的业务在这一层被处理,控制和调度。
业务应用层具有的模块包括:
①用户
文档评论(0)