大数据下电子商务系统的MapReduce架构设计.docVIP

大数据下电子商务系统的MapReduce架构设计.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据下电子商务系统的MapReduce架构设计.doc

大数据下电子商务系统的MapReduce架构设计   摘要:面对大规模数据量的快速响应和处理,尤其是以Web网页和数据有哪些信誉好的足球投注网站为主的当下电子商务等互联网应用的瓶颈,引入MapReduce计算模型改变对大数据的处理方式,是目前较为有效的解决方法。分析研究MapReduce计算模型的特点,进一步拓展MapReduce计算模型,改进大规模数据处理,为高效提升互联网应用奠定良好的大数据基础。   关键词:大数据;电子商务系统;数据有哪些信誉好的足球投注网站;MapReduce计算模型;互联网应用   DOIDOI:10.11907/rjdk.161981   中图分类号:TP319   文献标识码:A文章编号2016)010008203   0引言   随着云计算、物联网、社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长,而数据的存储单位也由MB、GB到TB。如此大规模的数据量已经无法在允许的时间内用常规的软件工具对其内容进行管理、分析和处理。对于大数据的概念,一般来讲,比较认可的大数据概念主要包括如下内容:大数据中的数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合;大数据中的数据应包含那些由于迅速增长使得无法通过现有的数据库管理工具进行管理的大规模数据集;大数据中的数据是在数据文件最小单位为MB甚至超过MB的范围,一个文件是以TB为单位并且超越当前在线存储系统和处理系统能力的数据量。综上所述,大数据是来源于交易数据、交互数据及传感数据的海量数据集合,其中大部分是非结构化数据,其规模和复杂度都超越现有常用技术能够处理的能力范围。在电子商务领域要还需更多考虑高时效、并行的数据处理,以解决快节奏时代客户需要的无等待浏览、有哪些信誉好的足球投注网站和订购等操作,能采用低廉的硬件设备和开源代码等方式,降低投入到电子商务业务所需的经济成本,以提升企业竞争力和电子商务业务的持续发展。   1大规模分布式数据文件系统及数据处理模式   当前大多采用大规模分布式大数据文件系统来对大数据进行处理,而硬件则是计算机集群,其计算节点由普通计算机设备构成,系统是由成千上万的这些节点组成,节点之间或多或少地相互独立,这与采用专用的并行硬件的并行计算机相比,极大地降低了硬件成本开销,但节点的规模巨大,可靠性尤显突出,更加需要在系统中优先考虑。而软件系统采用支持MapReduce计算模型为核心的大规模分布式文件系统,MapReduce计算模型能高效、快速地处理大规模数据,尤其是在电子商务上。因而,MapReduce计算模型正在高速发展,并不断扩展。传统的数据库都是先有模式,然后才会产生数据,而大数据时代很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。大数据的应用类型有很多,主要的处理模式可以分为流处理和批处理两种。批处理是先存储后处理,而流处理则是直接处理。Google公司提出的MapReduce编程模型是最具代表性的批处理模式。一个完整的MapReduce计算模型过程如图1所示。   MapReduce计算模型首先将用户的原始数据源进行分块,然后分别交给不同的 Map任务区进行处理。Map任务从输入中解析出链―值(KeyValue)对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同 Key值的组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。从MapReduce计算模型的处理过程可以看出,MapReduce计算模型的核心设计思想在于:①将问题分而治之;②把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。MapReduce计算模型简单,且现实中很多问题都可用MapReduce计算模型来表示[1]。电子商务企业根据处理时间的要求将自己的业务划分为在线、近线和离线。其中在线的处理时间一般在秒级甚至是毫秒级,因此通常采用流处理方式。离线的处理时间可以天为基本单位,基本采用批处理方式,这种方式可以最大限度地利用系统I/O。近线的处理时间一般在分钟级或者是小时级,对其处理模型并没有特别要求,可以根据需求灵活选择,在实际中多采用批处理模式[2]。   2MapReduce计算模型与其它模型的区别   MapReduce计算模型与其它模型的区别主要体现在如下方面:   (1)对象之间的差异。SQL语言针对的是结构化数据,MapReducee计算模型针对的是结构化、半结构化、非结构化的数据。SQL语言针对的是关系型数据库中的数据,而MapReduce计算模型针对的是数据

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档