云计算环境下大规模数据处理技术研究.docVIP

下载本文档

112
0
约2.18千字
约 5页
2017-02-19 发布于河北
举报
版权申诉

云计算环境下大规模数据处理技术研究.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

云计算环境下大规模数据处理技术研究

云计算环境下大规模数据处理技术研究　　随着计算机技术和互联网技术的发展和应用，网络信息和数据量正在高速增长。传统的并行计算、分布计算等方式由于各种限制，往往都难以满足实际的计算要求。基于此，采用基于云计算环境下的大规模数据处理技术，能够有效的打破这些限制，从而实现更加高效、快速的数据计算。　　1云计算环境下大数据处理模式　　1.1大规模廉价计算平台　　利用虛拟化技术，能够实现大规模廉价计算平台，将存储、应用程序、网络、计算等资源作为虛拟化实体。对闲散的计算资源进行抽象，使之形成相互之间完全独立的虛拟服务器实例，从而独立的完成数据处理和计算。通过这种方式，就能够实现底层硬件的虛拟化。构建可扩展计算节点资源池，并在其中实现集成管理虛拟计算流程和计算节点。这样，大规模数据子处理任务就能够完成实时迁移、资源转换、系统监控和任务部署。　　建设大规模计算平台的过程，也是云计算环境下大规模数据处理的一个重要步骤。具体来说，首先要对数据处理需要的资源进行参数化的配置，根据相应的要求进行定制。通过这一过程，用户能够获取自己需要的资源。在不同的操作模式下为用户提供参数服务。在设置参数完成定制之后，以此为基础，在大规模数据处理的时候，部署存储和计算资源，设定计算流程和数据处理方案。将相关参数设置信息在存储和计算资源的配置文件当中进行写入之后，以此对计算流程进行分配，从而在计算节点中启动相关的资源，并且管理和部署计算节点的定制处理服务。　　部署工具通过网络连接到目标计算节点和计算流程，然后执行大规模数据处理方案。然后根据相应的方案，通过代码对存储和计算资源进行分配和执行。将部署在计算节点进行进行启动，利用网络在各个计算节点发送数据处理命令，从而完成调度和部署计算流程的工作。　　1.2Map Reduce技术的支持　　采用Map Reduce分布式和并行式编程模型，从而在模型内部对任务容错处理、计算节点负载均衡、空间局部性优化、并行任务调度等方加以实现。在Map Reduce的开发过程中，只需对Map、Reduce两个接口进行定义，通过计算机集群，对用户编写程序进行运行，拆分大规模数据集合，使之形成若干数据片段，从而得到一系列键值对[4]。然后向一个Map任务中分配一个数据片段，在Map Reduce框架下，向大规模计算集群中的节点进行子任务的分配。最后，结合得到的键值对进行计算，生成键值对集合，向Reduce当中进行输出。　　Reduce当中每一个Reduce任务，都会向二元组集合当中进行分配，输入集合片段，运行Reduce函数，输出二元组键值对。如果数据处理任务失败，也能够自动重新进行计算。在大规模数据处理当中，是高度并行操作Map的，这一步骤对于大规模数据的高效处理来说，具有不可忽视的意义。基于云计算环境下，对规模数据信息大都能够达到TB级别或GB级别。在长时间处理大规模数据的时候，如果发生数据处理任务失败的情况，能够防止发生计算任务重新执行的情况。由于数据块是被复制的，因此在容错性方面，还会关系到负载均衡的情况。　　2云计算环境下大数据处理的框架模型　　在大规模数据资源和计算资源当中，对云计算技术、计算机网络技术进行引入，建立大规模数据处理框架模型。主要包含了两级结构，其一是虛拟资源体系、大规模廉价计算机集群，其二是大规模数据处理分析的处理监测管理体系、数据处理服务请求、以及相应的基础架构。利用限制的计算机资源，对虛拟资源层和物理设备进行构建，从而形成最底层的物理资源，形成同构的数据处理资源池或接近于同构的数据处理资源池。在第二级结构当中，最为重要的就是软件体系，能够为大规模数据处理提供服务。采用Hadoop核心技术，对数据处理接口进行编写。通过这种方式，在不同的学科和领域当中，能够提供相应的大规模数据处理服务，从而使用户能够享有良好的计算平台软件支持。　　在这一框架的设计与实现当中，对Hadoop分布式开源计算机框架进行了应用，对其中的HDFS分布式文件系统，以及Map Reduce进行应用，从而对大规模数据处理业务进行处理和协调。在计算节点当中，对放置在Map Reduce任务进行映射，对大规模数据进行划分，使之形成若干子块，并对数据块的数量、规格等参数加以掌握。通过HDFS功能，可以在每一个计算节点当中，对数据块副块进行智能的放置，同时针对各个节点，对具体的角色进行设计。在大规模数据处理的过程当中，需要利用Reduce函数、Map函数、以及相关的程序进行分布化处理。在Hadoop当中，为了对Map Reduce进行运行，提供了一个API进行支持。　　3结论 y 　　在当前信息化的时代背景当中，计算机和网络