- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Greenplum-MapReduce-白皮书-2010
介绍 在2004年,Google发表了一篇关于MapReduce框架的研究文章,该框架是Google为满足其内部处理需求而开发的。该文用简单、通俗的方式介绍了Google开发人员如何利用大量并行计算机集群来分析采集的有史以来规模最大的一些数据集。自该文发表以来,人们一直在讨论该技术在Google公司之外所能发挥的作用。在计算机行业内很快掀起了对MapReduce的热潮,尤其是新成立的公司和前沿公司。不过,关于如何将该技术用于更大的信息技术生态系统,尤其是像海量并行SQL数据库引擎等其它“大规模数据”解决方案,尚有很多困惑和争论。 在本白皮书中,我们针对上述讨论话题介绍了相关的技术环境。简单来说,我们将SQL和MapReduce作为两种不同的编程范式,两者通过一个通用引擎的体系架构(并行数据流)来实现。从这个角度来看,MapReduce可以视为传统数据并行计算的一个新编程接口。 在介绍了上述环境信息之后,我们将介绍Greenplum MapReduce:它通过无缝方式将MapReduce和相关数据库功能集成在一个合理并行数据流引擎中。我们将说明Greenplum通过何种方式实现MapReduce程序和SQL的互操作,高效灵活地处理标准文件和数据库表中的数据。 历史:三次变革 为了弄清楚如何通过Greenplums实现MapReduce,可以首先了解一下大型数据管理技术所经历的三次历史变革:关系数据库变革、无共享并行体系结构的出现、以及MapReduce并行编程范式的流行。 RDBMS和MapReduce的通用平台 本白皮书的内容 ? 介绍 ? 历史:三次变革 ?公共技术基础:并行数据流 ? Greenplum MapReduce介绍 ? 结论 ? 参考文件 通过全新的方式对数千万亿字节(PB)级的数据进行编程、查询和分析 第2页 关系数据库变革(七十年代至今) 关系数据库系统(RDBMSs)理念在刚出现的时候就具有强烈的震撼力,它们改变了企业管理业务记录的方式。在研究领域,关系技术的诞生也有详实的文献记载。1970年,IBM的研究员Ted Codd发表了他的第一篇关于数据关系模型的文章[Codd70],其中提出通过行列表的形式来表示数据,并通过高级描述性语言来查询数据,这为现在的SQL奠定了基础。大约在5年之后,Jim Gray及其IBM研究部门的同事提出通过ACID交易模式来确保数据库并发更新的正确性[Gray78]。Codd和Gray都因其工作而获得了图灵奖(“计算机界的诺贝尔奖”)。到七十年代中期,IBM和加州大学伯克利分校的研究人员一直致力于两种重要的原型系统(System R和 Ingres)的研究工作,他们的工作催生了当代关系数据库行业。这两个系统都开发了查询优化器技术,可以编译说明性查询语言并将结果传递给一个数据流处理引擎,该引擎对数据流进行过滤、索引扫描、连接、分组汇总和聚合等处理。 关系数据库在30年后仍然能够满足现代记录保存需求,这当然是有原因的。现代的ACID的先进实施技术可以保证对数据存储进行可靠、一致的管理。描述性的SQL保证了通过随机查询进行数据分析,确保了以数据为中心的应用程序, 并随着数据不断增长和数据库硬件在不断发展,始终能够正确工作。除此之外,关系模型具有简单优美的形式,可以长期为数据库设计提供合理的基础。 “完全无共享”并行体系结构(八十年代至今) 随着关系数据库在八十年代逐步走向商用,人们开始通过定制硬件(当时称为“数据库机器”)来加速改进数据库性能。不过,很快人们就发现:在规模经济下,商用硬件比定制方案更有市场:必威体育精装版版本的商用计算机总是比此前的定制机器性价比更高,这削弱了定制方案在性能方面的优势。因此,在该领域探索的研究人员以及企业家看来,前期在数据库机器方面所做的努力是不成功的。 关系数据库变革 ? 关系数据库模型 - 简单、通用的表抽象 - 鼓励规范的数据库设计方案,以达到长期可重复使用 ? ACID交易 - 一次交易的所有更新信息都会被一起写入到稳定的存储介质,或者回滚 - 即使是有并发更新,也可以确保数据库和查询结果的一致性 ? 说明性语言(SQL) - 高级查询规定了要获取“哪些”数据,而不是“如何”获取 - 可以在不更改应用程序的情况下改变硬件和磁盘布局(“数据独立性”) - 查询优化器将说明性SQL翻译成数据流执行图 ?数据流处理引擎 - 高效处理大量数据集 - 数据从磁盘流出,按序通过一些列操作项 三第3页 从数据库机器研究的灰烬中,产生了一个新的思路:数据库软件可以充分利用以网络互连的多个商用处理器的处理能力进行并行计算,从而提高系统的可扩展性和性能。在开发定制数据库机器之路宣告失败之后,人们对使用多台商用计算机创建并行数据库的兴趣倍增,这些计算机集群被冠以“完全
有哪些信誉好的足球投注网站
文档评论(0)