HBase:一种新型易扩展的大数据存储架构.docVIP

HBase:一种新型易扩展的大数据存储架构.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
 HBase:一种新型易扩展的大数据存储架构 丁海杰* (北京邮电大学网络与交换技术国家重点实验室,北京 100876) 5 10 15 20 25 30 35 40 摘要:本文简要介绍了云计算开源系统 Hadoop 在解决大数据存储和分析的作用,而企业使 用传统的关系型数据库系统在解决大数据存储时遇到了很多问题。设计者应该重新思考技术 方案,在设计应用系统整体架构时,应该考虑未来数据规模的增长,如果规模可能非常快速 地增长,应该选择使用易扩展的存储系统(如 HBase)来构建底层的存储架构。同时,还深 入分析、比较了 RDBMS 和 HBase 底层使用的数据结构的本质区别,叙述了 HBase 的存储架构, 强调了 HBase 在大数据存储方面的优势特性。 关键词:云计算;Hadoop;HBase;RDBMS 中图分类号:TP311 HBase: A New Scalable Big Data Storage Architecture DING Haijie (State Key Laboratory of Networking and Switching Technology, Beijing University of Posts Telecommunications, Beijing 100876) Abstract: This paper gave a brief introduction of an open source Cloud Computing system Hadoops integral role in storing and analysising big data. The companies making do with traditional RDBMS encounter lots of problems. Taking into account the growth of data scale, designers should rethink the technology and choose a scalable big data storage architecture when designing application systems. After addressing a fundamental difference between RDBMS and HBase and describing the storage architecture of HBase, this paper discussed its good features for big data storage. Keywords: Cloud Computing; Hadoop; HBase; RDBMS 0 引言 大数据时代的来临,越来越多的企业需要存储 PB 级别甚至更多的数据,而传统的关系 型数据库系统(RDBMS)的体系结构严重地制约扩展能力,根本上限制了其存储能力和分 析能力,这也使得传统的解决方案变得越来越复杂,也越来越昂贵。开源项目 Apache Hadoop[1]根据 Google 文件系统 GFS[2]和分布式计算模型 MapReduce[3]的原理实现了与之对 应的分布式文件系统 HDFS[4]和 MapReduce 计算框架,一个易扩展的分布式存储和并行计算 系统,很好地解决了大数据的存储和分析问题。 Hadoop 擅长存储半结构化的、非结构化甚至是任意格式的数据,使用者可以在分析数 据的时候决定如何解析数据,可以在任何时候对数据进行分类,如果分析算法改变了,只需 要再运行分析过程即可。Hadoop 对大文件的存储、批处理和流式数据访问进行了优化,使 分析变得更容易、更快速。但是用户需要访问需要最终的分析结果数据,不是以批处理的方 式,而是以随机访问的形式,类似于数据库系统中使用索引来检索整张数据表。 在需要随机访问结构化数据的时候,我们习惯于查询数据库系统,RDBMS 是最好的选 择,但是大多数的 RDBMS 都尽力实现 Codds 12 Rules[5](数据库管理系统关系化需要满足 的准则)这一严格要求,而且通用的体系结构早已成型,缺少对数据的适应性。 HBase[6]是根据 Google 的 Bigtable[7]原理设计实现的一种分布式数据存储系统,不是传 统意义的基于列式存储的 RDBMS,只是在磁盘上使用基于列的存储格式。传统的列式数据 作者简介:丁海杰,(1987-),男,硕士研究生,主要研究方向:云计算,网络测量。E-mail: haijie.d@ -1-  库擅长实时地分析性地访问数据,而 HBase 擅长基于键的形式存取对应的数据值以及一个

文档评论(0)

baihuamei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档