HBase简介..docxVIP

下载本文档

5
0
约1.02万字
约 15页
2016-12-31 发布于重庆
举报
版权申诉

HBase简介..docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

什么是HBase？HBase，是Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS，使用Zookeeper来管理集群的HMaster和各Region server之间的通信，监控各Region server的状态，存储各Region的入口地址等。何时用HBase？首先想想传统的关系型数据库都有哪些特点，大概的特点有：?支持事务，ACID（原子性、一致性、隔离性和持久性）特性；行式存储；SQL语句使用起来比较方便；支持索引、视图等；?接下来我们考虑一个场景：我们想要构建一个社交网站，我们可能会选择易于操作的LAMP（/os/oslin/Linux、Apache、Mysql、PHP）模型来快速的搭建一个原型。随着用户数的不断增加，每天有越来越多的人开始访问，这时候，共享的数据库服务器压力会越来越大，可以选择增加应用服务器，但因为这些应用服务器共享中央数据库，所以，随着数据库的CPU和I/O负载升高，这种方案势必不可长久。这时候，我们可能会增加从服务器，以便并行读取，将读写分离。这样做是因为考虑到用户访问产生的读次数比写入次数更多，但是如果用户数目增加很快，产生的内容越来越多，导致读写数目相差没那么大，这种方案也就不能长久。接下来的常见做法就是增加缓存，比如使用Memcached。这样，读操作存入到内存中的数据库系统中，但又没办法保证数据一致性，因为用户更新数据到数据库，而数据库不会主动更新缓存中的数据，而且，这种方案只能解决读请求的压力，对于写请求，还是没有解决。所以需要更多的服务器，更快的磁盘，会导致硬件成本快速升高。而且，随着用户的增多，网站功能势必增加，业务功能都会使用sql语句进行查询，而表数据过多会导致join操作变慢，所以会不得不采用一些逆范式的方式来设计数据库，这样导致无法使用存储过程。而且，数据过大时，索引的效果也没那么强了。因为索引也会变得很大。这时候应该怎么办？有些人采用了数据库分区的方式，将数据拆分。但是大规模的拆分将导致大量复制操作，带来大量的I/O损耗。所以这种方式也不一定好。03年，谷歌发表了一片论文叫做《The Google File System》，这个文件系统简称GFS，该文件系统中的数据在节点中冗余存储，即使一台服务器发生故障，也不会影响数据可用性。但是，GFS只适合存储少量非常大的文件，不适合存储数量众多的小文件，因为文件的元信息存储在主节点的内存中，文件越多，主节点压力越大。经过Google的深入研究，在06年，发表了另外一篇重量级论文《BigTable：A Distributed Storage System for Structed Data》。HBase就是BigTable的开源实现，当然，也建立在HDFS（GFS的开源实现）和Hadoop（MapReduce的开源实现）、Zookeeper（Chubby的开源实现）的基础上。何时用HBase呢？在下面几种情况下，可以考虑使用HBase替代关系数据库：?系统需要适应不同种类的数据格式和数据源，不能预先严格定义模式，需要处理大规模数据；不强调数据之间的关系，所要存储的数据是半结构化或非结构化的；数据非常稀疏；想要更好的进行扩展；?比如谷歌就将BigTable用来存储网页的索引数据，索引数据就很好的满足了上面的几点要求。与Hive、Pig的区别？?HBase是低延迟、非结构化和面向编程的，而Hive是高延迟、结构化和面向分析的；Hive本身不存储和计算数据，它完全依赖与HDFS和MapReduce，Hive中的表是逻辑表；HBase通过组织起节点内所有机器的内存，提供一个超大的内存Hash表，它需要在磁盘和内存组织自己的数据结构，HBase中的表是物理表；如果是全表扫描，就用Hive+Hadoop，如果是索引访问，就用HBase+Hadoop。Hive主要用于静态的结构以及需要经常分析的工作；Pig相比Hive相对轻量，它主要的优势是相对比于直接使用Hadoop Java APIs可大幅消减代码量；Hive和Pig都可以与HBase组合使用，Hive和Pig还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变得非常简单。?HBase的结构1）表、行、列和单元格先做一个简单的总结：最基本的单位是列（column），一列或者多列组成一行（row），并且由唯一的行键（row key）来确定存储。一个表中有很多行，每一列可能有多个版本，在每一个单元格（Cell）中存储了不同的值。HBase的行与行之间是有序的，按照row key的字典序进行排序，行键是唯一的，在一个表里只出现一次，否则就是在更新