Hive学习总结及应用.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、文档说明 熟悉 Hive 功能,了解基本开发过程,及在项目中的基本应用。 注意:本文档中但凡有 hive 库操作的语句,其后面的“; ”是语 句后面的,非文档格式需要。每个 hive 语句都要以“;”来结束,否 则将视相邻两个分号“; ”之间的所有语句为一条语句。 二、 Hive (数据提取)概述 Hive 是构建在 HDFS和 Map/Reduce之上的可扩展的数据仓库。 是 对 HADOOP的 Map-Reduce进行了封装,类似于 sql 语句( hive 称之为 HQL)计算数据从而代替编写代码对 mapreduce 的操作,数据的来源还是 HDFS上面的文件。 Hive 中的表可以分为托管表和外部表,托管表的数据移动到数据仓库目录下,由 Hive 管理,外部表的数据在指定位置,不在 Hive 的 数据仓库中,只是在 Hive 元数据库中注册。 创建外部表采用 “create external tablename ”方式创建,并在创建表的同时指定表的位置。 Hive 本身是没有专门的数据存储格式,也没有为数据建立索引, 只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符, Hive 就可以解析数据。所以往 Hive 表里面导入数据只是简单的将数 据移动到表所在的目录中(如果数据是在 HDFS上;但如果数据是在 本地文件系统中,那么是将数据复制到表所在的目录中) 。 三、 Hive 的元数据 Hive 中的元数据包括表的名字,表的列和分区及其属性,表的 属性(是否为外部表等),表的数据所在目录等。 由于 Hive 的元数 据需要不断的更新、修改,而 HDFS系统中的文件是多读少改的,这 显然不能将 Hive 的元数据存储在 HDFS中。目前 Hive 将元数据存储 在数据库中,如 Mysql、Derby 中。 Hive metastore 三种存储方式: Hive 的 meta 数据支持以下三种存储方式,其中两种属于本地存 储,一种为远端存储。远端存储比较适合生产环境。 1、使用 derby 数据库存储元数据 (内嵌的以本地磁盘作为存储) , 这称为“内嵌配置” 。 这种方式是最简单的存储方式,只需要在或做如下配置便可。使 用 derby 存储方式时,运行 hive 会在当前目录生成一个 derby 文件和一个 metastore_db 目录。这种存储方式的弊端是在同一个目录下同时只能有一个 hive 客户端能使用数据库,否则会提示如下错误 (这是一个很常见的错误)。 2 、使 用 本 机 mysql 服 务 器 存 储 元数 据 , 这 称 为 “ 本 地 metastore ”。这种存储方式需要在本地运行一个 mysql 服务器, 3 、使 用 远 端 mysql 服 务 器 存 储 元数 据 。 这 称 为 “ 远 程 metastore ”。这种存储方式需要在远端服务器运行一个 mysql 服务器,并且需要在 Hive 服务器启动 meta 服务。 四、 Hive 数据导入方式 1、从本地文件系统中导入数据到 Hive 表 hive load data local inpath into table wyp; 2、HDFS上导入数据到 Hive 表 hive load data inpath /home/wyp/ into table wyp; 3、从别的表中查询出相应的数据并导入到 Hive 表中 hive insert into table test partition (age=25) select id, name, tel from wyp; 五、 Hive 数据导出方式 1、导出到本地文件系统 hive insert overwrite local directory /home/wyp/wyp select * from wyp; [boco@cloud216~]$hive -e select * from wyp local/ 2、导出到 HDFS中 hive insert overwrite directory /home/wyp/hdfs select * from wyp; 3、导出到 Hive 的另一个表中 hive insert into table test partition (age=25) select id, name, tel from wyp; 六、 HiveQL 的常用操作 HiveQL 是一种类似 SQL的语言,它与大部分的 SQL语法兼容,但 是并不完全支持 SQL标准,如 HiveQL 不支持更新操作,也不支持索 引和事务,它的子查询和 join 操作也很局限。 #hive 启动 1、退出 hive hive quit;

文档评论(0)

182****5045 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档