hadoop之impala简单使用.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadoop之impala简单使用

hadoop 之 impala 简单使用 上个月参与了公司的大数据接口平台项目,其中就使用到了 impala 提供实时查询接口。而且,在使用当中还遇到了关于 impala 版本的问题,主要是 sql 语法上的差异,目前已经到了 2.4 了,而我们公司集群环境使用的版本是 1.3。 下面,笔者将分以下几个步骤进行介绍。 一、impala 的基本概念与原理 Impala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互 SQL 大数据查询工具,Impala 没有再使用缓慢的 Hive+MapReduce 批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据, 从而大大降低了延迟。 我们可以看看 cloudera manager 上 impala 相关的服务,如下图: Impala 架构: Impalad: 与 DataNode 运行在同一节点上,由 Impalad 进程表示,它接收客户端的查询请求(接收查询请求的 Impalad 为 Coordinator ,Coordinator 通过 JNI 调用 Java 前端解释 SQL 查询语句,生成查询计划树,再通过调度器把执行计划分 发给具有相应 数据的其它 Impalad 进行执行),读写数据,并行执行查询,并把结果通过网络流式的传送回给 Coordinator , 由Coordinator 返回给 客户端。同时 Impalad 也与 State Store 保持连接,用于确定哪个 Impalad 是健康和可以接受新的 工作。在 Impalad 中启动三个ThriftServer: beeswax_server (连接客户端),hs2_server(借用Hive 元数据), be_server (Impalad 内部使用)和一个 ImpalaServer 服务。 1 / 8 Impala State Store: 跟踪集群中的 Impalad 的健康状态及位置信息,由 statestored 进程表示,它通过创建多个线程来处 理 Impalad 的注册订阅和与各 Impalad 保持心跳连接,各 Impalad 都会缓存一份 State Store 中的信息,当 State Store 离线后(Impalad 发现 State Store 处于离线时,会进入 recovery 模式,反复注册,当 State Store 重新加入集群后,自动 恢复正常,更新缓存数据)因为 Impalad 有 State Store 的缓存仍然可以工作 ,但会因为有些Impalad 失效了,而已缓存数 据无法更新,导致把执行计划分配给了失效的 Impalad ,导致查询失败。 CLI: 提供给用户查询使用的命令行工具(Impala Shell 使用 Python 实现),同时 Impala 还提供了 Hue ,JDBC ,ODBC 使用接口。 Impala 的查询处理流程: 二、impala 的常用命令 首先,我们在装有 impalad 服务的节点上执行 impala-shell ,便可进入命令行。 执行 show databases;可以看到: 2 / 8 这个 qyk_test 数据库是我们在上一篇博文中通过 hive 创建的。我们只需执行 INVALIDATE METADATA;便可将 hive 的元数 据同步到 impala ,这个在后面的博文中还会进行介绍。 执行 show tables;可以看到: 下面,我们执行 select * from user_info;可以看到: 还可以执行 create table user_info_copy as select * from user_info;直接将查询出来的数据入到一张新表中去,如下: 3 / 8 然后,我们执行 drop table user_info_copy;便可删除临时表,如下: 好了,基本的命令就说到这儿了。 三、impala 分页 impala 中的分页是通过

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档