第四章 大数据交互式OLAP多维分析开发实践-4.2分布式数据仓库Hive.pptxVIP

第四章 大数据交互式OLAP多维分析开发实践-4.2分布式数据仓库Hive.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第四章

大数据交互式

OLAP多维分析开发实践

大数据交互式分析技术栈分布式数据仓库HiveHiveSQL操作实践分布式计算框架SparkSQL分布式计算框架Flink关系型API大数据交互式OLAP多维分析实践

4.2分布式数据仓库Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过SQL类语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,非常适用于数据仓库的统计分析。Spark未出现之前,企业中部署的大数据分析平台,组合使用了Hadoop的HDFS、MR、Hive、Pig、HBase、Mahout,从而满足不同业务场景需求。分布式数据仓库Hive

Hive体系框架及基本原理(1/2)Hive所有的命令和查询都会进入Driver模块,通过该模块对输入进行解析、编译,并对查询进行优化,然后生成执行计划。执行计划通常包括启动多个MapReduce任务或Spark任务来执行。Hive提供了命令行界面CLI(Command-LineInterface)和轻量级的JDBC客户端Beeline在大型Hadoop集群中,通常会有网关机(GatewayNode)用于部署Hive的客户端工具,例如HiveCLI,用户可以通过这些工具远程登录并提交Hive查询任务。Hive主要处理的数据文件存储在HDFS中,HDFS由NameNode进行管理,负责维护文件系统的元数据和文件块的位置。Metastore(元数据存储)是Hive的一个关键组件,通常是一个独立的关系型数据库实例(例如MySQL),用于存储表模式、分区信息以及其他系统的元数据。在Hadoop1.x版本中,Hive通过和JobTracker通信来初始化MapReduce任务;在当前主流的Hadoop2.x及以上版本中,Hadoop集群的资源的管理和任务的调度执行,则由YARN框架中的ResourceManager和NodeManager负责。

Hive体系框架及基本原理(2/2)由驱动模块中的编译器,对用户输入的SQL语句进行词法和语法解析,将HQL语句转换成抽象语法树(ASTTree)的形式因为AST结构复杂,不方便直接翻译成MR算法程序。语法分析器遍历抽象语法树,转化成QueryBlock查询单元。QueryBlock是一条最基本的SQL语法组成单元,包括输入源、计算过程、和输入三个部分逻辑计划生成器遍历QueryBlock,生成OperatorTree(操作树),它由很多逻辑操作符组成,如TableScanOperator、SelectOperator、FilterOperator、JoinOperator、GroupByOperator和ReduceSinkOperator等,它们在MR阶段完成某一特定操作Hive驱动模块中的逻辑优化器对OperatorTree进行优化,变换OperatorTree的形式,合并多余的操作符,减少MR任务数、以及Shuffle阶段的数据量Hive驱动模块中的物理计划生成器,遍历优化后的OperatorTree,根据OperatorTree中的逻辑操作符生成需要执行的MR任务启动Hive驱动模块中的物理优化器,对生成的MR任务进行优化,生成最终的MR任务执行计划最后由Hive驱动模块中的执行器,对最终的MR任务执行输出Hive中SQL查询转化成MapReduce作业过程当Hive接收到一条HQL语句后,HQL首先进入驱动模块,由驱动模块中的编译器解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行

数据仓库一般会将数据模型分为3层:操作数据层、公共维度模型层和应用数据层。其中公共维度模型层包括明细数据层和汇总数据层,可以分成两层单独表述,也可以合为一层表述。Hive在数据仓库中的应用(1/3)操作数据层(OperationalDataStore,ODS):面向对接的数据源建立的一个接入层,也叫作“贴源层”。ODS几乎将数据无处理地存放到数据仓库中。数据同步:将结构化数据增量或者全量同步。结构化:将非结构化数据(如日志)进行结构化处理并存储。保存历史、清洗:根据业务需求和审计要求保存历史数据、清洗数据。

公共维度模型层(CommonDimensionalModel,CDM):存放明细事实数据、维表数据和公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS数据加工生成;公共指标汇总数据根据明细事实数据和维表数据加工生成。Hive在数据仓库中的应用(2/3)CDM包括明细数据层(DetailedWorkforceDi

文档评论(0)

学海无涯而人有崖 + 关注
实名认证
文档贡献者

教师资格证、人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证 该用户于2023年06月11日上传了教师资格证、人力资源管理师

1亿VIP精品文档

相关文档