- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据导论第七章CONTENTS目录PART 06 Hive数据类型PART 01 数据仓库概述PART 02 数据仓库Hive概述PART 07 HiveQL:数据定义与操作PART 08 HiveQL:查询PART 03 Hive和数据库的比较PART 04 Hive的体系架构PART 09 Hive模式设计PART 10 作业PART 05 Hive的工作流程PART 01 数据仓库概述数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库的定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。根据数据仓库概念的含义,数据仓库拥有以下四个特点:面向主题集成的相对稳定的反映历史变化数据仓库的定义面向主题 数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。集成的 在数据仓库系统中,无论何种数据源,无论是Access、SQL Server、MySQL还是Oracle,甚至是系统访问日志中的数据,都会被统一装入到同一个数据仓库系统。数据仓库的定义相对稳定的 数据仓库中的数据,一旦从数据源中存入,便不会再进行任何修改,只会在此基础上进行进一步的分析处理。反映历史变化 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点,如开始应用数据仓库的时点,到目前的各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库与操作数据库操作数据库称作联机事务处理(OLTP)系统,主要任务执行联机事务处理和查询处理。数据仓库系统即联机分析处理(OLAP),在数据分析和决策支持方面为用户或者机器学习提供服务。二者的主要区别在于五个大的方面:用户系统的面向性数据内容数据库设计视图访问模式数据仓库与操作数据库用户系统的面向性:OLTP是面向客户的,而OLAP是面向市场的;数据内容:OLTP主要是面向当前的业务,而OLAP是需要使用历史数据的;数据库设计:OLTP是根据实体关系进行设计,而OLAP是面向主题进行设计的;视图:OLTP是面向个别具体问题的,而OLAP是要面向整个企业全景的;访问模式:OLTP是原子事务操作,而OLAP是只读操作。数据仓库的架构数据仓库的架构主要由四层组成。数据源数据仓库服务器OLAP服务器前端工具数据仓库的架构数据源 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。数据仓库服务器 是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。OLAP服务器 对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。前端工具 主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具,以及各种基于数据仓库或数据集市的应用开发工具。传统数据仓库的问题进入大数据时代,传统架构的数据仓库遇到了非常多的挑战。传统数据仓库有如下几个问题:无法满足快速增长的海量数据存储需求无法处理不同类型的数据传统数据仓库建立在关系型数据仓库之上,计算和处理能力不足过去的数据库没有提供有哪些信誉好的足球投注网站和数据挖掘的能力,而这些需求已经是企业的刚需。PART 02 数据仓库Hive概述Hive是基于Hadoop的数据仓库,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL。数据仓库Hive概述Hive是基于Hadoop的数据仓库,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL。Hive把HQL语句转换成MapReduce任务后,采用批处理的方式对海量数据进行处理。但Hive不是一个数据库。Hive不支持OLTP(联机事务处理)所需的关键功能,而更接近成为一个OLAP(联机分析)工具。PART 03 Hive和数据库的比较Hive是基于Hadoop平台的数据仓库,与传统的数据库有着根本的差别。Hive与数据库的比较查询语言HQLSQL数据存储位置HDFSRaw Device 或者 Local FS数据格式用户定义系统决定数据更新不支持支持索引无有执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小PART 04 Hive的体系架构Hive建立在Hadoop的分布式文件系统(HDFS)和MapReduce系统之上。Hive的体系架构Hive的体系架构Hive体系架构的组件可以分为两大类:服务端组件Driver组件Metastore组件Thrift服务客户端组件CLIThrift客户端WEB GUIHiv
您可能关注的文档
最近下载
- 国开(BJ)-公共危机管理(本)-第三次形成性考核-学习资料.docx VIP
- 人教版(2024新版)七年级上册英语 Unit 2单元测试卷(含答案).docx VIP
- 数字描红1到10田字格字帖A4纸可直接打印.doc VIP
- [医院保洁服务方案] 医院保洁方案范本.pdf VIP
- Oerlikon Metco热喷涂技术简介.pdf
- 认知过程注意篇.pptx VIP
- 奥林巴斯E-PL7使用说明书.docx
- 国开(BJ)-公共危机管理(本)-第五次形成性考核-学习资料.docx VIP
- 有机茶园的生产与管理有机茶园施肥技术有机茶园的生产与管理有机茶园施肥技术.ppt VIP
- 认知心理学-注意过程.ppt VIP
文档评论(0)