- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
本章主要介绍Hive数据仓库的概念、特点、体系结构、执行流程及与数据库的比较等内容。第1章Hive数据仓库基础
1.1数据仓库1.1.1数据仓库的概念1.1.2数据仓库的特点1.1.3数据仓库的数据模型1.1.4数据仓库的体系结构1.2Hive数据仓库1.3Hive体系结构及执行流程1.3.1Hive体系结构1.3.2Hive执行流程1.4Hive数据仓库和数据库比较章内分节
数据库已经在信息技术领域有了广泛的应用,社会生活的各个领域几乎都有各种各样的数据库保存着各种数据。数据仓库作为数据库的一个分支,其概念的提出相对于数据库从时间上就晚得多。比尔·恩门(BillInmon)在1991年出版的BuildingtheDataWarehouse一书中所提出的数据仓库定义被广泛接受。数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、随时间变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。1.1.1数据仓库的概念
传统数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题进行组织的。主题是与传统数据库的面向应用相对应的,它是一个抽象概念,是在较高层次上将信息系统中的数据综合、归类并进行分析利用的抽象。每个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。例如商品推荐系统是基于数据仓库所构建出来的一个系统,它最关心的主题就是商品信息。数据仓库是面向主题的
数据仓库中的数据是在对原有分散的数据库中的数据进行抽取、清理的基础上,经过系统加工、汇总和整理得到的。必须消除原来的数据中的不一致性,以保证数据仓库内的信息是一致的全局信息。数据仓库是一个集成的数据库。也就是说,数据库中的数据来自分散型的、操作型的数据,把分散型的、操作型的数据从原来的数据中抽取出来,经过加工和处理,然后满足一定的要求,这样的数据才能进入数据仓库。原来的数据可以来自Oracle,也可以来自MySQL,或者来自文本文件或其他的文件系统。把不同的数据集成起来就形成了一个数据仓库。数据仓库是集成的
数据仓库中的数据主要供决策分析使用,所涉及的数据操作主要是数据查询。一旦某些数据进入数据仓库后,一般情况下将被长期保留。也就是说,数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期加载、刷新。 数据仓库是相对稳定的
数据仓库内的数据并不只是反映企业当前的状态,而是记录了从过去某一时间点到当前各个阶段的数据。数据仓库中的数据是随着时间的推移而变化并且逐渐增加的数据的集合。数据仓库是随时间变化的
(1)并行计算的硬件环境、操作系统环境、数据库管理系统及所有相关的数据库操作、查询工具和技术、应用程序等各个领域都可以从并行的必威体育精装版成果中获益。(2)分区分区功能使得支持大型表和索引更容易,同时也提高了数据管理和查询性能及查询效率。(3)数据压缩数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘系统的成本,新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面影响。数据仓库的主要技术
(1)效率足够高数据仓库的分析数据一般按照时间周期分为日、周、月、季、年等类型数据。以日为周期的数据要求的效率最高,要求24小时内用户能看到数据分析结果。(2)数据质量数据仓库所提供的各种数据,要求是准确的数据,但由于数据仓库工作流程通常分为多个步骤,包括数据清洗、装载、查询、展现等,如果数据源有脏数据或者代码不严谨,可能导致数据失真,用户看到错误的信息就可能导致错误的决策,从而造成损失。(3)扩展性扩展性主要体现在数据建模的合理性上,数据仓库中扩展出一些中间层,使海量数据流有足够的缓冲,不至于因为数据量增大很多就运行不起来。1.1.2数据仓库的特点
数据仓库系统是一个信息提供平台,主要以星状模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息。星状模型是搭建数据仓库的基本数据模型。在星状模型基础上发展起来的一种新型模型称为雪花模型。雪花模型应用在一些更复杂的场景中。星状模型是
有哪些信誉好的足球投注网站
文档评论(0)