第四章 大数据交互式OLAP多维分析开发实践-4.3Hive SQL操作实践.pptxVIP

第四章 大数据交互式OLAP多维分析开发实践-4.3Hive SQL操作实践.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第四章

大数据交互式

OLAP多维分析开发实践

大数据交互式分析技术栈2.分布式数据仓库Hive3.HiveSQL操作实践4.分布式计算框架SparkSQL5.分布式计算框架Flink关系型API6.大数据交互式OLAP多维分析实践

4.3.1HiveSQL:数据定义

简介HiveSQL是基于Hadoop的数据仓库工具Hive的查询语言。设计目的是为了简化Hadoop上的复杂数据分析。与ANSISQL的比较HiveSQL基于SQL,但不完全遵守ANSISQL标准。主要区别在于对事务的支持和数据操作的灵活性。与MySQL的对比语法上与MySQL相似,便于SQL用户学习和使用。不支持行级插入、更新和删除操作—主要针对大数据批处理而非实时事务处理。特定功能和优化HiveSQL在Hadoop生态中进行了优化,提高了处理大规模数据集的能力。支持通过MapReduce执行查询,优化了数据读取和写入效率。扩展性和兼容性支持Hadoop生态系统中的多种数据格式和存储系统,如HBase和AmazonS3。允许用户使用自定义函数(UDF)和外部脚本扩展查询功能。HiveSQL:数据定义

在Hive中,数据库本质上是一个逻辑上的名字空间,用于组织和管理表。这与传统关系型数据库中的数据库概念类似,但在Hive中更加侧重于逻辑分组。每个数据库中可以包含多个表、视图、分区等对象。这种结构使得在管理大量数据表时,能够更好地组织和分类。可以根据业务逻辑、部门、项目等将相关的表放在同一个数据库中,便于管理和访问。如果用户没有指定数据库,那么将使用默认数据库default。Hive中的数据库--创建一个简单的数据库CREATEDATABASEexample_db;--创建一个带有描述和位置的数据库CREATEDATABASEexample_db_with_locationCOMMENTThisdatabaseisusedforstoringexampledataLOCATION/user/hive/warehouse/example_db_with_location.db;--如果数据库不存在则创建CREATEDATABASEIFNOTEXISTSexample_db_safe;--创建一个带有元数据属性的数据库CREATEDATABASEexample_db_with_propertiesCOMMENTDatabasewithpropertiesLOCATION/user/hive/warehouse/example_db_with_properties.dbWITHDBPROPERTIES(owner=admin,environment=production);

Hive中的管理表(内部表)Hive管理表(ManagedTable)也称内部表,主要用于将数据的生命周期完全控制在Hive中。默认情况会将管理表的数据存储在由配置项hive.metastore.warehouse.dir定义的子目录下Hive管理表/内部表的主要用途数据完全管理:所有数据文件和元数据都由Hive管理,便于统一管理和控制。自动数据清理:删除表时,自动删除相关的数据文件,避免遗留无用数据,占用存储空间。数据一致性:数据文件和表的元数据始终保持一致,防止数据不一致的问题。权限控制:通过Hive的权限管理机制,可以精细化地控制数据的访问和操作权限。CREATETABLEuser_behavior(user_idSTRING,actionSTRING,product_idSTRING,timestampBIGINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY,STOREDASTEXTFILE;示例:一个电商网站需要对用户行为数据进行分析。使用Hive存储和管理每天产生的大量用户点击、有哪些信誉好的足球投注网站、购买等行为数据。

Hive中的外部表使用CREATEEXTERNALTABLE语句创建外部表,指定数据格式和位置。创建外部表Hive不认为其完全拥有数据,删除表不会删除数据,但会删除元数据。外部表特点CREATEEXTERNALTABLEIFNOTEXISTSstocks(exchangeSTRING,symbol STRING,ymd STRING,price_open FLOAT,price_high FLOAT,price_low FLOAT,price_close FLOAT,volume INT,price_ad_closeFLOAT)ROWFORMA

文档评论(0)

学海无涯而人有崖 + 关注
实名认证
文档贡献者

教师资格证、人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证 该用户于2023年06月11日上传了教师资格证、人力资源管理师

1亿VIP精品文档

相关文档