- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据数据仓库面试题附答案
数据仓库与数据库的核心差异体现在哪些方面?
数据仓库(DW)与数据库(DB)的核心差异可从目标、数据特性、操作类型、设计原则四方面区分。目标上,数据库支持OLTP(在线事务处理),侧重实时业务交易;数据仓库支持OLAP(在线分析处理),侧重历史数据的分析决策。数据特性上,数据库存储当前业务的细节数据,实时更新且数据量相对较小;数据仓库存储集成的、历史的、跨业务线的聚合数据,数据随时间累积且非易失(极少更新)。操作类型上,数据库以增删改(CRUD)为主,单次操作数据量小;数据仓库以查询(Read-heavy)为主,常涉及大表关联与复杂聚合。设计原则上,数据库采用第三范式(3NF)减少冗余,保证事务一致性;数据仓库采用维度建模(如星型/雪花模型),通过适当冗余提升查询效率。
维度建模中事实表与维度表的设计要点是什么?
事实表存储量化的业务事件,是维度建模的核心,设计要点包括:(1)确定事实类型,如事务事实(单次交易)、周期快照事实(每日余额)、累积快照事实(订单全流程);(2)选择粒度(最小可分析单元),需平衡细节与存储,例如订单事实表粒度可为“每笔订单”或“订单中的每个商品”;(3)包含外键(关联维度表)与度量值(可聚合的数值,如金额、数量)。维度表存储描述性信息(如时间、客户、商品),设计要点包括:(1)维度属性需覆盖业务分析需求(如客户维度包含等级、区域、注册时间);(2)处理缓慢变化维(SCD),常见策略有Type1(覆盖旧值,丢失历史)、Type2(新增记录,保留历史)、Type3(新增字段记录变更,适用于有限变更场景);(3)维度一致性,确保相同业务含义的维度在不同事实表中定义统一(如“时间维度”的日期格式、节假日标识需全局一致)。
ETL流程中如何保障数据质量?
ETL(抽取-转换-加载)的数据质量保障需贯穿全流程,关键措施包括:(1)抽取阶段:验证数据源连通性,记录抽取失败日志;对增量抽取(CDC)需校验日志完整性(如数据库的Binlog是否连续),避免漏抽或重抽。(2)转换阶段:①清洗:通过正则表达式校验字段格式(如手机号11位),处理空值(填充默认值或标记异常),去重(按业务键如订单ID去重);②验证:定义业务规则(如“订单金额0”“下单时间早于支付时间”),通过规则引擎拦截违规数据;③一致性处理:统一编码(如“性别”字段的“男”“女”与“M”“F”映射),确保跨源数据对齐。(3)加载阶段:通过事务控制(如数据库的BEGIN/COMMIT)保证原子性,加载后核对记录数(源系统与目标表行数差异≤0.1%),校验关键指标(如总金额偏差≤0.01%)。此外,需建立质量监控平台,实时告警(如字段缺失率5%触发通知),并记录数据血缘(从源表到目标表的字段映射),便于问题追溯。
设计数据仓库分层时,ODS、DWD、DWS、ADS层的具体职责与设计原则是什么?
数据仓库通常分为四层:(1)ODS(操作数据存储层):职责是原始数据的镜像存储,保留数据原始形态(如CSV、JSON格式),设计原则为“原样存储”,不做清洗转换(仅去噪,如过滤乱码),通过时间戳分区(如按天分区)支持历史回溯。(2)DWD(数据明细层):职责是清洗、标准化后的明细数据,设计原则为“一数一源”(同一指标仅在一个表中维护),采用维度建模,字段命名遵循统一规范(如“user_id”而非“用户ID”),并处理缓慢变化维(如客户维度用Type2存储历史版本)。(3)DWS(数据汇总层):职责是面向主题的轻度聚合数据,设计原则为“按需聚合”,根据高频查询场景预计算(如按“城市+日期”聚合订单量),减少下游计算压力,聚合粒度需平衡灵活性与效率(如保留到“小时级”而非“分钟级”)。(4)ADS(应用数据服务层):职责是直接对接业务的定制化数据,设计原则为“开箱即用”,字段命名符合业务语言(如“活跃用户数”而非“active_user_cnt”),支持快速查询(如预提供报表宽表,避免实时关联)。
如何优化大数据量下的跨表关联查询性能?
跨表关联查询的性能优化需从数据分布、查询语句、存储结构三方面入手:(1)数据分布优化:①分桶(Bucket):对关联键(如user_id)进行哈希分桶,使关联双方数据分布在相同桶中,减少Shuffle数据量(如Hive中通过“CLUSTERBYuser_idSORTBYuser_id”实现);②分区(Partition):按时间或地域分区(如“dt=202401”“city=beijing”),查询时仅扫描相关分区,避免全表扫描。(2)查询语句优化:①小表前置:将数据量小的表放在JOIN左侧(如SparkSQL自动优化为BroadcastJoin),减
您可能关注的文档
- 2025年安全生产考试题库安全知识安全检查与评估试题及答案.docx
- 2025年安全生产考试题库风险分级管控与安全设施维护试题附答案.docx
- 2025年安全生产考试题库风险分级管控与安全生产应急预案试题附答案.docx
- 2025年安全生产考试专业安全生产法律法规题库试题及答案.docx
- 2025年安全生产培训试题和答案.docx
- 2025年安全生产试卷及答案.docx
- 2025年安全生产试题与答案.docx
- 2025年安全生产隐患排查治理安全检查考试题库试题及答案.docx
- 2025年安全生产隐患排查治理考试题库基础知识试题及答案.docx
- 2025年安全生产月《安全知识》备考模拟题(附答案).docx
有哪些信誉好的足球投注网站
文档评论(0)