- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师面试题及答案(企业实操导向)
一、基础理论与核心技术(10题)
问题:HDFS的NameNode和DataNode核心职责分别是什么?实际部署中如何避免NameNode单点故障?
答案:NameNode负责管理文件系统命名空间、元数据(文件路径、副本数、DataNode存储位置),不存储实际数据;DataNode负责存储数据块、执行读写指令,并向NameNode汇报块状态。避免单点故障的方案:①部署StandbyNameNode,通过JournalNode同步元数据日志,主节点故障时自动切换;②定期备份NameNode的fsimage和edits日志到异地存储,极端情况可手动恢复。
问题:Spark中宽依赖和窄依赖的区别?这两种依赖对DAG调度和容错有什么影响?
答案:窄依赖是子RDD的每个分区只依赖父RDD的一个分区(如map、filter),宽依赖是子RDD的一个分区依赖父RDD的多个分区(如shuffle、groupByKey)。影响:①调度上,窄依赖可连续执行(流水线优化),宽依赖会触发Stage划分(以shuffle为边界);②容错上,窄依赖只需重新计算故障分区的父分区,宽依赖需重新计算所有关联的父分区,因此宽依赖场景下建议开启Checkpoint减少重复计算。
问题:MapReduce的Shuffle阶段具体做了什么?如何优化Shuffle性能?
答案:Shuffle是连接Map和Reduce的核心阶段,分为Map端和Reduce端:①Map端:将Map输出结果按Key哈希分区,写入内存缓冲区,满了之后排序溢写到磁盘,最后合并小文件;②Reduce端:通过HTTP拉取对应分区的数据,合并排序后交给Reduce函数处理。优化方案:①调整缓冲区大小(默认100MB,可增至200-500MB);②启用压缩(Map输出用Snappy压缩,减少IO);③合理设置Reduce任务数(建议为集群CPU核心数的1.5-2倍);④避免大量小文件输入(用CombineTextInputFormat合并)。
问题:什么是数据倾斜?Spark中遇到数据倾斜该如何排查和解决?
答案:数据倾斜是指某几个Task处理的数据量远超其他Task,导致整个Job运行缓慢甚至超时。排查:①查看SparkUI的Stage页面,观察各Task的输入数据量、运行时间差异;②分析数据源,统计Key的分布(用countByKey()抽样查看热点Key)。解决:①热点Key打散:给热点Key加随机前缀(如Key→Key_0、Key_1),先局部聚合再还原Key全局聚合;②调整并行度:增大spark.sql.shuffle.partitions(默认200,根据数据量调整至1000+);③过滤无效数据:移除重复或无意义的热点Key(如NULL值);④广播小表:Join场景中,将小表广播(broadcastjoin),避免Shuffle。
问题:Hive的内部表和外部表有什么区别?实际业务中如何选择?
答案:区别:①数据归属:内部表的数由Hive管理,删除表时会同时删除底层数据;外部表的数存储在用户指定路径,删除表仅删除元数据,数据保留。②元数据与数据关联性:内部表元数据和数据强绑定,外部表松绑定。选择原则:①选外部表:业务数据需多工具共享(如同时供Hive、Spark、Flink访问)、数据需要长期保留(避免误删表导致数据丢失)、数据来自外部系统(如日志采集系统);②选内部表:临时计算结果(如中间表、汇总表)、数据仅用于Hive分析,无需共享。
问题:Flink的Checkpoint和Savepoint有什么区别?各自的使用场景是什么?
答案:区别:①触发方式:Checkpoint由Flink自动周期性触发(默认开启),Savepoint需手动触发;②用途:Checkpoint用于故障恢复,数据格式内部化,不保证跨版本兼容;Savepoint基于Checkpoint机制,数据格式稳定,支持版本兼容,用于手动备份、升级集群、代码迭代。场景:①Checkpoint:日常运行中自动容错,配置合适的间隔(如1分钟)和超时时间;②Savepoint:①系统升级或重启前备份状态;②业务代码修改后,恢复历史状态继续运行;③长期停机后恢复作业。
问题:什么是维度建模?星型模型和雪花模型的区别?实际建模中优先选哪种?
答案:维度建模是面向分析场景的建
您可能关注的文档
- 大班拼音综合测试题.docx
- 大班期末综合能力测试题.docx
- 大班期末综合能力测试题及答案.docx
- 大班上学期综合素质测评卷.docx
- 大班数学趣味闯关题.docx
- 大班下学期期末综合测试卷.docx
- 大班语文综合测试题.docx
- 大班综合能力测试题及答案.docx
- 大队委面试题目及参考答案.docx
- 大话手游科举殿试题库及答案(实战版).docx
- 山东省潍坊市第一中学2012届高三阶段测试 基本能力试题.docx
- 山东省济宁市曲阜师大附中2010届九年级历史上学期期中质量检测试题人教版.docx
- 山东省济宁市2011届高三教学质量监测历史试题.docx
- 山东省枣庄市薛城实验中学2015届高三上学期期末历史试题.docx
- 山东省济宁市微山县第一中学2015-2016学年高二语文入学检测考试试题.docx
- 山东省淄博市张店区湖田中学2014-2015学年七年级英语下学期期中学业水平检测试题.docx
- 云南省玉溪市峨山彝族自治县一中2025-2026学年高三上学期期中考试物理-学生用卷.pdf
- 广东省江门市新会区创新教育集团2025-2026学年部编版九年级历史上学期期中综合素养评价(含答案).pdf
- 长沙市岳麓实验高三期中考试历史-学生用卷.pdf
- 四川省宜宾市翠屏区2025--2026学年八年级上学期期中历史试题(含答案).pdf
最近下载
- 19 皇帝的新装 课件(共20张PPT)(含音频+视频).pptx VIP
- YL32-200液压机使用说明书.pdf VIP
- 辽宁公务员《行测》真题.docx VIP
- 脑血管痉挛防治必威体育精装版专家共识解读PPT课件.pptx VIP
- 集成电路与设计北京大学 .ppt VIP
- 《GB_T 43316.1-2023塑料 耐环境应力开裂(ESC)的测定 第1部分_通则》专题研究报告.pptx
- 热带气象学课件第4章热带大气环流与系统.pptx VIP
- 建筑电气控制技术复习题.docx VIP
- 安信安赢 15 号•重庆两江未来城股权投资集合资金信托计划 .PDF VIP
- 2024年初级会计职称《初级会计实务》精讲课件 第七章 收入、费用和利润.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)