大数据课程期末考试复习题及答案 .pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据课程期末考试复习题及答案

1.有一批海量数据,需要实现复杂计算分析,此时建议使用下面哪个计算引

擎?

MapReduce

Spark(正确答案)

YARN

HDFS

2.有一批海量数据,后期主要侧重于快速的读写,有修改需求,此时建议存储

到哪个存储系统中?

HDFS

HBase(正确答案)

MySQL

Redis

3.在shell命令行中向HDFS上传文件,需要使用哪个命令?

upload

set

insert

put(正确答案)

4.针对HDFS中NameNode的职责描述,错误的是:

NameNode是整个文件系统的管理节点

NameNode中负责维护File与Blocklist的关系

NameNode中负责存储文件数据(正确答案)

NameNode负责接收用户读写请求

5.3个5M的文件和1个130M的文件,在HDFS中会产生多少个Block

块?

3

5(正确答案)

6

6.HDFS中的哪个进程是负责定期将edits文件中的内容合并到fsimage中的?

NameNode

DataNode

SecondaryNameNode(正确答案)

NodeManager

7.Hive中的数据存储在哪里?

HBase

HDFS(正确答案)

本地磁盘

MapReduce

8.Kafka的消费者设置哪种策略可以实现消费必威体育精装版的数据?before

earliest

latest(正确答案)

after

9.针对HDFS中的小文件问题,可以使用下面哪种解决方案?

Sequencefile(正确答案)

NlineFile

TextFile

DBFile

10.MapReduce中,哪个步骤默认是可选的?

排序

分组

规约(正确答案)

分区

11.MapReduce编程的时候,针对字符串需要使用哪种数据类型?

String

Text(正确答案)

TextWritable

StringWritable

12.在Hadoop2.x中,一个Block块的大小默认是:

64M

100M

128M(正确答案)

256M

13.Kafka中生产数据时,希望Leader节点回复收到消息才确认接收成功,此

时需要设置ack的值为?

0

1(正确答案)

2

3

14.在Hive中,想要实现全局排序需要使用?

SORTBY

ORDERBY(正确答案)

CLUSTERBY

DISTRIBUTEBY

15.Hive中创建外部表,需要使用关键字:

create

external(正确答案)

partition

location

16.Hive中哪种类型的表适合做数据抽样?

内部表

外部表

分区表

桶表(正确答案)

17.针对MapReduce程序数据倾斜优化的手段,错误的是:

增加Reduce任务个数

把倾斜的key打散

针对join操作,如果有一个小表,可以考虑实现map端join

增加Reduce阶段的内存(正确答案)

18.YARN中的哪种调度器可以实现多队列且队列内部任务先进先出?

FIFOScheduler

CapacityScheduler(正确答案)

FairScheduler

QueueScheduler

19.针对Spark中RDD的描述,错误的是:

RDD数据只能存放在内存中(正确答案)

RDD在抽象上来说是一种元素数据的集合,它是被分区的

RDD提供的有容错性,可以自动从节点失败中恢复过来

RDD可以通过集合或者文件来创建

20.下面哪个算子可以解决SparkRDD中数据倾斜的问题?

reduceByKey

mapPartitions

groupByKey

repa

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体 社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档