- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2017年全国职业院校技能大赛高职组大数据赛题
2017年度职业院校技能大赛大数据技术与应用赛项赛题第一节赛题“四合影业”公司计划参与投拍一部电影,名为《青春的竞赛》。为提高票房收入,降低投资风险,需要了解电影市场的情况,包括何种类型的电影票房收入高,不同类型观众对电影的偏好等等。为此,四合影业公司计划聘请“TMS”大数据分析公司,收集并分析电影市场的相关信息,并最终给出分析报告。合作之前,“四合影业”需要“TMS”公司提出可行的技术解决方案。为完成四合影业的项目,“TMS”公司选用了在业界广泛应用的“Python”语言,作为开发分析程序的基础语言,并综合利用numpy、pandas、matplotlib、scikit模块和MapReduce技术提高开发效率,由于预计数据量会超过“T”级,“TMS”公司在技术方案中提出在一个高性能工作站集群上利用Hadoop平台提高数据处理能力,并利用Hive以及streaming技术提高效能和简化MapReduce过程。但此技术方案需要较高成本,为向“四合影业”展示该技术方案的合理性并达成与“四合影业”的合作,“TMS”公司先用廉价PC集群,配置了小规模的技术演示环境,并利用网络爬虫抓取了历年来影音娱乐行业的信息,数据量约为4G,随后开发了程序对数据进行清洗、整理、计算、表达、分析,力求展示“TMS”技术方案的合理性和自身出色的技术能力。作为“TMS”公司的技术人员,你们是这次技术方案展示的核心成员,请按照下面步骤完成本次技术展示任务,并提交技术报告。圆满完成展示并得到预期结果,“TMS”就能获得这个数百万元的项目合同,祝你们成功。任务一、部署Hadoop平台,并根据计算对象调优Hadoop平台的性能(15分)按下面如下个步骤完成Hadoop环境的部署:Hadoop系统存储于“/usr/local/hadoop”,要求配置hadoop.tmp.dir目录存放位置为“/usr/local/hadoop/tmp”配置hadoop的.dir为/usr/local/hadoop/tmp/dfs/name配置hadoop的dfs.datanode.data.dir为/usr/local/hadoop/tmp/dfs/data格式化NameNode开启NameNode和DataNode守护进程本题要求配置完成后在Hadoop平台上运行jps命令,要求jps运行结果的截屏保存于文件ans0101.jpg中按下面步骤建立用户目录,并导入存于竞赛平台arg目录中的数据文件dat0102.dat,并完成Hadoop平台的性能测试:在hdfs中创建用户目录(如果系统用户为hadoop,请建立/user/hadoop)在hdfs中创建input目录,把数据文件上传至input目录运行hadoop-mapreduce-examples-2.7.3.jar查询特定字符串出现次数用hdfs命令查看输出结果。本题要求将第4步运行结果的截屏保存于文件ans0102.jpg中。对Hadoop平台进行性能调优,设置:yarn.scheduler.maximum-allocation-mb的值为系统内存减1024MB,mapreduce.map.memory.mb的值为1024MB,设置mapreduce.map.java.opts的值为-Xmx768m,设置mapreduce.reduce.memory.mb的值为2048MB,设置mapreduce.reduce.java.opts的值为–Xmx1536m。重新启动hadoop。本题要求提交修改后的配置文件,文件名为在原有文件名加前缀”ans0103_”。(5%)任务二、数据抓取(30分)现在,网络爬虫抓取到约4G的数据,保存于arg目录的spider.log中,但其中既有电影市场放映信息数据也有其他数据,通过分析数据样本,发现从网站“/ bor/”抓取的数据包含有效的电影市场数据,数据中有效数据项包括:电影名称、上映日期、上映场次数、院线城市、导演、演员、影片类型、票房收入,请从spider.log中筛选出一部分有效数据项,并以规定格式保存于ans0201.csv文件中。本题的赛前抽取参数是:数据文件spider.log、需要保存于ans0201.csv文件的有效数据项以及有效数据项的保存格式。网页“/FilmId/”中包含观众对电影的评分信息,请编写程序抓取网页(网页样本保存于task0202目录中)上电影的评分信息并计算其统计信息(统计方法指对某部电影的评分求极值或求平均值),本题的赛前抽取参数是统计方法以及网页样本,请参赛学生将本题的答案保存于ans0202.txt文件中,注意ans0202.txt文件中只能包含一个浮点型数字,保留4位小数,文件样例如下:1.2345向Hadoop平台提交日志文件dat0203.lo
文档评论(0)