- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Chapter15-厦门大学-林子雨-大数据技术原理与应用-第十五章-Hadoop架构再探讨(2016年4月13日版本).ppt
15.4Hadoop生态系统中具有代表性的功能组件 15.4.1 Pig 15.4.2 Tez 15.4.3 Spark 15.4.4 Kafka 15.4.1Pig Pig是Hadoop生态系统的一个组件 提供了类似SQL的Pig Latin语言(包含Filter、GroupBy、Join、OrderBy等操作,同时也支持用户自定义函数) 允许用户通过编写简单的脚本来实现复杂的数据分析,而不需要编写复杂的MapReduce应用程序 Pig会自动把用户编写的脚本转换成MapReduce作业在Hadoop集群上运行,而且具备对生成的MapReduce程序进行自动优化的功能 用户在编写Pig程序的时候,不需要关心程序的运行效率,这就大大减少了用户编程时间 通过配合使用Pig和Hadoop,在处理海量数据时就可以实现事半功倍的效果,比使用Java、C++等语言编写MapReduce程序的难度要小很多,并且用更少的代码量实现了相同的数据处理分析功能 15.4.1Pig Pig可以加载数据、表达转换数据以及存储最终结果 Pig语句通常按照如下的格式来编写: 通过LOAD语句从文件系统读取数据 通过一系列“转换”语句对数据进行处理 通过一条STORE语句把处理结果输出到文件系统中,或者使用DUMP语句把处理结果输出到屏幕上 图15-10 Pig在企业数据分析系统中的作用 15.4.1Pig 下面是一个采用Pig Latin语言编写的应用程序实例,实现对用户访问网页情况的统计分析: visits = load ‘/data/visits’ as (user, url, time); gVisits = group visits by url; visitCounts = foreach gVisits generate url, count(visits); //得到的表的结构visitCounts(url,visits) urlInfo = load ‘/data/urlInfo’ as (url, category, pRank); visitCounts = join visitCounts by url, urlInfo by url; //得到的连接结果表的结构visitCounts(url,visits,category,pRank) gCategories = group visitCounts by category; topUrls = foreach gCategories generate top(visitCounts,10); store topUrls into ‘/data/topUrls’; 1 visits = load ‘/data/visits’ as (user, url, time); 2 gVisits = group visits by url; 3 visitCounts = foreach gVisits generate url, count(visits); //得到的表的结构visitCounts(url,visits) 4 urlInfo = load ‘/data/urlInfo’ as (url, category, pRank); 5 visitCounts = join visitCounts by url, urlInfo by url; //得到的连接结果表的结构visitCounts(url,visits,category,pRank) 6 gCategories = group visitCounts by category; 7 topUrls = foreach gCategories generate top(visitCounts,10); 8 store topUrls into ‘/data/topUrls’; 15.4.1Pig 图15-11 从Pig Latin脚本转化得到的MapReduce作业 Pig Latin是通过编译为MapReduce在Hadoop集群上执行的。统计用户访问量程序被编译成MapReduce时,会产生如图所示的Map和Reduce 1 2 3 4 5 6 7 15.4.1Pig Pig的应用场景 数据查询只面向相关技术人员 即时性的数据处理需求,这样可以通过pig很快写一个脚本开始运行处理,而不需要创建表等相关的事先准备工作 Pig主要用户 Yahoo!: 90%以上的MapReduce作业是Pig生成的 Twitter: 80%以上的MapReduce作业是Pig生成的 Lin
您可能关注的文档
- 201112111924326710苏州园林.ppt
- 2011中招结核病讲课网版.-.201139151158.ppt
- 20121124-浙江经贸商玮-电子商务校企合作汇报.pptx
- 2012届江西省高考研讨会议材料:(五).ppt
- 2012年年报服务业(行政事业单位)工资统计布置会讲稿.ppt
- 2012年新学期开学讲话(张民选).pptx
- 20131217上午直播特色理论体系理论.ppt
- 2013下教材分析李馨修改版.ppt
- 2013前三章教案.ppt
- 2013杭州专题研训活动.ppt
- Chapter5-厦门大学-林子雨-大数据技术原理与应用-第五章-NoSQL数据库(2016春季学期授课版本).ppt
- CRDR和PACS技术.ppt
- Creative Financing to Scale up ECD Programs in Africa .ppt
- d1-3-美术.ppt
- deb每日新闻早会资讯2016年4月25日早会使用19页.ppt
- Deviance and OCB 偏差与组织公民行为.ppt
- direction n. 方向;指示location n.位置;地点peace n. 和平.ppt
- displayFileInfo.doproject=imo&file=8a8181994d7ad90c014d7b56246b0008&name=IMO%20MSC94%20%E6%96%B0%E8%A6%81%E6%B1%82%E5%AE%A3%E8%AE%B2%E5%9F%B9%E8%AE%AD-Office2007%E6%A0%BC%E5%BC%8F.pptx
- download_file.phpid=53&file_name=1411635962&file_times=26543}&file_truename=2015届毕业生就业网录入生源信息等操作示意图.pptx
- Drupal与高校.pptx
文档评论(0)