- 1、本文档共46页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Chapter15-厦门大学-林子雨-大数据技术原理与应用-第十五章-Hadoop架构再探讨(2016年4月13日版本)讲解
15.4Hadoop生态系统中具有代表性的功能组件 15.4.1 Pig 15.4.2 Tez 15.4.3 Spark 15.4.4 Kafka 15.4.1Pig Pig是Hadoop生态系统的一个组件 提供了类似SQL的Pig Latin语言(包含Filter、GroupBy、Join、OrderBy等操作,同时也支持用户自定义函数) 允许用户通过编写简单的脚本来实现复杂的数据分析,而不需要编写复杂的MapReduce应用程序 Pig会自动把用户编写的脚本转换成MapReduce作业在Hadoop集群上运行,而且具备对生成的MapReduce程序进行自动优化的功能 用户在编写Pig程序的时候,不需要关心程序的运行效率,这就大大减少了用户编程时间 通过配合使用Pig和Hadoop,在处理海量数据时就可以实现事半功倍的效果,比使用Java、C++等语言编写MapReduce程序的难度要小很多,并且用更少的代码量实现了相同的数据处理分析功能 15.4.1Pig Pig可以加载数据、表达转换数据以及存储最终结果 Pig语句通常按照如下的格式来编写: 通过LOAD语句从文件系统读取数据 通过一系列“转换”语句对数据进行处理 通过一条STORE语句把处理结果输出到文件系统中,或者使用DUMP语句把处理结果输出到屏幕上 图15-10 Pig在企业数据分析系统中的作用 15.4.1Pig 下面是一个采用Pig Latin语言编写的应用程序实例,实现对用户访问网页情况的统计分析: visits = load ‘/data/visits’ as (user, url, time); gVisits = group visits by url; visitCounts = foreach gVisits generate url, count(visits); //得到的表的结构visitCounts(url,visits) urlInfo = load ‘/data/urlInfo’ as (url, category, pRank); visitCounts = join visitCounts by url, urlInfo by url; //得到的连接结果表的结构visitCounts(url,visits,category,pRank) gCategories = group visitCounts by category; topUrls = foreach gCategories generate top(visitCounts,10); store topUrls into ‘/data/topUrls’; 1 visits = load ‘/data/visits’ as (user, url, time); 2 gVisits = group visits by url; 3 visitCounts = foreach gVisits generate url, count(visits); //得到的表的结构visitCounts(url,visits) 4 urlInfo = load ‘/data/urlInfo’ as (url, category, pRank); 5 visitCounts = join visitCounts by url, urlInfo by url; //得到的连接结果表的结构visitCounts(url,visits,category,pRank) 6 gCategories = group visitCounts by category; 7 topUrls = foreach gCategories generate top(visitCounts,10); 8 store topUrls into ‘/data/topUrls’; 15.4.1Pig 图15-11 从Pig Latin脚本转化得到的MapReduce作业 Pig Latin是通过编译为MapReduce在Hadoop集群上执行的。统计用户访问量程序被编译成MapReduce时,会产生如图所示的Map和Reduce 1 2 3 4 5 6 7 15.4.1Pig Pig的应用场景 数据查询只面向相关技术人员 即时性的数据处理需求,这样可以通过pig很快写一个脚本开始运行处理,而不需要创建表等相关的事先准备工作 Pig主要用户 Yahoo!: 90%以上的MapReduce作业是Pig生成的 Twitter: 80%以上的MapReduce作业是Pig生成的 Lin
您可能关注的文档
- 博莱特空压机使用说明书讲述.doc
- CECS02:88超声回弹综合法检测混凝土强度技术规程讲解.doc
- CentOS6.3下Samba服务器的安装与配置讲解.doc
- 占空比可调的时钟脉冲发生器实验报告讲述.doc
- 博雅汉语初级起步篇1第19课现在习惯了讲述.pptx
- CEO、CTO、CFO等释义讲解.doc
- CentOS6.3下源码安装LAMP(Linux+Apache+Mysql+Php)环境讲解.docx
- 博雅汉语初级起步篇第7课讲述.ppt
- 卡尔·霍夫兰讲述.ppt
- 企业导入现场管理评价规范精要.ppt
- 第六章物料与产品管理58课件.pptx
- 《物联网设备安全漏洞分析与防范在智能仓储物流中的实践探索》教学研究课题报告.docx
- 《基于生态足迹的生态补偿机制在四川盆地生态脆弱区保护中的应用》教学研究课题报告.docx
- 《人工智能赋能下的图像风格迁移算法改进与优化》教学研究课题报告.docx
- 2025至2030年中国聚维酮K30行业市场研究分析及投资前景研判报告.docx
- 初中历史教学中历史解释能力培养的困境与突破研究教学研究课题报告.docx
- 初中地理气候趋势预测报告评价与机器学习辅助教学研究教学研究课题报告.docx
- 2024-2025学年湖南省湘西高三考前训练英语试题试卷含解析.doc
- 《社区卫生服务中心中医药适宜技术推广中的挑战与对策探讨》教学研究课题报告.docx
- 高中生网络直播消费行为的动机与影响因素分析教学研究课题报告.docx
最近下载
- H3C Workspace云桌面 客户端定制配置指导(办公场景)-5W104.pdf
- 小学班队活动设计方案.pptx VIP
- 国开电大 道路工程 形考任务1-4答案.pdf VIP
- 小学班队工作原理与实践教案.doc VIP
- 701-第七章-小学班队活动管理.pptx VIP
- 2025年混凝土质量控制及管理制度(二篇) .pdf VIP
- 在线网课学堂《领导学:领导力成长路线图》单元测试考核答案.pdf
- GB 44022-2024硝酸铵安全技术规范解读.pptx VIP
- 在线网课学习课堂《人工智能与生物特征识别(北理 )》单元测试考核答案.pdf VIP
- Unit 5 Is this your pen (说课稿)-2024-2025学年湘少版(三起)(2024)英语三年级上册.docx VIP
文档评论(0)