- 1、本文档共65页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
kettle开源etl平台_安装配置及使用说明v1.1
[] 初稿 [ ] 发布[ √] 修订编撰:肖渺编撰日期:****-**-**必威体育官网网址级别:公开文档版本:1.0【 KETTLE开源ETL软件 】【安装配置与使用说明】2015年09月修订记录版本修订者修正日期修正内容审核人审核日期批准人批准日期1.0肖渺2015-09初稿1.1肖渺2015-10增加Hadoop Plugin相关配置对应章节1.2肖渺2015-11增加2.2-2.5章节1.3肖渺2015-12增加2.1.6 MapReduce开发部分章节目录修订记录21.安装与配置41.1ETL与Kettle概述41.2Kettle的下载与安装61.2.1Windows下安装配置Kettle71.2.2Linux下安装配置Kettle91.2.3Kettle下安装JDBC数据库驱动141.2.4Kettle下配置资源库连接141.2.5Kettle下Hadoop Plugin插件配置152.KETTLE组件介绍与使用182.1Kettle SPOON使用182.1.1组件树介绍182.1.2使用示例1212.1.3使用示例2352.1.4使用Kettle装载数据到HDFS462.1.5使用Kettle装载数据到Hive502.2Kettle PAN的使用602.3Kettle KITECHEN的使用612.4Carte 添加新的ETL执行引擎622.5Encr加密工具64安装与配置2015年下半年公司承接了江苏电信电子渠道中心数据分析项目,项目实现计划使用大数据应用与分析相关的开源组件与技术来实现;针对数据的抽取与清理,需要使用ETL工具;针对不同的数据源的数据整合需求,考虑到项目投资与开发成本,项目组初步计划采用开源ETL工具;ETL (Extract,Transformation,Load)工具是构建数据仓库、进行数据整合工作所必须使用的工具。目前市面有多种商业 ETL 工具,如InformaticaPowerCenter, IBM Datastage等。目前市场上开源且实用的 ETL 工具比较少,Kettle 就是为数不多的优秀开源 ETL 工具之一。经过比较与分析,选择了Kettle作为本项目使用的ETL工具。ETL与Kettle概述ETL(Extract、Transform、Load,抽取、转换、装载),它是BI项目中最常见、基础的数据加工行为。构建数据仓库期间,各类业务系统的数据需要经过严格的ETL过程,才能够进入到数据仓库中,进而为后续的数据展现、分析提供支撑。通常,由于企业的各业务系统数据口径不一致,比如不同应用存储性别的方式存在差异性、银行应用中不同币种的统一、零售应用中商品计价方式的统一等,使得BI项目必须实施ETL工作,否则在含糊、不准确的数据上进行各种数据行为是徒劳的、没有意义的。在另外一些场合,企业往往需要对TB级别的数据进行各种数据聚合、粗和精加工。比如,在制作即席报表期间,用户希望这些报表的运行时间越短越好,然而如果报表使用到的数据粒度很细、数据量很大,则要控制好报表的运行时间估计够呛。此时,我们往往需要对数据进行各种层次的聚合操作,比如可以将“日”级别存储的数据预先聚合成按周、月、季度的数据。将来,运行报表的时间将得到有效控制,毕竟RDBMS能够更快速响应客户提交的SQL请求。设计并运行良好的ETL过程可以很好地完成上述任务。Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix等不同的操作系统平台上运行,数据抽取高效稳定。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述用户想做什么,而不是用户想怎么做。在Kettle ETL解决方案中,主要存在两种ETL工件:转换(Transformation)和作业(Job)。ETL转换,专注于数据加工本身,比如装卸数操作、数据编码转换;ETL作业,专注于流程控制,比如执行若干ETL转换、将加工后的文件借助SSH2传输出去等。通常,ETL作业会包含若干ETL转换,并控制它们的执行,而且作业会以一定周期执行,比如每周二执行、每隔3小时执行等。Kettle家族目前包括4个产品:SPOON、PAN、CARTE、KITCHEN。SPOON允许你通过图形界面来设计ETL转换过程(Transformation)。PAN允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。CARTE类似于Pentaho管理控制台,它们都宿主在Jetty Web容器中,但各自承担的使命不同。Carte用于远程执行Kettle ETL转换和作业。KITCHEN允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)。KITCHEN也是
文档评论(0)