Hadoop刘鹏云计算与数据挖掘幻灯片.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * 并行数据处理(ETL) ETL操作可以分为普通ETL和链式ETL。 普通ETL和链式ETL分别又细分为:清洗类、转换类、集成类、计算类、抽样类、集合类、更新类、及其它类8大类。 类别 组件名 功能 清洗类 数据类型检查 对输入文件逐条记录地检查每个字段的数据是否与元数据中的类型相符合 外键约束 升级主键表或升级外键表后的外键约束检查 主键约束 对数据表的主键约束检查,包括主键非空和主键唯一 缺值处理 按照指定的替换值填补数据文件中的缺值或Null值等 空值域约束 包括非空值约束、值域范围检查和自定义约束检查 去重 将完全重复的数据行丢弃 转换类 Casewhen 将符合条件的数据按指定进行转换,类似SQL的case when 计数区间化 按计数将指定字段值区间化为N个区间,每个区间数据个数相等,并为该字段按不同区间设置特定值 字段类型转换 支持对多个字段进行字段名或字段类型的修改,提供多种数据类型字段之间的强制转换 数值区间化 按数值将指定字段值区间化为N个区间,每个区间数据取值范围相等,并为该字段按不同区间设置特定值 归一化 对指定字段按该字段的均值和标准偏差,进行zscore归一化 属性交换 将属性的两列互换 关联规则数据生成 将业务订购情况数据生成购物篮数据供关联规则算法使用 PCA主成分分析 将输入数据的属性由高维降到较低的维度 集成类 Delete组件 删除符合一定表达式条件的记录 Join组件 可将多个表按指定的字段关联,包括主键join、维表join和普通join三个组件,针对不同关联情况使用不同组件 Sort组件 按用户指定排序关键字字段进行排序 Where组件 找出满足用户定义的表达式条件的记录。 计算类 计算生成列 通过对现有多字段混合计算生成的新字段 Groupby组件 对数据按照用户指定的属性聚集、汇总 统计 计算每个字段的统计信息 抽样类 分层抽样 供分类目标字段数据平衡使用 采样 按比例随机抽样数据 集合类 集合差 根据用户指定的数据文件和集合运算表达式进行2个集合的差运算 集合交并 根据用户指定的数据文件和集合运算表达式进行多个集合间的交,并运算。 更新类 Update组件 更新,类似数据库Update Insertupdate组件 增量更新,类似数据库Insertupdate 其他类 数据集分割 根据比例将数据分割为训练集和测试集两个数据 清洗类-数据类型检查 根据元数据中各个字段的数据类型,对输入文件逐条记录地检查每个字段的数据是否与元数据中的类型相符合,支持多种日期类型。对发现不满足数据类型的记录,应用异常数据处理规则。并在有效性验证后提供一个验证报告,包括丢弃了多少数据、对数据进行了什么处理等信息。 参数 说明 输入文件 设置输入文件的地址及文件名 输出文件 设置输出文件的地址及文件名 另存路径 设置异常数据文件的地址和文件名 numOfmap 设置Map个数 numOfreduce 设置Reduce个数 转换类-caseWhen 根据用户输入的条件,将指定字段的值进行转换,类似SQL的case when。用户指定转换的字段与转换规则。支持对多字段进行转换,支持对某个字段多个转换规则,支持default规则。可以配置转换生成列的元数据信息。 参数 说明 输入文件 设置输入文件的地址及文件名 输出文件 设置输出文件的地址及文件名 生成字段名 设置要生成字段的名字 字段类型 设置要生成字段的类型 条件表达式 当条件表达式为真时,执行替换表达式 替换表达式 设置替换表达式 numOfmap 设置Map个数 numOfreduce 设置Reduce个数 1???? 并行分类算法Classifiers4MR 分类功能应以用户提供的历史消费清单作为训练数据,这些数据中有一个属性作为分 类属性,且每条记录已标明分类属性的值。分类算法应提供两方面基本功能: (1) 学习分类模型:从训练集数据中发现潜在的分类模型,并以特定方式表达 (2) 预测:对用户新提供的数据集,依据分类模型预测出所属类别 并行分类算法包括:EmptyClassifier4M、C45决策树、CBC分类、CBR分类、K近邻、朴素贝叶斯、层次C45决策树、线性回归分类、神经网络算法。 BC-PDM挖掘算法 神经网络算法 把整个神经网络的神经元划分成不同层次,对同层次内的不同神经元进行并行参数计算,并通过统一调度和精度控制对神经元进行快速的并行化训练。训练完毕后,对于每一个输入,通过并行化神经网络快速地得到输出 参数 设置 trainInputPath 设置训练集在DFS上的路径 testInputPath 设置测试集在DFS上的路径 predictInputPath 设置预

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档