Clementine上机操作实验指导.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算每个记录与其所属类群质心的距离 从 计算每个聚类和其它聚类的距离 点击“执行”按钮,即可在管理器窗口的“模型”标签下显示生成的K-Means模型节点。 默认(Default)停止条件是迭代20次或者差异容忍度0.000001,其中任一项达到就停止。 调节因子η 右键单击管理器窗口“模型”标签下生成的K-Means模型节点,在快捷菜单中选择“浏览”,打开“K-Means”对话框,在“模型”标签下会显示划分出来的三个聚类,点击“全部展开”,则可以显示每个簇的一些统计信息 将生成的K-Means模型节点拖入到数据流区域 在Clementine中应用TwoStep 在Clementine中应用序列模式挖掘 对某超市的顾客购物事务数据库进行分析以提取序列模式。从事务数据库中随机抽取10个顾客,每个顾客都有多次购物记录,组成训练数据集,共67个训练样本,存放在sequence.xls文件中。样本属性包括顾客ID、购物时间以及商品名称 数据流 设置序列节点的字段属性 建模基本设置 建模高级设置 生成的序列模式 预测结果 字段实例化 在读取值前数据称为未实例化,字段设置为连续或离散型 通过读取值后数据完全实例化,字段的取值和类型都是可知的 通过类型节点或数据源节点上的类型条目可以指定数据类型 字段实例化 何时在源节点实例化 数据集不太大 不打算以后在流中增加字段 何时在类型节点实例化 数据集较大,而且流在类型节点前就过滤了子集 数据在流中被过滤 数据在流中被合并或追加 在处理过程中导出新的数据字段 字段类型 用变项文件节点读取SmallSampleComma.txt 字段实例化 将ID字段的类型修改为无类型 字段方向 输入:输入或者预测字段 输出:输出或者被预测字段字段 两者:既是输入又是输出,只在关联规则中用到 无:建模过程中不使用该字段 分区:将数据拆分为训练、测试(验证)部分 字段方向设置只有在建模时才起作用 在Clementine中应用Apriori算法 应用Apriori节点来对某超市的客户采购数据集进行购物篮分析。该数据集包含有21个属性(这些属性包括:COD、pasta、milk、water、biscuits、coffee、brioches、yoghurt、frozen vegetables、tunny、beer、tomato、souce、coke、rice、juices、crackers、oil、frozen fish、ice cream、mozzarella、tinned meat。其中“COD”是记录编号,其它20个属性代表20种商品),共46243个记录。每个属性代表某种商品,其取值为“0”或者“1”,“0”表示没有购买该商品,“1”表示购买了该商品。 数据源 设置“类型”节点 设置“Apriori”节点 “Apriori”节点的高级选项 浏览模型 在Clementine中应用C5.0 用C5.0算法对某银行的信贷历史记录进行数据挖掘的案例,通过构建决策树并形成规则,为银行的信贷服务提供决策支持。目标是要找出银行批准或否决贷款人的信用申请的标准。 数据存放在文件crx.data中。一共包含690个样本,16个属性。由于商业必威体育官网网址的缘故,属性名称用A1,A2,…,A16来表示,其中A16是类标号属性,有两个取值:“+”和“﹣”,“+”表示信贷申请被通过,“﹣”表示信贷申请被否决。用“写字板”可以打开crx.data文件。需要注意的是,一些属性的值为“?”,表示值缺失。 添加数据源节点 编辑“数据源节点” 节点重命名 加入表节点 “选择”节点 A1=? or @NULL(A2) or @NULL(A3) or A4=? or A5=? or A6=? or A7=? or @NULL(A8) or A9=? or A10=? or @NULL(A11) or A12=? or A13=? or @NULL(A14) or @NULL(A15) or A16=? , “类型”节点 “抽样”节点 “C5.0”节点 生成的决策树模型 图 将测试数据集输入模型 得到测试数据的分类结果 对预测结果的分析 分析结果 有91.41%的测试样本(298个)的预测值和实际值相符 8.59%的测试样本(28个)的预测值和实际值不符 在28个预测错误的样本中,实际值为“+”但被预测为“-”的样本有19个,实际值为“-”但被预测为“+”的样本有9个。对预测类别“+”和“-”的绩效评价统计量分别为1.226和0.22。 在Clementine中应用k-means 根据饮料中的五种微量元素的含量(毫克/升)来对这15种饮料进行分组。 Clementine实验指导 主要内容 Clementi

文档评论(0)

jyr0221 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档