- 1、本文档共108页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2Clementine软件概述ppt课件
数据挖掘的源泉 —无所不在的数据 数据挖掘中可能出现的重要的数据问题 无所不在的数据 假设一个顾客按照购物目录购买商品(如小康之家),这样一笔交易在不同公司的众多业务系统里留下了一长串业务记录 本地电话公司知道顾客什么时候打的电话、打给谁、通话持续时间等 负责处理免费电话服务的长途电话公司(如800业务)知道通话时间、接听者及电话转接的路径 供货商知道被订购的货物是什么,订购电话的时间和通话持续长度,相应的销售额,购买者使用的信用卡,库存的变化以及送货方式等 无所不在的数据 顾客按照购物目录购买商品这样一笔交易在不同公司的众多业务系统里留下了一长串业务记录 信用卡业务处理公司知道交易日期、交易金额、授权号码、商户代号等 信用卡发行者知道支付记录、应扣利息、信用余额等 送货公司知道顾客邮政编码、包裹价值、开始装车的时间和运到分拣中心的时间等 每一个公司都可以从这个交易中获得信息以提高工作效率,从而为客户提供更优质的服务 数据结构 通常数据挖掘算法使用的数据格式是类似于电子表格的行、列形式。 而在业务系统中表通常要做规范化,至少要符合第三范式 行的含义 行的定义取决于数据挖掘的目标 列 列或字段代表了每条记录里的数据。下面介绍对于数据挖掘十分重要的一些特例的列的分布情况。 只有一种值的列 单值的列对于区分不同行不包含任何信息。因为它们缺乏任何信息内容,在数据挖掘中应该忽略 情况 预留字段可能全部都是“NULL”或者“0” 选取一个数据子集,如广东的客户,则地区代码都是“GD” 列的值各不相同 另一个极端是列在每一行上(几乎)都不相同。 这样的列精确区分每一行,例如 客户姓名 地址 电话号码 客户身符证号码 运输识别码 由于每一个记录上这些数值几乎不同,所以它们妨碍了数据挖掘算法从不同行间找出规律. 列的值各不相同 这些列也包含了大量信息 电话号码和地址包含地理信息 发动机的识别号码包含了生产年份、制造商、型号和原产地等信息 客户号码也可能可以知道哪些是必威体育精装版客户 回忆身份证编码规则和学号编码规则 在这种情况下,重要的特性应该作为派生变量提取出来,而忽略原始列 忽略与目标列同义的列 当某一列和目标列相关度很高时,可能意味着这一列是目标列的同义列。 例如 账号非空可能与市场开发同义,只有开了户的才拥有帐户号 流失日期非空与已经流失同义 忽略与目标列同义的列 对于某个特殊群体,如年龄小于40岁并且有孩子的人。所有的调查对象都有共同特点,所以年龄和小孩数目对数据挖掘来说毫无用处 数据挖掘中列的作用 列的三种基本角色是 输入列:用于模型的输入中 目标列:只有当构造预测模型时才使用 忽略列:不使用的列 属性的不同类型 数据的不同特性决定了对它们的不同度量方法。 一种指定属性类型的简单办法是确定对应于属性基本性质的数值的性质。 例如长度的属性可以有数值的许多性质:按照长度比较和确定对象的序,以及谈论长度的差异和比例是有意义的。 属性的不同类型 数值的如下性值常常用来描述属性 相异性 =和!= 序 、=、、= 加法 +和- 乘除 *和/ 属性的不同类型 根据是否有这4种性质,可以定义4种属性类型: 名词性值(nominal) 有序值 (ranks) 区间值(interval) 比率值(ratio) 次序是最重要的度量性质。但是有许多数据之间是没有次序关系的,称之为名词性值。 属性的不同类型 名词性值和序数值统称为分类的(categorical)或定性(qualitative)的属性 名词性属性(如雇员ID)不具有数的大部分性质,即便使用数如整数表示,也应当像对待符号一样处理 其余两种类型的属性,即区间和比率属性,统称为定量的(quantitative)或数值(numeric)的. 定量属性用数表示,可以是整数值(离散的)或连续值 不同的属性类型 定义属性层次的变换 属性的类型也可以用不改变属性意义的变换来描述 心理学家S. Smith Stevens最早用允许的变换(permissible transformation)来定义上表中的属性 使用保持属性意义的变换对属性进行变换时产生相同的结果 例如用米和英尺为单位进行度量时,同一组对象的平均长度数值是不同的,但是两个值都代表相同的长度 定义属性的允许的变换 有序值(Ranks) 有序值:有顺序但不允许算术运算。如“高”、“中”和“低”之间,无法度量距离 例如对于气温,可以定义属性值为:炎热(hot)、温和(mild)和(cool) 凉爽。它们的顺序是: hotmildcool coolmildhot 尽管在两个值之间进行比较是有意义的,但是将它们相加或相减都没有意义。hot和mild之间的差异不能和mild与cool之间的差异进行比较 区间值
文档评论(0)