网站大量收购独家精品文档,联系QQ:2885784924

DM_Chap4的_数据理解.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据理解 第四章 数据理解 4.1 数据理解的主要作用 4.2 变量说明 4.3 数据质量的评估和调整 4.4 数据的排序 4.5 数据的分类汇总 4.1 数据理解的主要作用 依据数据挖掘方法论,数据理解在数据挖掘过程中起着举足轻重的作用,其目的是把握数据的总体质量,了解数据的大致范围。 数据理解主要包括数据质量评估和调整、数据的有序浏览和多维度汇总等 第四章 数据理解 4.1 数据理解的主要作用 4.2 变量说明 4.3 数据质量的评估和调整 4.4 数据的排序 4.5 数据的分类汇总 4.2 变量说明 变量说明是确保高质量数据的有效途径 变量说明主要包括两个方面 对数据流中变量取值的有效性进行限定、检查和调整 对各个变量在未来数据建模中的角色进行说明 可通过记录选项卡中的Type节点进行变量说明 数据浏览 将Output选项卡中的Table节点连接到数据流中 浏览数据,发现存在的问题 利用Type节点解决数据存在的问题 将字段选项卡中的Type节点连接到数据流中 变量的重新实例化 数据读入时变量需要进行实例化,当数据源节点中的数据有更新,或数据流派生出一些新的变量,或进行了数据集成操作,或原有变量的类型有了新的调整时,变量需要实例化。 Clear Values或Clear All Values,强制所有变量变为非实例化状态,所有变量Values项自动取值为Read Values列的取值 Read:读入数据进行重新实例化 Read+:读入数据且新数据自动追加到原有数据的后面 Pass:不读入变量值 Current:保持变量的当前值,不重新实例化 Read Values进行变量的重新实例化,Values列将显示各变量值的取值范围 有效变量值和无效值调整 有效值是正常取值范围内的值 无效值是变量有效取值之外的值,通常称为缺失值,Clementine中的缺失值通常包括两类 系统缺失值,用$Null$表示,还包括空串和空格等 用户缺失值,主要指那些取值明显不合理的数据 变量有效值范围和缺失值的说明 变量有效取值范围和缺失值的说明,应通过Missing列的选项来实现 On(*):允许相应变量取用户缺失值和系统缺失值,且不进行调整 Off:不允许相应变量取用户缺失值 Specify:说明变量的有效取值范围等,并制定数据调整方法 对变量是否无偿献血的说明 类型:显示当前变量的计量类型和存储类型 值:用来指定确定变量取值范围的方法 Read from data:取决于所读的外部数据 Pass:忽略所读的外部数据 Specify:指定变量取值和变量值标签 Check values:选择对变量不合理值的调整方法 None:不进行调整 Nullify:将用户缺失值调整为系统缺失值$null$ Coerce:调整为指定值,Clementine默认,Flag型变量调整为False类对应的值,Set型变量调整为第一个变量值,数值型变量,大于上限的调整为上限值,小于下限的调整为下限值,其余值调整为(最大值+最小值)/2 Discard:剔除相应数据 Warn:遇到不合理取值时给出警告信息 Abort:遇到不合理取值时终止数据流的执行 对变量是否无偿献血的说明(续) Define blanks: 选中该选项,表示视Missing Values表所列值,及某区间内的连续值、$Null$、空格(White space)为空(Blanks) 指定为空的目的是将无须或无法调整的用户缺失值和系统缺失值,与变量的正常值区分开,便于后续的数据分析 说明:用于输入变量名标签,是变量含义的简短说明文字 对变量家庭人均年收入的说明 家庭人均年收入的取值范围不能直接由外部数据决定,否则系统将视999999(用户缺失值)为正常值,应在Lower和Upper框中手工输入合理的取值区间为6617~503308 由于希望对家庭人均年收入中的999999和$null$值进行调整,不应选中Define blanks项,系统将自动视999999和$null$为超出取值范围的不合理取值,并按用户指定的Coerce方法进行调整 返回后,家庭人均年收入的Missing列上为空,表示该变量不存在用户缺失值。 变量角色的说明 变量角色是指变量在模型建立时的角色 变量角色的说明也称为变量方向的说明 In:作为输入变量 Out:作为输出变量 Both:某些模型中,有的变量即可作为输入变量,又可作为输出变量 Partition:样本集分割角色 None:无角色 第四章 数据理解 4.1 数据理解的主要作用 4.2 变量说明 4.3 数据质量的评估和调整 4.4 数据的排序 4.5 数据的分类汇总 数据的基本特征与数据质量报告 数据质量评估和调整,是对现有数据的取值异常程度以及缺失情况等进行

文档评论(0)

liwenhua00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档