- 1、本文档共27页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章 数据理解 第四章 数据理解 4.1 数据理解的主要作用 4.2 变量说明 4.3 数据质量的评估和调整 4.4 数据的排序 4.5 数据的分类汇总 4.1 数据理解的主要作用 依据数据挖掘方法论,数据理解在数据挖掘过程中起着举足轻重的作用,其目的是把握数据的总体质量,了解数据的大致范围。 数据理解主要包括数据质量评估和调整、数据的有序浏览和多维度汇总等 第四章 数据理解 4.1 数据理解的主要作用 4.2 变量说明 4.3 数据质量的评估和调整 4.4 数据的排序 4.5 数据的分类汇总 4.2 变量说明 变量说明是确保高质量数据的有效途径 变量说明主要包括两个方面 对数据流中变量取值的有效性进行限定、检查和调整 对各个变量在未来数据建模中的角色进行说明 可通过记录选项卡中的Type节点进行变量说明 数据浏览 将Output选项卡中的Table节点连接到数据流中 浏览数据,发现存在的问题 利用Type节点解决数据存在的问题 将字段选项卡中的Type节点连接到数据流中 变量的重新实例化 数据读入时变量需要进行实例化,当数据源节点中的数据有更新,或数据流派生出一些新的变量,或进行了数据集成操作,或原有变量的类型有了新的调整时,变量需要实例化。 Clear Values或Clear All Values,强制所有变量变为非实例化状态,所有变量Values项自动取值为Read Values列的取值 Read:读入数据进行重新实例化 Read+:读入数据且新数据自动追加到原有数据的后面 Pass:不读入变量值 Current:保持变量的当前值,不重新实例化 Read Values进行变量的重新实例化,Values列将显示各变量值的取值范围 有效变量值和无效值调整 有效值是正常取值范围内的值 无效值是变量有效取值之外的值,通常称为缺失值,Clementine中的缺失值通常包括两类 系统缺失值,用$Null$表示,还包括空串和空格等 用户缺失值,主要指那些取值明显不合理的数据 变量有效值范围和缺失值的说明 变量有效取值范围和缺失值的说明,应通过Missing列的选项来实现 On(*):允许相应变量取用户缺失值和系统缺失值,且不进行调整 Off:不允许相应变量取用户缺失值 Specify:说明变量的有效取值范围等,并制定数据调整方法 对变量是否无偿献血的说明 类型:显示当前变量的计量类型和存储类型 值:用来指定确定变量取值范围的方法 Read from data:取决于所读的外部数据 Pass:忽略所读的外部数据 Specify:指定变量取值和变量值标签 Check values:选择对变量不合理值的调整方法 None:不进行调整 Nullify:将用户缺失值调整为系统缺失值$null$ Coerce:调整为指定值,Clementine默认,Flag型变量调整为False类对应的值,Set型变量调整为第一个变量值,数值型变量,大于上限的调整为上限值,小于下限的调整为下限值,其余值调整为(最大值+最小值)/2 Discard:剔除相应数据 Warn:遇到不合理取值时给出警告信息 Abort:遇到不合理取值时终止数据流的执行 对变量是否无偿献血的说明(续) Define blanks: 选中该选项,表示视Missing Values表所列值,及某区间内的连续值、$Null$、空格(White space)为空(Blanks) 指定为空的目的是将无须或无法调整的用户缺失值和系统缺失值,与变量的正常值区分开,便于后续的数据分析 说明:用于输入变量名标签,是变量含义的简短说明文字 对变量家庭人均年收入的说明 家庭人均年收入的取值范围不能直接由外部数据决定,否则系统将视999999(用户缺失值)为正常值,应在Lower和Upper框中手工输入合理的取值区间为6617~503308 由于希望对家庭人均年收入中的999999和$null$值进行调整,不应选中Define blanks项,系统将自动视999999和$null$为超出取值范围的不合理取值,并按用户指定的Coerce方法进行调整 返回后,家庭人均年收入的Missing列上为空,表示该变量不存在用户缺失值。 变量角色的说明 变量角色是指变量在模型建立时的角色 变量角色的说明也称为变量方向的说明 In:作为输入变量 Out:作为输出变量 Both:某些模型中,有的变量即可作为输入变量,又可作为输出变量 Partition:样本集分割角色 None:无角色 第四章 数据理解 4.1 数据理解的主要作用 4.2 变量说明 4.3 数据质量的评估和调整 4.4 数据的排序 4.5 数据的分类汇总 数据的基本特征与数据质量报告 数据质量评估和调整,是对现有数据的取值异常程度以及缺失情况等进行
您可能关注的文档
- Coolsand 平台音频工具的使用方的法及音频调节经验.pdf
- COM 组的件设计与应用.pdf
- Co的ntrol.DataBinding数据绑定细解.pdf
- CPA会计笔记(表格整理的版).doc
- COM原的理及组件开发.ppt
- COPD患者的如何使用无创呼吸机.pptx
- CPP程序设的计2:变量和常量.pdf
- Creo2.0数的控加工说明书.docx
- cpl随钻的测井介绍.ppt
- crypto4c-ch19-恶意代码的和软件.ppt
- 甘肃省XB师范大学附属中学2025届高三上学期一模诊断考试地理答案.doc
- 甘肃省XB师范大学附属中学2025届高三上学期一模诊断政治含解析.doc
- 安徽省皖江名校2024-2025学年高一上学期12月联考英语无答案.doc
- 2025年1月八省联考高考综合改革适应性测高三化学陕西山西宁夏青海卷无答案.doc
- 2025年1月八省联考高考综合改革适应性测高三化学四川卷无答案.doc
- 2025年1月八省联考高考综合改革适应性测高三政治陕西山西宁夏青海卷无答案.doc
- 2025年1月内蒙古自治区普通高等学校招生考试适应性测试(八省联考)历史无答案.doc
- 2025年1月内蒙古自治区普通高等学校招生考试适应性测试(八省联考)历史含解析.doc
- 2025年1月四川省普通高等学校招生考试适应性测试(八省联考)历史含解析.doc
- 2025年1月四川省普通高等学校招生考试适应性测试(八省联考)政治无答案.doc
文档评论(0)