数据挖掘原理与SPSSClementine应用宝典第23章数据挖掘项目实施教学幻灯片讲义.pptVIP

数据挖掘原理与SPSSClementine应用宝典第23章数据挖掘项目实施教学幻灯片讲义.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
教学课件课件PPT医学培训课件教育资源教材讲义

23.4.2.3归因或填充缺失值 在仅有少量缺失值的情况下,可以用插入值来替换空值。下列方法可用于输入缺失值: 替换为固定值(可以选用字段平均值、范围中间值或者指定的常数)。 替换为基于正态分布或均匀分布产生的随机值。 用于指定定制表达式。例如,可以使用设置全局量节点创建的全局变量进行替换。 基于CRT算法替换为模型预测的值。对于使用此方法输入的每个字段,都会有一个单独的CRT模型,还有一个填充节点会使用该模型预测的值替换空白值和Null值。然后使用过滤节点删除该模型生成的预测字段。 如果还要为特定字段强制赋值,则可以使用类型节点来确保字段类型仅包含合法值,然后将需要替换空值字段的检查列设置为强制。 23.4.3用CLEM函数处理缺失值 表达式操作语言CLEM全名为Clementine Language for Expression Manipulation,是在Clementine中执行函数运算时的专用语法,用于分析和操纵在Clementine流中流动的数据,是一个功能强大的语言。 有多个CLEM函数可用于处理缺失值。选择节点和填充节点中经常会用以下函数来删除或填充缺失值: count_nulls(LIST) @BLANK(FIELD) @NULL(FIELD) undef @函数可以与@FIELD函数一起使用,来识别一个或多个字段中是否存在空值或非Null值。当出现空值或非Null值时,一般会对此类字段进行标记,也可以用替换值填充或者在各种其他操作中使用此类字段。 如下所示,可以计算字段列表中的非Null值的数量: count_nulls([‘cardtenure’‘card2tenure’‘card3tenure]) 如果要使用接受输入类型的字段列表的函数,则可以使用特定的@FIELDS_BETWEEN和@FIELDS_MATCHING函数,如下所示: count_nulls(@FIELDS_MATCHING(‘card*)) 在选择字段中用填充节点把缺失值替换成0,如图23-18用填充节点将选定字段中的非Null值替换为0所示。 23.5导入和导出PMML模型 PMML(predictive model markup language,称为预测模型标记语言)是一个XML基础的标准,以XML文件类型定义DTD形式,用于描述数据挖掘和统计模型,包括模型的输入、用于为数据挖掘准备数据的变换、以及定义模型自身的参数。Clementine可导入和导出PMML模型,使其能够与其他支持此格式的应用程序(例如,SPSS、SPSS Categorize)共享模型 。 23.5.1支持PMML的模型类型 23.5.1.1 PMML 3.1导入 Clementine可以导入并评分由SPSS所有产品生成的PMML 3.1模型,包括从Clementine导出的模型和由SPSS 15.0生成的模型或变换PMML模型。实质上,这包括了SPSS Smartscore组件可以评分的所有PMML模型,但以下几种情况例外: (1)无法导入Apriori、CARMA及异常检测模型。 (2)将PMML模型导入到Clementine后,虽然可以对其进行评分,但不能进行浏览。 (3)不能导入无法评分的模型。 (4)以PMML格式导出的IBM Intelligent Miner模型,无法重新导入到Clementine中。 * * 数据挖掘原理与SPSS Clementine应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著 电子工业出版社 本章包括: 数据挖掘项目实施步骤 1 2 3 数据挖掘项目周期 单击此处添加段落文字内容 单击此处添加段落文字内容 单击此处添加段落文字内容 单击此处添加段落文字内容 单击此处添加段落文字内容 单击此处添加段落文字内容 建立项目和报告 处理缺失值 导入和导出PMML模型 3 4 5 23.1数据挖掘项目实施步骤 23.1.1一般实施步骤? 一般而言,数据挖掘项目要经历的过程包括:问题理解和提出、?数据准备、数据整理?、建立模型、评价和解释等一系列任务,其流程如图23-1所示 。 23.1.2企业解决方案 23.1.2.1 SEMMA模式 23.1.2.2 SPSS-5A模型 23.1.3标准过程模型? 商业理解 数据理解 数据准备 建立模型 模型评估 模型发布 23.2数据挖掘项目周期 23.3建立项目和报告 23.3.1项目概述 表面上,Clementine项目只是一种组织输出的简单方式,但实际上它能做更多的工作,主要包括以下工作: (1)注

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档