商务智能课程论文基于SPSSModeler的自行车销售预测分析.docxVIP

商务智能课程论文基于SPSSModeler的自行车销售预测分析.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录引言31.决策树演算法 (Decision Tree) 简介31.1决策树演算法的原理31.2决策树演算法的选择41.3 CHAID算法简介42.自行车销售数据栏位和特征分析53.建立决策树模型串流63.1读取数据63.2 数据类型定义73.3决策树节点设定74.生成模型与修正模型95.模型分析13基于SPSS Modeler的自行车销售预测分析引言随着资讯科技的演进,如何通过方法有效的分析海量数据,并从其中找到有利的规格或资讯已经成为一种趋势。而决策树演算法是目前在进行数据分析时很常用的分类方法,本文将使用 IBM SPSS Modeler进行实作,介绍决策树 (Decision tree) 演算法于零售领域的应用实例。IBM SPSS Modeler包含多种决策树模型,包括 C5.0、CR Tree、Quest、CHAID。首先,本文将会简介决策树演算法的基本原理,接着会针对案例数据 (某公司自行车销售数据) 进行初步的数据分析,并套入决策树模型中,分析、解释并讨论最后的结果。本文所用分析工具为IBM SPSS Modeler 17 试用版,所建立模型需IBM SPSS Modeler 15及以上版本才可正常查看。1.决策树演算法 (Decision Tree) 简介1.1决策树演算法的原理决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。决策树演算法的比较决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 CR Tree 四种。1.)C5.0由 C4.5 演化而来。此演算法的分类原理主要是利用资讯衡量标准 (Information Measure) 来构建决策树,并对每一个节点产生不同数目的分支来分割数据,直到数据无法分割为止。C5.0 的目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。而输入字段的数据型态则适用连续类型 (Continuous) 的测量级别。2.)CHAID (Chi-Square Automatic Interaction Detector)此演算法和前述的 C5.0 概念很像,均可以在每一个节点产生不同数目的分支来分割数据,用来建立决策树。但是在背后分类的原理则利用卡方分析检定 (Chi-square F test) 来进行分支,通过卡方检定来计算节点中的 P-value,来决定数据是否仍须进行分支。另外,CHAID 的目标字段 (Target) 的测量级别可适用于连续类型 (Continuous) 的测量级别,但在输入字段则只适用分类类型 (Categorical) 的测量级别。3.)QUEST (Quick Unbiased Efficient Statistical Tree)此演算法是利用统计方法分割数据,即以判定决策树是否仍需进行分支,以建立二元的决策树。QUEST 在变数的数据型态限制上,跟 C5.0 一样,目标字段 (Target) 测量级别,不适用于连续类型 (Continuous) 的测量级别。但在输入字段的测量级别则适用连续类型 (Continuous) 的测量级别。4.)CR Tree (Classification and Regression Tree)又称为 CART,构建决策树的原理是使用 Gini Ratio 作为判定决策树是否仍须进行分支的依据,并建立二元的决策树。此演算法不管是在目标变数 (Target) 以及输入字段的测量级别均适用连续类型 (Continuous) 的测量级别做分析。1.2决策树演算法的选择在使用决策树演算法进行分析之前,首要工作就是选择适当的演算法。一般来说,会根据所要分析数据的特性以及数据型态等选择初步的演算法。接下来再通过比较初步筛选的决策树分析出来的结果,选择最适合的决策树演算法。使用者可依据数据类型以及分析需求的不同,选择适当的决策树演算法进行分析。虽然不同的决策树演算法有各自适用的数据类型以及演算架构等差异,但概括来说,决策树的主要原理均为通过演算法所定义的规则,对数据进行分类,以建立决策树。鉴于篇幅所限,以下部分仅针对CHAID算法进行简单的介绍和应用展示。1.3 CHAID算法简介CHAID,或卡方自动交互效应检测,是一种通过使用称作卡方统计量的特定统

文档评论(0)

weizhent2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档