- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[Clementine作业
数据挖掘决策树分析报告
经济管理学院 管理科学与工程专业 1206122353 麻小龙
问题:现搜集整理到某大型商场的顾客和商品的相关信息,通过SPSS Clementine软件建立决策树模型进行数据挖掘分析,找到什么类型的顾客将购买什么类型的商品(比如:是否购买健康食品),顾客在购买某种商品的时候是否还有可能购买其他某几种商品。
解决思路:在处理该问题中,我使用了关联分析、决策树分析,具体分析解决过程如下:
关联分析是指如果两个或者多个事物之间存在一定的联系,那么其中一个事物就可能通过其他事物进行预测。它的目的就是挖掘数据之间隐藏的相互关系。
本题是针对某大型商场的购物资料对数据进行分析。为了找到商品在出售时是否存在某种联系,我们将使用关联分析方法;另一方面,为了得到购买某种商品的顾客特征,我们将采用决策树的方法对顾客分类。
步骤一:读入数据。
该模型的数据存储为BSAKETS1n,我们在选择面板选择可变文件节点作为数据读入节点,双击该结点进行编辑,加入数据存储文件。如下图所示:
步骤二:关联分析从数据源读入数据后,接下来就需要根据要进行的分析对字段进行设置。关联分析是分析多个量之间的关系,所以需要分析的字段既设置为模型的输入又设置为模型的输出,对字段的设置采用类型结点。
2.1 设置数据字段格式。
在选择面板选择类型结点,并将其连接到数据流中。因为我们的分析是对商品进行的,与顾客的个人信息无关,所以在类型结点中将顾客个人信息的字段的方向设置为无,其他商品字段的方向设置为双向。同时我们也将读入字段类型和字段取值。如下图所示:
2.2 生成关联分析数据流。
在选择面板中的建模目录中我们选择GRI结点加入到数据流中。执行该数据流,它的结果将在管理器的模型栏中以与模型同名的结点显示,右键选择浏览该结点,如下图所示:
分析结果如下:该结果数据显示了各种商品之间的关系,这个表的每一行表明了购买某种商品的时候还有哪些商品有被购买的可能性,它是基于关联分析中的支持度和置信度来分析的。支持度越大,说明同时被购买的可能性越大。比如我们就第一行来分析,支持度为3.0%,置信度为96.67,顾客在购买cannedveg时有可能会同时购买freshmeat,frozenmeal,beer这三种商品。其他行的相关信息,我们用同样的方法进行分析得出结果。
步骤三:图形化显示各个商品之间的关系我们除了用模型外,还可以用图形目录下的网络结点。选择网络结点将其连入数据流中,此时对网络结点的设置如下:
在plot面板中选择“仅选择真值标志”栏,这可以帮助我们简化输出网络,执行结果如下图所示:其中该图中各色的结点代表了不同种类的商品,任意两点之间连线越策表明这两点之间的关系越强烈,这也正说明购买其中某件商品时,另外一个很有可能也会被同时购买。我们还可以通过改变浮标值设置不同的显示,当浮标值越大时候网络图将显示关系越强烈关系的点。如下图所示:
分析结果如下:就上述网状图,各个节点之间有连线说明两线两端的商品在购买时可能被购买。连线的粗细也表面关系的密切程度,即同时被购买的可能性的大小。在本问题中,我们分析当浮标设置在122时候这种情况,此时购买fish时很大可能会购买fruitveg,购买confectionery时很有可能购买wine,其中cannedveg,beer,frozenmeal这三种商品时因为三者之间存在密切联系,所以购买其中一种时,其他两种被购买的可能性很大。同样,当浮标的值改变时,我们可以用同样的方法来分析数据之间的关系。
步骤四:用决策树来分类分析。
决策树(decision tree)一般都是自上而下生成的。每个决策或者事件(自然状态)都可能引出两个或者多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图。
本问题中我们运用决策树对购买某样商品的客户进行分类,通过分析某个顾客的个人信息判断怎样的人将购买健康食品。在决策树建模时我们需要设置一个导出结点,模型根据样本在该结点的不同取值构造出决策树。
4.1 将导出结点连接到类型结点,如下图所示:
4.2 设置导出结点的属性,如下图所示:
这里我们命名该结点为Health_food,在导出为栏中我们选择标志,这表面新生成的Health_food字段将存储两值类型的数据。在真值和假值栏分别填写新字段的两种数据值,其中真值表示当条件满足时该字段的值,假值表示当条件不满足时该字段的值。
对判断条件的设置我们可以通过单击True when栏右边的按钮进行。在表达式构建器中我们可以选择数据的任一字段,通过设计表达式建立结果为真时的条件。这里我们设置表达式为fruitveg==’T’ and
您可能关注的文档
- [BEC资料.doc
- [BEC高级作文指导.doc
- [BEC高级写得好备考心得@小木Sharon在路上.doc
- [bec高级口语应对策略.doc
- [第五章建设项目采购管理.ppt
- [BEC高级图表作文常用词模板必备学习.doc
- [第五章开发方法.ppt
- [BEC高级考A经验分享.doc
- [BEC高级口语分册.doc
- [Be动词相关用法.doc
- 25上半年2期套题班-行政职业能力测验(八).docx
- 公考讲义-2025年1月时政汇总.pdf
- 2025年省考逻辑填空1000 高频实词积累+刷题早读课 讲义.pdf
- 25上半年2期套题班-行政职业能力测验(九).docx
- 2025四川事业编FB综合岗考试-综合能力测试讲义-主观题基础,案例分析题,公文写作及文章写作题.pdf
- 25上半年2期套题班-行政职业能力测验(五).docx
- 2025申论多省联考刷题课真题资料-2025国考执法课程.doc
- 2025申论多省联考刷题课真题资料-2024江西执法课程.doc
- 25上半年2期套题班-行政职业能力测验(十).docx
- 2025申论多省联考刷题课真题资料-2024福建县乡课程.doc
最近下载
- 高考100天动员家长会 案例.ppt
- 2025云南省中职职教高考职业技能考试机械类专业理论模拟卷【⑥】.docx VIP
- IT运维年终工作总结PPT.pptx
- 2025云南省中职职教高考职业技能考试机械类专业理论模拟卷【⑩】.docx VIP
- 新媒体文案策划与写作—从入门到精通(下篇,共上下2篇).pptx VIP
- 农业田间机器人.ppt
- 针对化学学习困难学生的帮扶策略研究教学研究课题报告.docx
- 计算机网络技术基础--第1章 计算机网络概述.pdf VIP
- 2025年桂林生命与健康职业技术学院单招职业技能测试题库及完整答案一套.docx VIP
- 画法几何及土木工程制图课件.pptx VIP
文档评论(0)