- 1、本文档共82页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据挖掘技术与应用》实验指导书(排).doc
《数据挖掘技术与应用》
实 验 指 导 书
重庆大学经济与工商管理学院
2014年7月
目 录
第一章 数据挖掘及工具简介 1
1.1 数据挖掘的基本概念 1
1.2 数据挖掘的基本框架及流程 1
1.3 数据挖掘软件工具 1
第二章 基础实验篇 2
2.1 实验一 分 类 2
2.2 实验二 预 测 18
2.3 实验三 聚 类 29
2.4实验四 关联分析 40
2.5实验五 RFM模型 46
2.6基于遗传算法的变量选择 60
参考文献 71
附 录 72
数据挖掘及工具简介
数据挖掘的基本概念
数据挖掘的基本框架及流程
1.3 数据挖掘软件工具
基础实验篇
2.1 实验一 分 类
一、实验目的
通过本次实验,学会使:(1)
二、实验安排
1.学时: 本实验安排个学时,主要用于完成实验及实验报告。
2.时间: 由实验室统一安排
3.地点: 由实验室统一安排
三、实验工具
四、知识准备五、实验背景
六、实验过程
实验1:基础模型
1.按顺序拖动并设置以下节点。
(1)设置数据来源(source中的excel来源)。
(2)将320.xls指向table,运行table。结果如下。
(3)将320.xls指向type,编辑type,只有最后一项为输出且类型为flag,其他项为输入,类型为连续型变量)。
(4)将type指向partiton,设置训练集与测试集比例,对话框上部的generate处可分出训练集与测试集,下部的generate。将partition指向testing和training。
(5)选择逻辑模型和决策树模型,并将partition分别指向这两个模型。
1)编辑决策树模型的model,可选择专家模型与普通模型。
2)编辑决策树模型的costs,可确定误判的代价。
(6)运行逻辑模型,将新生成的数据拖到training与testing后并由它们指向数据。
设置不同的决策树模型,生成不同的数据,由逻辑模型数据指向不同的决策树模型数据。在每条数据流末端增加analysis,并指向它们。
(7)不同决策树设置下的数据及分析。
1)决策树设置:1误判为0代价为10,0误判为1代价为1。非专家模型。
2)决策树设置:1误判为0代价为100,0误判为1代价为1。非专家模型。
3)决策树设置:1误判为0代价为10,0误判为1代价为1。专家模型。
实验2:连续型变量与离散型变量的模型建立
1. 打开320.xls,另存为320.csv
2.运用R软件编程,对数据进行离散化处理,删除无效属性(属性为单一值),并保存。
上述结果表明,离散化后X10只离散化为一个单一区间,这表明其与决策变量ST没有相关性,故在后续的分析中将其删除。
3.用离散型与连续型两个不同的数据来源建立两个数据流,建立过程同上。
4.离散型数据类型设置为set,连续型数据类型设置为range。
5.设置贝叶斯模型,在Fields中,目标设置为ST,Inputs只保留x1到x18;
分析比较不同数据类型的贝叶斯模型分析结果,离散型数据拥有较高准确率。
6. Clememtine超节点的应用。所谓超节点,就是将数据预处理、模型建模等相同功能的多个数据流节点合并为一个功能单一的超节点,其目的是简化数据流,使得模型结构清晰,易于理解。其方法是:选择多个数据流中节点,单击右键选择create supernode,可将其整合。
7.右键单击pre-date,选择zoom in,可查看详细节点。
实验3:数据的预处理(筛选与填充)与建模
1.选择数据来源
2.编辑类型,自动读取数据类型
3.添加churm模型,将type指向churm并运行,自动选择了27个重要属性,生成数据;将数据添加到模型区并将type指向数据。
4.添加filter处理数据,讲非重要属性过滤掉,运行该处理,操作含有缺失值的那个属性,在missing input处选定为specify。
5.在弹出的对话框中设置填充的原则,当值为空或者为空格时自动填充,算法为CRT,单击ok。
6.单击第4点图generate中的missing value supernode,生成missing value imputation,后续的添加模型生成数据、进行分析的操作同上。
7.分析结果如下。
七、实验结果及分析
1.模型务必按顺序建立,并依次连接依次设置运行。一般顺序为:数据导入,数据筛选并生成数据包,确定模型并生成数据包,分析模型准确率等。
2.预处理是数据挖掘中最重要的部分。在数据进入模型之前,我们可以使用R进行数据预处理,将数据离散化,也可以在clementine中筛选出重要属性,对缺失值进行合理填充,以此得到可信度较高的模型。
3.模型的设置对结果的得出也至关重要,要防止过度拟合,也
您可能关注的文档
- 《力学综合演示仪》中学物理创意实验设计参评申报表.doc
- 《功夫熊猫2》背后的文化与市场价值_final.doc
- 《功夫熊猫》经典台词,经典语录.doc
- 《动火作业安全管理程序(试行)》.doc
- 《动物王国》主题绘本课程.doc
- 《动画分镜台本》完整教案.doc
- 《动画场景设计》.doc
- 《动画技法》项目六初稿.doc
- 《劳动与社会保障法》题库.doc
- 《北京市预拌混凝土生产使用质量专项治理两年行动工作方案》的通知.doc
- 601515_2023_#CSR_东峰集团_东峰集团2023年度社会责任报告_2024-04-23.pdf
- 600373_2023_#CSR_中文传媒_中文传媒2023年度社会责任报告_2024-04-19.pdf
- 600468_2023_#CSR_百利电气_天津百利特精电气股份有限公司2023年度社会责任报告_2024-04-17.pdf
- 600757_2023_#CSR_长江传媒_长江传媒2023年度社会责任报告_2024-04-16.pdf
- 600200_2023_#CSR_江苏吴中_江苏吴中医药发展股份有限公司2023年度社会责任报告_2024-04-25.pdf
- 600642_2023_#CSR_申能股份_申能股份有限公司2023年度社会责任报告_2024-04-30.pdf
- 600881_2023_#CSR_亚泰集团_吉林亚泰(集团)股份有限公司2023年度社会责任报告_2024-04-30.pdf
- 600784_2023_#CSR_鲁银投资_鲁银投资2023年度社会责任报告_2024-04-20.pdf
- 600936_2023_#CSR_广西广电_广西广电2023年度社会责任报告_2024-04-26.pdf
- 600308_2023_#CSR_华泰股份_华泰股份2023年度社会责任报告_2024-04-20.pdf
最近下载
- 内部控制岗位职责详解.pdf VIP
- (外研版2024新教材)英语三年级上册 Unit 1 作业练习设计.docx
- 黄芪多糖提取工艺优化及抗氧化活性的研究.doc
- YBT4001.1-2019 钢格栅板及配套件 第1部分:钢格栅板.pdf VIP
- 人教版小学四年级数学上册《第四单元 三位数乘两位数》大单元整体教学设计[2022课标].pdf
- 移动集团HCIP-云售前解决方案高级工程师培训认证题库.docx
- 印刷行业样品承认书.pdf VIP
- 标准图集-北京市房屋建筑抗震节能综合改造图集 柱、圈梁、钢拉杆加固分册.pdf VIP
- 采购项目质量保证措施.docx VIP
- 2021健康照护师复习题库【附答案】.docx
文档评论(0)