- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《数据挖掘》结课报告
--基于k-最近邻分类方法的连衣裙属性数据集的研究报告
(2013--2014 学年 第二学期)
学 院:
专 业:
班 级:
学 号:
姓 名:
指导教师:
二〇一四 年 五 月 二十四 日
研究目的与意义
(介绍所选数据反应的主题思想及其研究目的与意义)
1、目的
(1)熟悉weka软件环境;?
(2)掌握数据挖掘分类模型学习方法中的k-最近邻分类方法;?
(3)在weka中以“Dress Attribute DataSet”为例,掌握k-最近邻分类算法的相关方法;
(4)取不同的K值,采用不同的预测方法,观察结果,达到是否推荐某款连衣裙的目的,为企业未来的规划发展做出依据。
意义
此数据集共有14个属性,500个实例,包含了连衣裙的各种属性和根据销售量的不同而出现的推荐情况,按照分类模型学习方法中的k-最近邻分类方法依据各属性推断应推广哪些种类的裙子,对发展市场的扩大及企业的发展战略具有重要意义。
二、技术支持
(介绍用来进行数据挖掘、数据分析的方法及原理)
1、原理:k-最近邻分类算法是一种基于实例的学习方法,不需要事先对训练数据建立分类模型,而是当需要分类未知样本时才使用具体的训练样本进行预测,通过在训练集中找出测试集的K个最近邻,来预测估计测试集的类标号;
2、方法:k-最近邻方法是消极学习方法的典型代表,其算法的关键技术是有哪些信誉好的足球投注网站模式空间,该方法首先找出最近邻即与测试样本相对接近的所有训练样本,然后使用这些最近邻的类标号来确定测试样本的类标号。
三、数据处理及操作过程
(一)数据预处理方法
1、“remove”属性列:数据集中属性“Dress_ID”对此实验来说为无意义的属性,因此在“Attributes”选项中勾选属性“Dress_ID”并单击“remove”,将该属性列去除,并保存新的数据集;
2、离散化预处理:需要对数值型的属性进行离散化,该数据集中只有第3个属性“rating”和第13个属性“recommendation”为数值型,因此只对这两个属性离散化。
“recommendation”属性只有2个取值:0,1,因此用文本编辑器“Ultra Edit”或者写字板打开数据集并直接修改“Dress Attribute Data Set.arff”文件,把 “@attribute recommendation numeric ”改为 “ @attribute recommendation {0,1,}”,并保存;在“Explorer”中重新打开“Dress Attribute Data Set.arff”,选中“recommendation”属性后,右方的属性摘要中“Type”值 变为“Nominal”。
在过滤器Filter中单击“choose”,出现树形图,单击“weka”--“Filters”--“unsupervised”--“attribute”--“discretize”,点击“Choose”右边的文本框进行参数设置,把“attribute Indices”右边改成“3”,计划将该属性分成3段,于是把“bins”改成“3”,其它参数不更改,点“OK”回到“Explorer”,单击“Apply”离散化后的数据如下所示:
3、缺失值预处理:在过滤器Filter中单击“choose”,出现树形图,单击“weka”--“Filters”--“unsupervised”--“attribute”--“Replace Missing Values”,单击“Apply”。在weka中可以看出该数据集中不存在缺失值,因此不必进行缺失值的预处理。
(二)参数设置
(要求介绍每个参数的意义、取值范围、调整依据及最终的设置)
1、数据集属性及其取值:
(1)Dress_ID numeric
(2)Style{Sexy,Casual,vintage,Brief,cute,bohemian,Novelty,Flare,party,sexy,work,OL,fashion}
(3)Price {Low,High,Average,Medium,very-high,low,high}
(4)Ratingnumeric
(5)Size{M,L,XL,free,S,small,s}
(6)Season{Summer,Automn,Spring,Winter,spring,winter,s
文档评论(0)