聚类分析-数据挖掘课程设计.docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘课程设计

一.实验目的

1)请根据所给的天津各区县经济和教育数据分别做聚类分析,并给出你的结论分析。

2)聚类分析结果时候与你的直观感受相符合?如果不符,请解释并给出解决方法。

二.实验过程及结果分析

本实验采用聚类分析来对各个区县进行分类,这里我使用SPSS20来进行聚类分析。

输入各区县经济数据如下图:

使用SPSS进行K均值聚类分析,分为六类,得到如下结果:

初始聚类中心

聚类

1

2

3

4

5

6

总产值

464.13

215.47

290.69

540.14

5030.11

114.68

最终聚类中心

聚类

1

2

3

4

5

6

总产值

464.13

214.67

321.07

521.51

5030.11

114.68

每个聚类中的案例数

聚类

1

1.000

2

4.000

3

5.000

4

4.000

5

1.000

6

1.000

有效

16.000

缺失

.000

上图中的第三列(QCL_1)即为分类情况,说明如下:

北辰区分为一类,标记为1;河东区、宝坻区、宁河县、蓟县分为一类,标记为2;南开区、河北区、津南区、武清区、静海县分为一类,标记为3;和平区、河西区、东丽区、西青区分为一类,标记为4;滨海新区为一类,标记为5;红桥区分为一类,标记为6。

结果分析:

分类结果从整体来看还是比较合理的。滨海新区这一地区产值非常高,毫无疑问是单独的一类;红桥区产值最低,也分为一类,这个与我的直观感受不太相符,作为天津市市内六区之一的红桥区,产值最低,分为一类,我觉得很不可思议,问题可能是数据量不够大,或者说评价指标太少,这里我们只有一个评价指标(总产值),导致结果具有偶然性,适当增加评价指标应该可以增加结果的准确性。

输入各区县教育数据(中学数量和中学在校生以及教师数量)如下图:

使用SPSS对这三个变量进行K均值聚类分析,分为六类,得到如下结果:

初始聚类中心

聚类

1

2

3

4

5

6

教育_中学数量

83

65

48

26

51

13

中学教师数

5585

4454

3917

2703

2691

1269

在校生人数

60484

52563

45156

25436

36912

13099

最终聚类中心

聚类

1

2

3

4

5

6

教育_中学数量

83

65

48

26

51

18

中学教师数

5585

4454

4010

2232

2691

1285

在校生人数

60484

52563

44844

23540

36912

15217

每个聚类中的案例数

聚类

1

1.000

2

1.000

3

2.000

4

6.000

5

1.000

6

5.000

有效

16.000

缺失

1.000

上图中的第五列(QCL_1)即为分类情况,说明如下:

滨海新区分为一类,标记为1;蓟县分为一类,标记为2;武清区、宝坻区分为一类,标记为3;和平区、河东区、河西区、南开区、河北区、宁河县分为一类,标记为4;静海县分为一类,标记为5;红桥区、东丽区、西青区、津南区、北辰区分为一类,标记为6。

结果分析:

分类结果从整体来看还是比较合理的。滨海新区这一地区教育资源非常雄厚,应该与这个地方的经济总产值有很大的关系。另外,静海县和蓟县,这两个地方的学校数量和学生数量及教师数量都很多,资源也比较雄厚,这与我的直观感受不太相符,他们并不是天津市市内六区。原因可能是这两个地方对教育的重视程度高于其他县市。我们这里的评价指标有三个,还算比较充分。原因应该是区县政府对教育的重视程度不同。不过有个问题,学校数量多并不能表示教育水平高,教师数量多也不一定能代表教师质量高。这里给出的数据只有数量,没有具体的能够反应质量的数据,因此结果存在一定的偏差。

文档评论(0)

小孟* + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档