分层聚类数学建模竞赛.docxVIP

分层聚类数学建模竞赛.docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

分析流程

数据源:

男生日食谱营养成分.xlsx

算法配置:

算法:分层聚类

分析结果:

暂无数据

分析步骤

1.检查数据的缺失值情况,可以初步判断聚类的可信率。

2.根据聚类表了解样本之间的距离和聚类情况。

3.根据聚类树状图进行分析,可以观测聚类情况和对数据进行探测,发现类之间的层次关系。

详细结论

输出结果1:数据情况汇总

案例

有效

缺失

总计

N

百分比(%)

N

百分比(%)

N

百分比(%)

27

100

0

0

27

100

图表说明:

上表展示了数据的有效和缺失情况,当某行数据存在缺失时,则计入缺失数据。

输出结果2:聚类表

群集组合

系数

元素个数

新集群

集群1

集群2

1

192004

192004

0

2

聚类1

2

192004

聚类1

0

3

聚类2

3

192004

聚类2

0

4

聚类3

4

192017

192017

0

2

聚类4

5

045101x

45119

18.802

2

聚类5

6

43123

聚类5

22.606

3

聚类6

7

45125

聚类6

34.792

4

聚类7

8

192004

聚类4

38.41

3

聚类8

9

聚类7

聚类8

55.493

7

聚类9

10

聚类3

聚类9

112.717

11

聚类10

11

31509

081111x

130.386

2

聚类11

12

51014

043101x

137.254

2

聚类12

13

111101x

聚类10

151.929

12

聚类13

14

021101021104

聚类12

182.107

3

聚类14

15

15101

011201x

183.126

2

聚类15

图表说明:

上图是聚类表,在聚类表中列出了逐步聚类的过程。

输出结果3:聚类散点图

图表说明:

若对不同样本量(行)进行聚类分群,此时变量数等于两个,上图是根据两变量的数据绘制出来的散点图;或者此时变量数大于两个,上图是提取主成分分析(PCA)降维后前两个主成分来绘制散点图,在一定程度上可查看聚类效果(若是前两个主成分的方差解释率较低,该图的意义不大)。

输出结果4:聚类树状图

图表说明:

上图以可视化的形式展示了分层聚类的聚类情况,如果聚类的类别超过50个,此图将仅能下载查看。

输出结果5:评价指标

轮廓系数

DBI

CH

0.747

0.144

27.49

图表说明:

●轮廓系数:对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高,聚类效果越好。

●DBI(Davies-bouldin):该指标用来衡量任意两个簇的簇内距离之后与簇间距离之比。该指标越小表示聚类效果越好。

●CH(Calinski-HarbaszScore):通过计算类内各点与类中心的距离平方和来度量类内的紧密度(分母),通过计算类间中心点与数据集中心点距离平方和来度量数据集的分离度(分子),CH指标由分离度与紧密度的比值得到,CH越大表示聚类效果越好。

参考文献

[1]?ScientificPlatformServingforStatisticsProfessional2021.SPSSPRO.(Version1.0.11)[OnlineApplicationSoftware].?Retrievedfrom.

[2]?Jain,A.K.,andR.C.Dubes.Algorithmsforclusteringdata.Technometrics32.2(1988):227-229.

文档评论(0)

星空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档