- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
分析流程
数据源:
女生日食谱营养成分.xlsx
算法配置:
算法:分层聚类
分析结果:
暂无数据
分析步骤
1.检查数据的缺失值情况,可以初步判断聚类的可信率。
2.根据聚类表了解样本之间的距离和聚类情况。
3.根据聚类树状图进行分析,可以观测聚类情况和对数据进行探测,发现类之间的层次关系。
详细结论
输出结果1:数据情况汇总
案例
有效
缺失
总计
N
百分比(%)
N
百分比(%)
N
百分比(%)
22
100
0
0
22
100
图表说明:
上表展示了数据的有效和缺失情况,当某行数据存在缺失时,则计入缺失数据。
输出结果2:聚类表
阶
群集组合
系数
元素个数
新集群
集群1
集群2
1
011201x
011201x
0
2
聚类1
2
192004
192004
0
2
聚类2
3
192004
192004
0
2
聚类3
4
聚类2
聚类3
31.984
4
聚类4
5
81409
081111x
48.829
2
聚类5
6
063101x
061101x
52.396
2
聚类6
7
51019
聚类4
57.133
5
聚类7
8
111101x
聚类7
61.795
6
聚类8
9
045101x
44106
72.296
2
聚类9
10
45125
聚类9
85.212
3
聚类10
11
192004
聚类8
91.926
7
聚类11
12
聚类6
聚类10
119.71
5
聚类12
13
31101
081111x
123.232
2
聚类13
14
聚类11
聚类12
136.378
12
聚类14
15
聚类5
聚类13
148.714
4
聚类15
图表说明:
上图是聚类表,在聚类表中列出了逐步聚类的过程。
输出结果3:聚类散点图
图表说明:
若对不同样本量(行)进行聚类分群,此时变量数等于两个,上图是根据两变量的数据绘制出来的散点图;或者此时变量数大于两个,上图是提取主成分分析(PCA)降维后前两个主成分来绘制散点图,在一定程度上可查看聚类效果(若是前两个主成分的方差解释率较低,该图的意义不大)。
输出结果4:聚类树状图
图表说明:
上图以可视化的形式展示了分层聚类的聚类情况,如果聚类的类别超过50个,此图将仅能下载查看。
输出结果5:评价指标
轮廓系数
DBI
CH
0.656
0.439
26.556
图表说明:
●轮廓系数:对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数的取值范围是[-1,1],同类别样本距离越相近不同类别样本距离越远,分数越高,聚类效果越好。
●DBI(Davies-bouldin):该指标用来衡量任意两个簇的簇内距离之后与簇间距离之比。该指标越小表示聚类效果越好。
●CH(Calinski-HarbaszScore):通过计算类内各点与类中心的距离平方和来度量类内的紧密度(分母),通过计算类间中心点与数据集中心点距离平方和来度量数据集的分离度(分子),CH指标由分离度与紧密度的比值得到,CH越大表示聚类效果越好。
参考文献
[1]?ScientificPlatformServingforStatisticsProfessional2021.SPSSPRO.(Version1.0.11)[OnlineApplicationSoftware].?Retrievedfrom.
[2]?Jain,A.K.,andR.C.Dubes.Algorithmsforclusteringdata.Technometrics32.2(1988):227-229.
文档评论(0)