- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析课程实验报告 学 院:理学院 专 业:信息与计算科学 班 级: 姓 名: 学 号: 一、实验题目 所做实验属于哪一部分的内容。例如:一元线形回归及其在SPSS中的实现。 二、实验目的 1、加深对聚类分析原理的理解; 2、理解聚类分析中变量聚类的原理; 3、运用SPASS软件解决关于聚类分析方面具体的问题; 三、实验原理 聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。 例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;自然界生物可以分为动物和植物等等。这些就是一些分类。 那么分类根据什么分呢? 聚类分析的基本思想是在样品之间定义距离,在样品之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。根据分类对象不同分为样品聚类和变量聚类,样品聚类在统计学中又称为 型聚类,它是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类;变量聚类在统计学中有称为 型聚类,它反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。依据聚类方式的不同我们可以有很多种聚类如:快速聚类法,谱系聚类法等等。 型聚类分析的主要作用是: 1、不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个变量组合之间的亲疏程度。 2、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或型聚类分析。 型聚类分析的优点是: 1、可以综合利用多个变量的信息对样本进行分类; 2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果; 3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。 变量聚类的基本原理 变量聚类在实际中也是广泛应用,一方面,通过变量聚类可以发现某些变量之间的一些共性,以有利于分析问题和解决问题;另一方面,变量聚类也可作为某些数据分析的中间过程,例如,在回归分析中,若涉及的自编来那个很多,则可以先考虑用变量聚类,再在每一类变量中进行主成分分析,选取各类中的某些主成分作为新的自变量,这样不但可以消除变量间的复共线性,而且也可以达到降低自变量维数的目的。 设对个变量个观测了次,得到的观测数据向量为变量的观测向量与间的相似性可以用相似系数度量。设则与的相似系数是显见,若将与看作维空间向量,则是它们的夹角余弦。变量观测向量两两间的相似系数构成相似系数矩阵 显然,对于标准化数据,即原观察数据的相关系数矩阵,这时的大小反应了两个变量与线性关系的强弱。 从出发,关于变量的谱系聚类过程与从距离矩阵出发,关于样品的谱系聚类过程类似,只是由于越大,表明与越相似,因此,每次应选取相似矩阵或更新的相似矩阵中主对角线以外的最大元素所对应的两个变量或两个类合并。类与类之间的相似性度量可类似于前述的定义。需要指出的是,在系统的 过程中,总是从不相似度量的距离矩阵出发进行巨雷,因此看,若利用此过程对变量聚类,应先将相似矩阵变化为不相似度量的距离矩阵,再从出发,按照样品的谱系聚类法对变量角力。通常的变换有 或 , 若为相关系数矩阵,且我们一变量的线性关系强弱作为相似性的度量,这时可令 . 样品间的距离 1、距离定义:设满足下面的三个条件 (1)且当且仅当时; (2); (3); 距离定义有很多种,常见的有: (1)欧氏距离(Euclidean distance) (2)绝对距离(Block距离) (3)切比雪夫距离(Chebychev) 2、我们主要用到快速聚类,因此我们讲述一下快速聚类的步骤: (1)选择聚点,得到初始聚点的集合,可以假定聚类中采用距离是欧氏距离,即上面的式子。 (2)按照如果某一个点到该聚点的距离比到其他聚点的距离小,就把该点分为该聚点的类的原则,实现对所有点的初始划分,得到初始类: (3)从出发,计算新的聚点集合以的重心为新的聚点 其中是类中的样品数,这样得到新的聚点集合: 从出发,将样品进行新的分类。记 这样依次计算下去 (4)设在第步得到分类 在以上的递推过程中,是类的重心,但是其不一定是样品,又一般不是下一聚类的重心,但是当逐渐增大时,分类趋于稳定此时有就会近似为的重心,从而,,算法即可结束,实际计算时候若相邻的两次迭代使得分类相同,则计算
有哪些信誉好的足球投注网站
文档评论(0)