- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 聚类分析是一种研究“物以类聚”的多元统计方法,按照一定的分类原则,将变量或样品聚为一类的多元统计方法。在很多场合,我们对研究对象的属类是未知的,这是时需要对研究对象分类,在没有先验经验的条件下进行的分类,具有相当的任意性。其方法比较粗糙,还在发展阶段。 一 概述 聚类分析根据分类对象的不同,分为R型聚类分析与Q型类分析两种。用于变量的分类用R型聚类分析,用于样品的分类用Q型聚类分析。 聚类分析的基本思想:先将分类对象(变量或样品)各自看成一类,然后选择一个统计量来衡量分类对象的相似程度(或距离最近),根据其大小先将两两对象聚成一类,如此下去,直至所有对象都聚成一类(或预分的类)为止。 将聚类的整个过程作成一张谱系图,然后根据实际问题的需要,选择一个合适的分类标准,便能得到所要分的类。 二、样品间亲疏程度的测度 研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。 我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。 由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来? 聚类分析根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类,把不相似的归为一类。 例如对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。 聚类方法 一般多元统计书上介绍8种方法: 最短距离法:将两类样本间的最短距离作为类与类之间的距离,具有单调性,空间收缩很快。 最长距离法:与最短距离法相反,将两类样本间的最长距离作为类与类之间的距离,也具有单调性,聚类空间呈扩张状态。 中间距离法:类间距离介于以上两种方法之间,聚类空间处于守衡状态,不能保证类距离总是单调的。 重心法:上述3种方法在定义类间距离时均未考虑新类中所含样本点的多少,存在不合理之处,该方法可以纠正上述问题。与中间距离法类似,聚类空间守衡,不能保证类距离总是单调的。 类平均法:为了更多地吸取类内样本点信息,定义类间距离为两类中样本点间距离平方的平均。该法空间守衡,又是单调的,是较为理想的系统聚类方法。 可变类平均法:在计算类间距离的公式中引入了聚集强度系数β(β1),β取不同的值可能会得到不同的聚类结果,选择合适的β值,以达到最佳聚类效果,一般认为取-1/4时效果较好。该方法仍具有单调性,比类平均法更为合理一些。 可变法:将可变类平均法中的聚集强度系数β引进中间距离法就形成了该方法。 离差平方和法:又称Ward法,利用方差分析原理进行聚类。 四、样本数据与小类、小类与小类之间的度量 1 、最短距离(Nearest Neighbor) 最长距离(Furthest Neighbor ) 二、快速样本聚类过程 当要聚成的类数已知时,使用快速聚类可很快将观测量分到各类中,特点是处理速度快,占用内存少,适用于大样本的Q型聚类分析。 参与聚类的变量必须是数值型变量且至少要有一个。如果选择了n个数值型变量参与聚类分析,最后要求聚为k类,则可以首先由系统选择k个观测量(也可用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是一个点。 k个事先选定的观测量是k个聚类的中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在的类中去;形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在n维空间中又形成k个点,这是第二次迭代的类中心,按此方法依次迭代下去,直到达
您可能关注的文档
- 数学建模第三次课作业答案.doc
- 数学建模 差分方程模型.pdf
- 数学建模 微分比赛.ppt
- 数学建模 微分差分方程作业题.doc
- 数学建模 微分方程练习.doc
- 数学建模养老保险.doc
- 数学建模波传播.ppt
- 数学建模SAS基本教程.pdf
- 数学建模自动化车床管理.doc
- 数学建模 植物生长.ppt
- 2025年中国乙氧苯柳胺软膏市场调查研究报告.docx
- 2025年及未来5年电信设备项目市场数据调查、监测研究报告.docx
- 2025年中国产宝口服液市场调查研究报告.docx
- 2025年及未来5年远红外线热敷按摩仪之瑞颈灵项目市场数据分析可行性研究报告.docx
- 2025年中国2—氨基—4,6—二氯嘧啶市场调查研究报告.docx
- 2025年及未来5年双层风琴帘项目市场数据调查、监测研究报告.docx
- 2025年及未来5年多功能短路定位分析仪项目市场数据调查、监测研究报告.docx
- 2025年中国换芯型烟嘴市场调查研究报告.docx
- 2025年及未来5年印章防伪项目市场数据调查、监测研究报告.docx
- 2025年中国超小型冷冻修边机市场调查研究报告.docx
最近下载
- Q-CAERI G1.013-2025《中国汽车能效分级测试评价规程 第1部分纯电动乘用车》.pdf VIP
- 2025秋统编版(2024)小学道德与法治三年级上册(全册)每课知识点(附目录).docx
- 密封条、投标文件密封条、标书封条.docx VIP
- 全国中小学安全知识竞赛题及答案.docx VIP
- 职业技术学院网络营销与直播电商专业人才培养方案(2024版).pdf VIP
- 公园设计选址分析.pptx VIP
- 塞翁失马儿童绘本成语故事 课件.pptx VIP
- 2024年度中国储备粮管理集团有限公司招聘考试笔试题库及答案.docx
- Q∕GDW 1519-2014 配电网运维规程.docx VIP
- 全国中小学安全知识竞赛题及答案.docx VIP
有哪些信誉好的足球投注网站
文档评论(0)