- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别大作业—— 聚类分析之模式相似度
模式识别大作业——聚类分析之模式相似度班级:电信1102班姓名:张固兵学号: 201105020234聚类分析的应用背景聚类分析是数理统计中的一种方法,特别适合于样本归属不清楚的情况。它所基于的主要思想是:在多维空间中,同类样本应靠的近些,彼此间的间距小点,不同类的样本应离得远些,彼此的间距大些。聚类分析即为如何使相近的样本聚在一起,从而达到分类的目的。主要需要解决的两个问题:一是如何衡量两个样本的相似度;二是相似到什么程度归为一类。二.相关方法概述模式相似度1.距离(1)欧式距离对于每个样本,把它的第K个因素(变量)的值看作K维空间中的一个点,则n个样品就是K维空间中n个点,那么第个样品与第个样品之间的距离为显然有-1≤≤1,距离D越小表示两个样品越相近,反之则疏远。(2)明考斯基距离很显然,当q=2时,此距离即为欧式距离。(3)马氏距离(4)切比雪夫距离(5)斜角空间距离由于变量往往存在程度不同的相关关系,以欧式距离计算距离会使结果发生偏差,因而对样品,之间的距离可用更广泛的斜角空间距离作为分类尺度,即其中,为变量,间的相关系数,K为变量数。2.相似度系数(1)相关系数其中和分别表示第个和第个样本的均值。越接近1,则此两个变量越相近;越接近-1,则关系越疏远。(2)相似系数第个样品与第个样品之间的相似系数是用两个向量间的夹角余弦来定义的,即有-1≤≤1,且的值越大,越接近1,则表示两个样品的关系越相近,当等于时,表示两样完全相同。三.聚类准则原理及算法步骤1.试探方式凭直觉和经验,针对实际问题给定一种模式相似性的测度阈值,按最近邻规则指定待分类的样本属于某一类。如果待测样本与某一类的距离小于阈值,则归入该类。2聚类准则函数法定义一种聚类准则函数,其函数值与样本的划分有关,当次值达到极值时,就认为样本得到了最佳的划分。常用的聚类函数有误差平方和准则及类间距离和准则。误差平方和准则误差平方和也称为类内距离和准则,是一种简单而又应用广泛的聚类准则,其表达式为其中,为类的均值;为样本与聚类中心的函数,表示各样本到其被划分类别的中心的距离平方和。最佳的划分就是使最小的那种划分。该准则适用于同类样本比较密集,各类样本数目相差不大,而且类间距离较大的情况。当各类样本数相差很大且类间距离较小时,采用该准则就有可能将样本数多的类拆成两类或多类,从而出现错误聚类。(2)类间距离和准则或离散度准则类间距离和定义为其中,,分别为类和全部样本的均值加权的间距离和定义为对应一种划分,可求得一个类间距离和。类间距离和准则是找到使类间距离和最大的那种划分。事实上,类间距离和及类内距离和的统称为离散度矩阵。类内离散度矩阵Si和总类内离散度矩阵分别为类间离散度矩阵为总离散度矩阵为如果采用最小化类内离散度矩阵的迹作为准则函数,则可以同时最小化类内离散度迹和最大化类间离散度迹。 ()=(Xi-Xj)T(Xi-Xj)= 四。聚类准则流程设计依据聚类分析解决问题的有点,选择例程实例,进行相关验证。根据例程分析相关数据,进行MATLAB的程序编译,检查程序的完整性及是否存在语法错误,检查无误,进行程序的运行。原始数据类别序号X1X2X3X4第一组111.8530.48014.36025.210245.5960.52613.85024.04033.5250.08624.40049.30043.6810.32713.57025.120548.2780.38614.50025.900第二组14.7410.1406.90015.70024.2230.3403.8007.10036.4420.1904.7009.100416.2340.3903.4005.400510.5850.4202.4004.700第三组148.6210.1822.0573.847228.1490.1481.7632.968331.6040.3171.4532.432430.3100.1731.6272.729582.1700.1051.2172.188待测样本13.7770.87015.40028.200262.8560.3405.2009.00033.2990.1803.0005.200五.聚类准则算法程序function y=pattern_dis(pattern1,pattern2,distype) if nargin3distype=euclidean;endswitch distype case euclidean y=f(pattern1,pattern2,distype); case seuclidean y=f(pattern1,pattern2,distype); case cityblock y=f(pattern
文档评论(0)