模式识别PR5-1.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别PR5-1.ppt

欧氏距离的局限性 第5章 数据聚类 * 5.1 引言 5.2 相似性测度 5.3 聚类准则 5.4 基于距离阈值的聚类算法 5.5 分级聚类法 5.6 动态聚类法 5.7 聚类结果评价 第5章 数据聚类 5.1 引言 二、说明: (1)“相似性”含义 :有n个特征值则组成n维向量 ,称为该样本的特征向量。它相当于特征空间中的一个点,以特征空间中点间的距离函数作为模式相似性的测量,以“距离”作为模式分类的依据,距离越小,越“相似”。 一、概念:“物以类聚” 聚类分析:根据模式之间的相似性对模式进行 分类,是一种无监督的学习和分类方法。 (2)聚类分析是否有效,与模式特征向量的分布形式有很大关系。对具体对象作聚类分析时,选取的特征向量是否合适非常关键。例:酱油与可乐。 三、监督与非监督 有监督学习(supervised learning):用已知类别的样本训练分类器,以求对训练集数据达到某种最优,并能推广到对新数据的分类。 非监督学习(unsupervised learning) :样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类,clustering)?? 监督与非监督学习方法比较 监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;而非监督学习只有一组数据,在该组数据集内寻找规律。 监督学习方法的目的是识别事物,给待识别数据加上标号(label)。因此训练样本集必须由带标号的样本组成。而非监督学习方法只有要分析的数据集本身,没有标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号为目的。 主要的非监督学习方法 基于概率密度函数估计的直接方法:设法找到各类别在特征空间的分布参数再进行分类。直方图方法。 基于样本间相似性度量的间接聚类方法:设法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。 5.2 相似性测度 复习:已知向量 ,则: 一、相似性测度:衡量模式之间相似性的一种尺度。 距离就是一种相似性的测度 (距离越小,相似性越大)。 1、欧氏距离(Euclid,欧几里德) ——简称距离 设 、 为两个n维模式样本, , ,则欧氏距离定义为: 距离越小,越相似。 ( D_Distance ) 使用时应注意模式各特征分量的量纲: ① 各特征向量对应的维上,应取相同量纲,且相同的量纲要取相同的单位;同一向量的某几维是相同的物理量时,量纲相同,应取相同的单位。否则分类发生错误。 b(5,0) d(4,5) c(1,4) a(0,1) 1 2 3 4 5 0 1 2 3 4 5 (a) ② 最好使特征数据标准化,使其与变量的量纲无关。 d(0.4,5) c(0.1,4) a(0,1) 1 2 3 4 5 0 1 2 3 4 5 b(0.5,0) (c) b(5,0) c(1,0.4) d(4,0.5) a(0,0.1) 1 2 3 4 5 0 1 2 3 4 5 (b) 即相同物理量取相同单位。 对n维向量: , 2、马氏距离(Maharanobis) 平方表达式: 式中X为模式向量,M为其均值向量,C为该类模式总体的协方差矩阵。 ( M_Mean ) ( C_covariance) 表示的概念是各分量上模式样本到均值的距离,也就是在各维上模式的分散情况。 越大,离均值越远。 优点:排除了模式样本之间的相关影响,差别较大的分量应该接受较小的权重,当C等于单位矩阵I时,马氏距离为欧氏距离。 当m=2时,明氏距离即为欧氏距离。 3、明氏距离( Minkowaki ) n维模式样本向量 、 间的明氏距离表示为 : 式中: 、 分别表示 和 的第k个分量。 当m=1时,可得: 这时亦称为“街区”距离 (“City block”distance)。 街区 欧氏 根据相似性测度,衡量模式之间是否相似的标准。即把不同模式聚为一类还是归为不同类的准则。 确定聚类准则的两种方式: 1、阈值准则:根据规定的距离阈值进行分类的准则。 2、函数准则:利用聚类准则函数进行分类的准则。 5.3 聚类准则 聚类准则函数:在聚类分析中,表示模式类间相 似或差异性的函数。 它应是模式样本集 和模式类别

文档评论(0)

gdkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档