模式识别第四章第五章.pptVIP

下载本文档

18
0
约2.45万字
约 186页
2018-02-14 发布于江西
举报
版权申诉

模式识别第四章第五章.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别第四章第五章

* 哈尔滨工业大学电信院宿富林 * 3.迭代计算 c-均值算法的迭代计算过程在原理上与梯度下降法是一样的，即以使准则函数值下降为准则。但是由于c-均值算法的准则函数值由数据划分的调整所决定，因此只能通过逐个数据从某个子集转移到另一子集计算准则函数值是否降低为准则。　　　　 * 哈尔滨工业大学电信院宿富林 * 按准则函数极值化的方向对初始划分进行修改如果原属Гk 中的一个样本y从Гk 移入Гj 时，它会对误差平方和产生影响, Гk类在抽出样本y后其相应均值为而样本y新加盟的Гj 集合均值 * 哈尔滨工业大学电信院宿富林 * 由于y的移动只影响到k与j这两类的参数改动，因此，计算Jc值的变动只要计算相应两类误差平方和的变动即可，此时如果则将样本y从Гk 移入至Гj 就会使误差平方总和Jc 减小，它表明样本变动是合乎准则要求的　　 * 哈尔滨工业大学电信院宿富林 * 4.C—均值算法 (1) 选择某种方法把样本分成C个聚类的初始划分，计算每个聚类的均值m1,…,mc和Jc (2) 选择一个备选样本y，设其在wi 中 (3) 若Ni=1，则转(2)，否则继续 (4) 计算　 * 哈尔滨工业大学电信院宿富林 * (5) 对于所有的j，若ei≤ej ，则将y从wj 移到 wi中。 (6) 重新计算mi和mj，并修改Jc 。 (7) 若连续迭代N次(即所有样本都运算过) Jc不变，则停止，否则转到2。　　 * 哈尔滨工业大学电信院宿富林 * 确定类别数的实验方法上述C—均值算法都是在类别c已知条件下进行的。在类别数未知情况下，可以假设类别数是逐步增加的，准则函数随c的增加而单调地减小。可选择平缓时转折处的C值。 * 哈尔滨工业大学电信院宿富林 * 5.3.1.3 ISODATA算法　　C—均值算法比较简单，但它的自我调整能力也比较差。这主要表现在类别数不能改变，受代表点初始选择的影响也比较大。全称‘迭代自组织数据分析技术’（Iterative Self-Organizing Data Analysis Technique ）。 ISODATA算法的功能与C—均值算法相比的改进。 1. 不是没调整一个样本就重新计算一次各类均值（逐个样本修正），而是每次把全部样本都调整完毕后再重新计算样本均值（成批样本修正）。 2.考虑了类别的合并与分裂，因而有了自我调整类别数的能力。从而可以得到较为合理的类别数。　　 * 哈尔滨工业大学电信院宿富林 * 合并主要发生在某一类内样本个数太少的情况，或两类聚类中心之间距离太小的情况。为此设有最小类内样本数限制N，以及类间中心距离参数L 。若出现两类聚类中心距离小于L或样本数小于N的情况，可将此两类合并分裂则主要发生在某一类别的某分量出现类内方差过大的现象，因而宜分裂成两个类别，以维持合理的类内方差。给出一个对类内分量方差的限制参数S，用以决定是否需要将某一类分裂成两类。　　由于算法有自我调整的能力，因而需要设置若干个控制用参数，如聚类数期望值K、每次迭代允许合并的最大聚类对数L、及允许迭代次数I等。 * 哈尔滨工业大学电信院宿富林 * * 哈尔滨工业大学电信院宿富林 * ISODATA算法的步骤步骤1：确定控制参数及设置代表点需确定的控制参数为：　　K：聚类期望数；　　 QN：一个聚类中的最少样本数；　　　 θs：标准偏差控制参数，用于控制分裂；　　 θc ：类间距离控制参数，用于控制合并；　　L：每次迭代允许合并的最大聚类对数；　　I：允许迭代的次数。　　设初始聚类数为c及聚类中心mi,i=1,2,…,C 。　　　　 * 哈尔滨工业大学电信院宿富林 * 步骤2(分类)　　对所有样本，按给定的c个聚类中心，以最小距离进行分类，即　　若　　步骤3(撤消类内样本数过小类别)　　若有任何一个类，其样本数，则舍去该类，令c＝c-1，将该类中原样本分配至其它类；　　 * 哈尔滨工业大学电信院宿富林 * 步骤5(计算类内平均距离)每类各样本离开均值的平均距离　　　　　步骤6(计算整个样本集偏离均值的平均距离)　　 j * 哈尔滨工业大学电信院宿富林 * 步骤7(入口选择)　　如这是最后一次迭代(取决于I)，则转步骤11，并设置θc =0，防止合并发生。　　如果cK/2 ，则转向步骤8，执行分裂步骤；　　如果c≥2K，则转向步骤11，执行合并步骤步骤8(求各类内各分类标准偏差)　　对每个聚类j，求其标准偏差　　　　　　　　　　　　 * 哈尔滨工业大