基于改进SMMC模型的多流形结构数据分析.docxVIP

基于改进SMMC模型的多流形结构数据分析.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进SMMC模型的多流形结构数据分析

基于改进SMMC模型的多流形结构数据分析   摘 要:提出一种改进的多流形谱聚类模型,提高复杂流形结构中的聚类精度。改进模型的核心在于首先对原始数据进行空间映射,得到能体现原始数据流形结构的数据;其次,根据流形距离的定义,利用局部点邻域构造各点的切平面,将切平面参数作为新流形的数据样本;最后用SMMC模型求解,得到聚类结果。实验结果表明,改进的SMMC模型对独立子空间、非线性良分离以及非线性交叉流形这三类数据的子空间聚类效果良好,且具有强鲁棒性和通用性。   关键词:SMMC模型;流形学习;子空间聚类;多流形建模   DOIDOI:/   中图分类号:TP303   文献标识码:A 文章编号:1672--0029-04   0 引言   随着大数据时代的到来,数据量呈爆发式增长。如何对数据进行有效分析和处理已成为成功解决诸多问题的关键,由此涌现出大量的数据分析方法。在实际问题分析中可发现,大部分数据集实质上是由许多集合结构组合而成的。几何结构分析现已被广泛应用于对象识别、图像分类等模式识别和分类问题,同时也是对高维数据进行相关性分析、聚类分析等的有效方法。其中流形学习是几何结构分析方法中的重要组成部分[1-2]。流形学习的目的在于把高维数据在低维流形中表示出来,从而便于数据分析与存储,近年来流形学习的研究特别是多流形的研究逐渐增多[3]。   子空间聚类、混合线性模型、流形聚类等是目前主流的多流形模型方法。尽管目前对流形学习的研究较多,但仍面临巨大的挑战[4-5]。基于谱聚类的多流形聚类方法是众多流形聚类方法中的一类,它克服了传统稀疏子空间聚类算法不能很好地解决非线性子空间聚类的缺陷,能将线性或非线性、良分离或交叠的流形等多流形问题进行聚类,具有强大功能[1]。   本文在深入分析多流形谱聚类模型的基础上提出一种改进方法,对独立线性子空间、良分离曲线以及交叠曲线流形聚类中的3种典型数据进行聚类,并与其它流形聚类方法进行比较,实验结果表明,改进模型具有更好的聚类效果。   1 理论基础    多流形谱聚类模型   SMMC模型的基本思想是?南嗨菩跃卣蟮慕嵌瘸龇?,充分利用流形采样点所包含的自然的局部几何结构信息,辅助构造更适合的相似性矩阵,进而发现正确的流形聚类[5-6]。   根据数据点内包含的局部几何结构信息辅助构造相似性矩阵W[5]。当两个数据点满足条件相互靠近同时具有相似的局部切空间时,才能断定它们是来自同一个流形聚类。因此结合数据点之间的欧氏距离关系qij=q和局部切空间之间的相似性pij来决定最后的相似性权值:   其中,f表示融合函数。结合理论与实际可知,两点划分为同类的概率与结构相似性成正比,与两者之间的欧式距离成反比。为使相似矩阵具有预期性质,融合函数f关于pij单调递增,关于qij单调递减。   假设数据点xi和xj处的局部切空间为Θi和Θj,则两数据点的局部切空间之间结构相似性可定义为:    流形距离   对于流形分类问题,其距离测度需要满足条件:在相同流形上的点的距离大于在不同流形上点的距离,而欧式距离不能体现该性质。为了满足聚类全局一致性的目的,使同一流形结构中的数据点的相似度高,而不同流形结构中的数据点的相似度低,使用一种能够体现全局一致性的测度―流形距离核测度。   所有样本点看作是图G=的顶点,其中p∈Vl表示图上一个长度为l=p-1的连接点p1与pp的路径,边E,1≤kl;Pij表示连接样本点xi和xj的所有路径集合;dsp是图G上节点xi和xj之间的最短路径距离。 d是图上节点xi到xj最短路径上任意相邻两点的欧式距离。   此流形距离测度可以度量流形上的最短路径,反映样本集内的流行结构。具体表现为用较短边连接同一流形上的两个样本点,较长边连接位于不同流形上的两个样本点,最终达到缩短同一流形上样本点间距离,放大不同流形上样本点间距离的目的。   2 SMMC模型改进   在利用坐标表示图像信息时,不同样本为流形上一点的空间坐标位置,此时样本不能很好地体现流形结构。对于SSC模型或SMMC模型,都先将图像信息从一种表示方式映射到另一种表示方式:SSC模型利用稀疏性要求,得到图像的稀疏表示;SMMC模型针对流形曲面,对局部进行线性重构,利用重构的空间基向量表示原始图像。   一定程度上讲,映射方式的选择决定了聚类的效果,对于SSC模型,因为采用的是自身向量再表示,该算法在向量自身相关性较大的场合有效,特别是在高维,小样本的情况下进行聚类。而SMMC算法是流形结果,对曲面采样稠密,稠密的条件保证了局部切空间的准确性,在抽样不够稠密和流形边界位置时,局部切空间的法线方向稳定性较差。本文针对SMMC在流形的局部表示上进行改进。   不同于SMMC模型中对局部点构成的矩阵进行奇异值分解,改进模型采用了

文档评论(0)

manyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档