数学建模之Clustering与聚类分析.pptVIP

下载本文档

3
0
约1.34万字
约 71页
2018-04-29 发布于浙江
举报
版权申诉

数学建模之Clustering与聚类分析.ppt

1、本文档共71页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数学建模之Clustering与聚类分析

基于密度聚类 (Density-Based Clustering) 主要特点: 发现任意形状的聚类处理噪音一遍扫描需要密度参数作为终止条件一些有趣的研究: DBSCAN: Ester, et al. (KDD’96) OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg D. Keim (KDD’98) CLIQUE: Agrawal, et al. (SIGMOD’98) * ?-邻域：给定对象半径?内的领域核心对象 (Core object): 一个对象的?–邻域至少包含最小数目MinPts个对象直接密度可达的(Directly density reachable, DDR): 给定对象集合D, 如果p是在q的?–邻域内, 而q是核心对象, 我们说对象p是从对象q直接密度可达的密度可达的(density reachable): 存在一个从p到q的DDR对象链密度相连的(density-connected): 如果对象集合D中存在一个对象o，使得对象p和q是从o关于?和MinPts密度可达的，那么对象p和q是关于?和MinPts密度相连的 * 两个参数: Eps: 邻域的最大半径 MinPts: 在 Eps-邻域中的最少点数 NEps(p): {q belongs to D | dist(p,q) = Eps} 直接密度可达的: 点 p 关于Eps, MinPts 是从点q直接密度可达的, 如果 1) p 属于 NEps(q) 2) 核心点条件: |NEps (q)| = MinPts * p q MinPts = 5 Eps = 1 cm 密度可达: 点 p 关于Eps, MinPts 是从 q密度可达的, 如果存在一个节点链 p1, …, pn, p1 = q, pn = p 使得 pi+1 是从pi直接密度可达的密度相连的: 点 p关于 Eps, MinPts 与点 q是密度相连的, 如果存在点 o 使得, p 和 q 都是关于Eps, MinPts 是从 o 密度可达的 * p q p1 p q o MinPts=3 q是从p密度可达； p不是从q密度可达（q非核心） S和r从o密度可达；o从r密度可达； r, s, o密度相连 * DBSCAN(Density Based Spatial Clustering of Applications with Noise) 一个基于密度的聚类算法可以在带有“噪音”的空间数据库中发现任意形状的聚类 * Core Border Outlier Eps = 1cm MinPts = 5 算法任意选取一个点 p 得到所有从p 关于 Eps 和 MinPts密度可达的点. 如果p 是一个核心点, 则找到一个聚类. 如果 p 是一个边界点, 没有从p 密度可达的点, DBSCAN 将访问数据库中的下一个点. 继续这一过程, 直到数据库中的所有点都被处理. DBSCAN的复杂度采用空间索引, 复杂度为O(nlog n), 否则为O(n2) DBSCAN的缺点: 对用户定义的参数是敏感的, 参数难以确定(特别是对于高维数据), 设置的细微不同可能导致差别很大的聚类. （数据倾斜分布）全局密度参数不能刻画内在的聚类结构 * 聚类高维数据，应用广泛: text documents, DNA micro-array data；重要挑战: 多个不相关的维度掩盖聚类距离函数变得没有意义—由于 equi-distance(高维空间，数据变稀疏) 聚类可能存在于某些子空间中特征变换: 仅当大部分维度与聚类相关时有效 PCA SVD有效，当特征高度相关/冗余特征选择: 缠绕wrapper 或过滤方法当数据有很好的聚类结构时，很有效子空间聚类: 在所有可能的子空间中寻找clusters CLIQUE, ProClus, and frequent pattern-based clustering * 一维的数据相对压缩的增加一个维度将沿此维“伸展” 数据点, 使得数据更分散增加更多的维度将使得数据更稀疏—高维数据非常稀疏距离变得没有意义—due to equi-distance * (graphs adapted from Parsons et al. KDD Explorations 2004) 聚类可能只存在于某些子空间子空间聚类: find clusters in all the subspaces * * * * * * * * * * * * 全局最优: 穷举所有可能的划分启发式方法: k-平均值(k- means)和 k-中心点