- 1、本文档共71页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学建模之Clustering与聚类分析
基于密度聚类 (Density-Based Clustering) 主要特点: 发现任意形状的聚类 处理噪音 一遍扫描 需要密度参数作为终止条件 一些有趣的研究: DBSCAN: Ester, et al. (KDD’96) OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg D. Keim (KDD’98) CLIQUE: Agrawal, et al. (SIGMOD’98) * ?-邻域:给定对象半径?内的领域 核心对象 (Core object): 一个对象的?–邻域至少包含最小数目MinPts个对象 直接密度可达的(Directly density reachable, DDR): 给定对象集合D, 如果p是在q的?–邻域内, 而q是核心对象, 我们说对象p是从对象q直接密度可达的 密度可达的(density reachable): 存在 一个从p到q的DDR对象链 密度相连的(density-connected): 如果对象集合D中存在一个对象o,使得对象p和q是从o关于?和MinPts密度可达的,那么对象p和q是关于?和MinPts密度相连的 * 两个参数: Eps: 邻域的最大半径 MinPts: 在 Eps-邻域中的最少点数 NEps(p): {q belongs to D | dist(p,q) = Eps} 直接密度可达的: 点 p 关于Eps, MinPts 是从点q直接密度可达的, 如果 1) p 属于 NEps(q) 2) 核心点条件: |NEps (q)| = MinPts * p q MinPts = 5 Eps = 1 cm 密度可达: 点 p 关于Eps, MinPts 是从 q密度可达的, 如果 存在一个节点链 p1, …, pn, p1 = q, pn = p 使得 pi+1 是从pi直接密度可达的 密度相连的: 点 p关于 Eps, MinPts 与点 q是密度相连的, 如果 存在点 o 使得, p 和 q 都是关于Eps, MinPts 是从 o 密度可达的 * p q p1 p q o MinPts=3 q是从p密度可达; p不是从q密度可达(q非核心) S和r从o密度可达;o从r密度可达; r, s, o密度相连 * DBSCAN(Density Based Spatial Clustering of Applications with Noise) 一个基于密度的聚类算法 可以在带有“噪音”的空间数据库中发现任意形状的聚类 * Core Border Outlier Eps = 1cm MinPts = 5 算法 任意选取一个点 p 得到所有从p 关于 Eps 和 MinPts密度可达的点. 如果p 是一个核心点, 则找到一个聚类. 如果 p 是一个边界点, 没有从p 密度可达的点, DBSCAN 将访问数据库中的下一个点. 继续这一过程, 直到数据库中的所有点都被处理. DBSCAN的复杂度 采用空间索引, 复杂度为O(nlog n), 否则为O(n2) DBSCAN的缺点: 对用户定义的参数是敏感的, 参数难以确定(特别是对于高维数据), 设置的细微不同可能导致差别很大的聚类. (数据倾斜分布)全局密度参数不能刻画内在的聚类结构 * 聚类高维数据,应用广泛: text documents, DNA micro-array data;重要挑战: 多个不相关的维度掩盖聚类 距离函数变得没有意义—由于 equi-distance(高维空间,数据变稀疏) 聚类可能存在于某些子空间中 特征变换: 仅当大部分维度与聚类相关时有效 PCA SVD有效,当特征高度相关/冗余 特征选择: 缠绕wrapper 或 过滤方法 当数据有很好的聚类结构时,很有效 子空间聚类: 在所有可能的子空间中寻找clusters CLIQUE, ProClus, and frequent pattern-based clustering * 一维的数据相对压缩的 增加一个维度将沿此维“伸展” 数据点, 使得数据更分散 增加更多的维度将使得数据更稀疏—高维数据非常稀疏 距离变得没有意义—due to equi-distance * (graphs adapted from Parsons et al. KDD Explorations 2004) 聚类可能只存在于某些子空间 子空间聚类: find clusters in all the subspaces * * * * * * * * * * * * 全局最优: 穷举所有可能的划分 启发式方法: k-平均值(k- means)和 k-中心点
您可能关注的文档
- 政治课件高一政治分配制度.ppt
- 政治课件高一政治征税和纳税.ppt
- 政治生活复习建议朱爱武.ppt
- 政治学科课件_政史地_高中教育_教育专区.ppt
- 教学 语文版八下成都市棕北中学《我理想中的学校》.ppt
- 教学中案例的使用.ppt
- 教学案例点评.ppt
- 教学应用过程中技术问题解决方法.ppt
- 教学设计与学习活动带领.ppt
- 教学目标的制订.ppt
- 2025年聊城职业技术学院单招职业技能考试题库参考答案.docx
- 2025年聊城职业技术学院单招职业技能测试题库标准卷.docx
- 2025年聊城职业技术学院单招职业技能考试题库完美版.docx
- 2025年聊城职业技术学院单招职业倾向性测试题库及参考答案一套.docx
- 2025年聊城职业技术学院单招职业倾向性测试题库新版.docx
- 2025年聊城职业技术学院单招职业倾向性测试题库a4版.docx
- 2025年聊城职业技术学院单招职业倾向性测试题库新版.docx
- 2025年高考全国一卷数学真题(七).pdf
- 2025年肇庆医学高等专科学校单招职业技能考试题库精编.docx
- 2025年肇庆医学高等专科学校单招职业倾向性考试题库汇编.docx
最近下载
- 人工胆囊、人工胆囊设备和人工胆囊在胆囊手术中的应用.pdf VIP
- 重力与弹力高一上学期物理人教版2019必修第一册+.pptx VIP
- 胃癌的诊治现状与进展.pptx VIP
- 匀变速直线运动的速度与时间的关系课件 2024-2025学年高一上学期物理人教版(2019)必修第一册.pptx VIP
- 数控压装压力机 第2部分:技术条件.docx VIP
- 【课件】匀变速直线运动速度与时间的关系+课件-高一上学期物理人教版(2019)必修第一册.pptx VIP
- XX医院职能部门监管手术、麻醉授权管理督导、检查、总结、反馈及持续改进记录表.pdf VIP
- 电力调度数据网络接入技术规范及网络拓扑图.doc VIP
- ZZGA高频开关整流器使用说明书.doc
- 危重患者院内转运PPT.pptx VIP
文档评论(0)