《机器学习项目案例开发》课件 8.2聚类-DBSCAN.pptx

《机器学习项目案例开发》课件 8.2聚类-DBSCAN.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

人工智能技术与应用

8.DBSCAN聚类;;DBSCAN概念;DBSCAN算法基本概念:

r邻域:给定对象半径为r内的区域称为该对象的r邻域。如图,P对象在半径r内构成的圆就是该对象的r邻域,如图1。

核心对象:如果给定对象r邻域内的样本点数大于等于MinPoints,则称该对象为核心对象;如图2:设置MinPoints的点为2,那么在对象p的e领域内有4个点,大于MinPoints,那么p对象就是核心对象。

ε-邻域的距离阈值:设定的半径r

直接密度可达:如果样本点q在p的r邻域内,并且p为核心对象,那么对象p-q直接密度可达,如图3。;DBSCAN算法基本概念:

密度可达:若有一个点的序列q0、q1、…qk,对任意qi-qi-1是直接密度可达的,则称从q0到qk密度可达,这实际上是直接密度可达的“传播”,如图1,q-p密度直达,m-q密度直达,那么m-p密度可达。

密度相连:若从某核心点p出发,点q和点k都是密度可达的,则称点q和点k是密度相连的,如图2:q-o是密度可达,p-o是密度可达,q-p是密度相连。

在DBSCAN中那些样本可以看成一个类(也称簇)。即最大的密度相连的样本集合。;密度可达与密度直达:

图中MinPts=5,红色的点都是核心对象,因为其?-邻域至少有5个样本。黑色的样本是非核心对象。所有核心对象密度直达的样本在以红色核心对象为中心的超球体内,如果不在超球体内,则不能密度直达。图中用绿色箭头连起来的核心对象组成了密度可达的样本序列。在这些密度可达的样本序列的?-邻域内所有的样本相互都是密度相连的。;DBSCAN算法基本概念:

边界点:属于某一个类的非核心点,不能发展下线了,如图中B、C点就是边界点。

噪声点:不属于任何一个类簇的点,从任何一个核心点出发都是密度不可达的,如图N点。

A核心对象、BC边界点、N离群点;DBSCAN流程:

参数D:输入数据集:

参数?:指定半径

MinPts:密度阀值;参数选择:

参数?:半径?,可以根据K距离来设定:找突变点

K距离:给定数据集P={p(i);i=0,1,…n},计算点P(i)到集合D的子集S中所有点之间的距离,距离按照从小到大的顺序排序,d(k)就被称为k-距离。

MinPts:k-距离中k的值,一般取的小一些,多次尝试

;DBSCAN优缺点;敬请指导!

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档