- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析;聚类:数据对象的集合 在同一个聚类中的对象彼此相似 不同聚类中的对象则差别较大 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类别,观察式学习 发现合适的类 形成对每个类的描述;如何定义相似度? 聚类依赖于对“相似”的定义 选用何种分组方法? 数据类型,聚类的应用及目的。常用:层次、划分、密度、网格、模型、神经网络 如何评价聚类结果? “哇”准则 如何得到好的聚类结果? 最重要的是结合业务形成对每个类的描述 一般要重复执行多次聚类,选择合适的结果 ;一个好的聚类分析方法会产生高质量的聚类 高类内相似度 低类间相似度 作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法 聚类方法的所使用的相似性度量和方法的实施 方法发现隐藏模式的能力;聚类分析的数据挖掘功能 作为一个独立的工具来获得数据分布的情况 作为其他算法(如:特征和分类)的预处理步骤 空间数据分析 在GIS系统中,对相似区域进行聚类,产生主题地图 检测空间聚类,并给出它们在空间数据挖掘中的解释 图像处理 商务应用中,帮市场分析人员发现不同的顾客群 互联网 对WEB上的文档进行分类 对WEB日志的数据进行聚类,以发现相同的用户访问模式;许多基于内存的聚类算法采用以下两种数据结构 数据矩阵:用p个变量来表示n个对象 也叫二模矩阵,行与列代表不同实体 相异度矩阵:存储n个对象两两之间的相似度 也叫单模矩阵,行和列代表相同的实体;许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。 相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括: 区间标度变量 二元变量 标称型、序数型和比例标度型变量 混合类型的变量;区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等 选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化: 计算平均的绝对偏差 其中 计算标准化的度量值(z-score) 使用平均的绝对偏差往往比使用标准差更具有健壮性;对象间的相似度和相异度(1);对象间的相似度和相异度(2);一个二元变量只有两种状态:0或1; e.g. smoker来表示是否吸烟 一个对象可以包含多个二元变量。 二元变量的可能性表: 如何计算两个二元变量之间的相似度? ;对称的 VS. 不对称的 二元变量 对称的二元变量指变量的两个状态具有同等价值,相同权重;e.g. 性别 基于对称的二元变量的相似度称为恒定的相似度,可以使用简单匹配系数评估它们的相异度: 不对称的二元变量中,变量的两个状态的重要性是不同的;e.g. HIV阳性 VS HIV阴性 基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度;二元变量的相异度——示例;标称变量;序数型变量;一个比例标度型变量xif是在非线性的标度中所取的正的度量值,例如指数标度,近似的遵循以下公式: AeBt or Ae-Bt 计算比例标度型变量描述的对象之间的相异度 采用与区间标度变量同样的方法——标度可能被扭曲,效果往往不好 对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理 yif = log(xif) 将xif看作连续的序数型数据,将其秩作为区间标度的值来对待;在真实的数据库中,数据对象不是被一种类型的度量所描述,而是被多种类型(即混合类型)的度量所描述,包括: 区间标度度量、对称二元变量,不对称二元变量,标称变量,序数型变量合比例标度变量 计算混合型变量描述的对象之间的相异度 将变量按类型分组,对每种类型的变量进行单独的聚类分析 在每种聚类分析导出相似结果的情况下可行 所有变量一起处理,进行一次聚类分析,可以将不同类型的变量组合在单个相异度矩阵中,把所有有意义的变量转换到共同的值域区间[0,1]之内;聚类分析算法种类繁多,具体的算法选择取决于数据类型,聚类的应用和目的,常用的聚类算法包括: 基于划分方法 基于层次的方法 基于密度的方法 基于网格的方法 基于模型的方法 基于神经网络的方法 实际应用中的聚类算法,往往是上述聚类方法中多种方法的整合;给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个类,并且k=n。 每个组至少包含一个对象 每个对象属于且仅属于一个组 划分准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同 类的表示 k-平均算法 由类的平均值来代表整个类 k中心点算法 由处于类的中心区域的某个值代表整个类;给定n个对象的数据集,以及要生
文档评论(0)