中期检查 - 苏东海.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中期检查 - 苏东海

报告人:苏东海 导 师:赵书良教授 日 期:2013.11.15 报告内容 尚未完成的工作 4 研究目的和意义 1 国内外研究现状 2 主要研究内容 3 5 目前已完成情况 后期工作安排 6 1.研究目的和意义 1)聚类挖掘是数据挖掘的一个重要研究方向 聚类挖掘的目的是将大量的数据对象按其自身的属性划分成若干类别,以保证同类对象间尽可能相近,而类间对象尽可能相异,从中发现一些对用户有用的信息以指导用户进行更深层次的数据挖掘或分析。因此,有效地进行聚类挖掘至关重要。 2)多尺度聚类挖掘是聚类挖掘研究的一个新方向 多尺度聚类挖掘是针对数据的多尺度特性进行的聚类挖掘,旨在对数据的不同尺度进行聚类,数据的多尺度聚类挖掘主要表现在两个方面:时间尺度的可伸缩性和空间尺度的可扩展性。使用户在不同的尺度层面对数据进行观察与分析。 研究目的和意义(续) 3)多尺度聚类数据挖掘面临紧迫要求。 随着数据挖掘技术的普及和应用,聚类挖掘作为数据挖掘领域中的重要技术而得到广泛的应用,然而仅从数据的单一尺度进行的聚类挖掘已不能满足用户观察和分析数据的要求。为适应用户从多个尺度探索数据的紧迫要求,提出了一种基于加权向量提升的多尺度聚类挖掘算法,以实现在多个尺度层面对数据进行聚类挖掘。 2.国内外研究现状 1)多尺度数据挖掘的三种途径 孙庆先,方涛,郭达志等通过对空间数据挖掘中的尺度转换进行研究将数据的多尺度数据挖掘归结为以下三个途径: a)在挖掘前将单一尺度的数据转换为多个尺度的数据,然后对多个尺度的数据分别进行挖掘,即实现数据的多尺度转换; b)在数据挖掘算法中增加调节尺度用的操作部件,以控制挖掘出的知识的尺度; c)将挖掘出的单一尺度的知识转换为多个尺度的知识,即实现知识的多尺度转换。 国内外研究现状(续) 2)基于三种途径的多尺度聚类挖掘算法研究 对数据的多尺度特性进行聚类挖掘算法研究的方法主要集中于前两种途径,即实现数据的多尺度转换。如施培蓓,郭玉堂等2011年通过比较聚类中心与原点的距离和引入尺度参数来控制数据点与聚类中心的距离的方法提出了一种改进的K-Means聚类算法实现了多尺度的谱聚类数据挖掘。 这种类型的聚类算法需要对数据的每一个尺度应用一次聚类挖掘算法,计算量大。而第三种途径的多尺度聚类挖掘算法研究较少,刚好可以克服前两种途径的缺点。 3.主要研究内容 本文研究的核心是通过多尺度数据挖掘的第三种途径,提出并实现基于加权向量提升的多尺度聚类数据挖掘算法。算法首先对选定的基准尺度进行聚类挖掘,再通过加权向量提升的尺度转换方法获取其它尺度上的聚类结果,因此本文的主要研究内容为: 1)基于加权向量提升的多尺度聚类挖掘算法 2)基准尺度的选取准则 3)加权向量提升的权重的确定方法 4)多尺度聚类挖掘结果的评估 4.目前已完成情况 已完成的研究内容为: 4.1基于加权向量提升的多尺度聚类挖掘算法 4.2基准尺度的选取准则 (1)距离最大准则 (2)能量最大差异准则 (3)相关系数最小准则 4.3加权向量提升的权重的确定方法 基于基准尺度聚类结果作为神经网络输入端,目标尺度聚类结果作为神经网络输出端,来构建反向传输的两层神经网络来学习加权向量提升中的权重。 目前已完成情况(续) 4.1基于加权向量提升的多尺度聚类挖掘算法 目前已完成情况(续) 4.2基准尺度的选取准则 距离最大准则:基准尺度选择时,若所选择的基准尺度使得在所有目标尺度上聚类结果的距离和达到最大,则该基准尺度就是最佳的基准尺度。定义两个基准尺度间的距离度量: 其中f是基准尺度在各个目标尺度上的聚类结果。 目前已完成情况(续) 4.2基准尺度的选取准则 能量差异最大准则:对于L个类别,当其中具有相同的均值或者均值很接近时,其特征向量的平方和即能量便提供了一种分类信息:若不同类别的特征向量之间的能量相差越大,则类别的可分性就越好。因此定义如下的能量差异函数,选取某一基准尺度使得以其为参数的能量差异最大,这一基准尺度便是最佳的基准尺度: 其中f是基准尺度在各个目标尺度上的能量。 相关系统最小准则:若所选择的基准尺度使得数据在所有尺度上的聚类结果的相关系数最小,则这一基准尺度便为最佳的基准尺度。 目前已完成情况(续) 4.3加权权重的确定 后向传播网络确定加权权重:以基准尺度聚类结果作为神经网络输入端,目标尺度聚类结果作为神经网络输出端的基本思想,构建两层的后向传输神经网络以学习加权权重。构建的神经网络如下图 5.尚未完成的工作 1)基准尺度的自动选择 2)多尺度聚类挖掘结果的评价机制 6.后期工作安排 1)2012.11-2012.12 多尺度

文档评论(0)

zsmfjh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档