概念描述.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概念描述

Data Mining: Concepts and Techniques 概念描述 特征化和比较 概念描述: 特征化和比较(定性与对比) 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较: 获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 什么是概念描述? 数据挖掘:描述性 vs. 预测性 描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质 预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为 概念描述: 描述性数据挖掘的一种最简单的类型 一个概念:对一个包含大量数据的数据集合总体情况的概述。 概念描述(concept description):对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述。 概念/类描述:特征化和区分(定性与对比) 概念描述的主要方法: 特征化:对目标数据进行概述性的总结(通过数据泛化得到)。 比较: 对两个或以上数据集合概化后,进行对比并将对比结果进行概化。(以表格或对比规则形式给出) 如一个大学中讲师、副教授的情况 讲师:75% (papers3) and (teaching courses2) 副教授:66% (papers=3) and (teaching courses=2) 概念描述和OLAP 概念描述: 能够处理复杂的数据类型和各种汇总方法 更加自动化 OLAP: (联机分析处理,on-line analytical processing) 只能限制于少量的维度和数据类型 用户控制的流程 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 数据概化和基于汇总的特征化 数据概化(data generalization) 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次 比如:青年、中年、老年 来替代底层实际的年龄数据值 又如:右图 方法: OLAP方法: 面向属性的归纳 OLAP方法 在数据立方体上进行计算和存储结果 优点 效率高 能够计算多种汇总 如:count,average,sum,min,max 还可以使用roll-down和roll-up操作 限制 只能处理非数值化数据和数值数据的简单汇总。 只能分析,不能自动的选择哪些字段和相应的概念层次 面向属性的归纳 KDD Workshop(89)中提出 不限制于种类字段和特定的汇总方法 方法介绍: 使用某一方法(如SQL)收集相关数据 通过数据删除和数据概化来实现概化 聚集通过合并相等的广义元组,并累计他们对应的计数值进行 和使用者之间交互式的呈现方式. 基本方法 数据聚焦:选择和当前分析相关的数据,包括维。 属性删除: 如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。 属性阈值控制: typical 2-8, specified/default. 概化关系阈值控制: 控制最终关系的大小, typical 10-30. (指不同元组的个数) 基本算法 InitialRel: 得到相关数据,形成(与任务相关的)初始关系表 PreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。 PrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。 结果的表示:概化关系、交叉表、3D立方体 类特征化:示例 概化结果的表示 概化关系: 一个表格,其中有属性字段,后附汇总方法。 交叉表: 二维交叉表 可视化方法: Pie charts, bar charts, curves, cubes, and other visual forms. 量化特征规则: 带有量化信息的逻辑规则 表达方式-概化关系 表达方式—交叉表 (行列均为属性) 特征化和比较 什么是概念描述? 数据概化和基于汇总的特征化 分析特征化: 分析属性之间的关联性 挖掘类比较:获取不同类之间的不同处 在大型数据库中挖掘描述统计度量 特征化和OLAP 相似性: 在多个抽象层次上展现对数据的汇总情况 交互式的操作 区别: 自动化的层次分配. 当有很多相关维时,对维进行相关性分析,并排序 维度和计算量的多样性 分析特征化: data dispersion analysis. 属性相关性分析 why? 哪些维需要包括? 需要概

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档