网站大量收购独家精品文档,联系QQ:2885784924

第5章 概念描述:特征化与比较 数据挖掘:概念与技术 知识 .ppt

第5章 概念描述:特征化与比较 数据挖掘:概念与技术 知识 .ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章 概念描述:特征化与比较 数据挖掘:概念与技术 知识 .ppt

第5章 概念描述:特征化与比较;从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘。 描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。;5.1 什么是概念描述?;概念描述与OLAP的区别;5.2 数据概化;1. 面向属性的归纳的基本步骤;(1) 数据收集;产生的结果表:;数据收集时的困难 用户在指定相关的数据集方面存在困难,遗漏在描述中可能起作用的属性。 用户可能引进太多的属性。;(2)数据概化;属性概化控制;面向属性的归纳——示例;通过面向属性归纳得到的主概化关系:;5.2.2 面向属性的归纳算法;主概化关系;5.2.3 导出概化的表示;交叉表 二维交叉表使用每行显示一个属性,使用每列显示另外一个属性将结果集映射到表中。 可视化技巧: 条形图、饼图、曲线和数据立方体浏览工具(用单元的大小代表计数,用单元亮度代表另外的度量)。;;量化规则 使用t_weight表示主概化关系中每个元组的典型性 量化特征规则 将概化的结果映射到相应的量化特征规则中,比如:;  一个关于维item、location和cost的数据立方体,单元的size表示对应单元的计数,单元的亮度表示另一个度量,如sum(sales)。可以进行旋转、上卷、下钻、切片和切块操作,在数据立方体浏览器中显示。;5.3 解析特征化:属性相关分析;5.3.1 为什么进行属性相关分析?;5.3.2 属性相关分析的方法;信息增益方法;对于属性A,有v个值的{a1,a2,...,av},可以将S分成v个子集{S1,S2,...,Sv},其中Sj包含S中属性A上的值为aj的样本。假设Sj包含类Ci的sij个样本。根据A的这种划分的期望信息称为A的熵: A上该划分的获得的信息增益定义为: 具有高信息增益的属性,是给定集合中具有高区分度的属性。所以可以通过计算S中样本的每个属性的信息增益,来得到一个属性的相关性的排序。;5.3.3 解析特征化——示例 ;1. 数据收集 目标类:研究生 对比类:本科生 2. 使用保守的阀值Ui和Ti进行AOI(面向属性的归纳) 属性删除 name和phone# 属性概化 概化major, birth_place, birth_date 和 gpa 进行累积计数 候选关系:gender, major, birth_country, age_range 和gpa;目标类候选关系:研究生(?=120);3. 相关性分析 计算给定的样本分类所需要的期望信息 计算每个属性的熵: e.g. major(属性) ;如果样本根据major划分,则计算给定的样本进行分类所需的期望信息: 计算该属性的信息增益: 所有属性的信息增益 ;4. 导出初始工作关系 R = 0.1 (临界值) 从候选关系中去处不相关/弱相关的属性 ? 去处 gender, birth_country 因为类描述任务是类特征化,所以这里去处候选对比类关系 ;5.4 挖掘类比较:区分不同的类;类特征量化 ;目标类中较高的d-weight表明概化元组所代表的概念主要来自于目标类 较低的d-weight值则表明该概念主要来自于对比类;使用类比较描述的量化区分规则表示可以更好的描述上述的情况,其形式为: 如挖掘结果可以使用量化区分规则表达如下: 请注意该区分规则表达的是充分条件,即X满足条件,则X为研究生的概率为30% (特征化量化规则表达的是什么条件?)

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档