- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘 第3章
第四节 数据归约 3. 数据压缩 小波变换可以用于多维数据,如数据立方体。其基本思路是:首先将变换用于第一维,然后第二维,如此下去。计算复杂性对于方体中的单元的个数是线性的。小波变换的有损压缩比当前的商业标准JPEG压缩好。小波变换广泛应用于指纹图象压缩、计算机视觉、时间序列数据分析和数据清理 第四节 数据归约 3. 数据压缩 主要成分分析PCA 假定待压缩的数据由N个元组 或数据向量组成,取自k个维。PCA有哪些信誉好的足球投注网站c个最能代表数据的k-维正交向量,这里c?k 意义:原来的数据投影到一个较小的空间,导致数据压缩 第四节 数据归约 3. 数据压缩 主要成分分析PCA PCA可以作为一种维归约形式使用。不象属性子集选择通过保留原属性集的一个子集来减少属性集的大小,PCA通过创建一个替换的、较小的变量集来“组合”属性的精华,原数据可以投影到该较小的集合中 第四节 数据归约 3. 数据压缩 主要成分分析PCA PCA计算花费低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。对于多于2维的数据可以通过将问题归约为2维来处理 与数据压缩的小波变换相比,PCA能较好地处理稀疏数据,而小波变换更适合高维数据 第四节 数据归约 4. 数值归约 数值归约技术就是通过选择替代的、较小的数据表示形式来减少数据量,主要有有参和无参两类: 有参方法:使用一个模型来评估数据,使得只需要存放参数,而不是实际数据。如,回归和对数线性模型 无参方法:使用存放数据归约表示。如,直方图、聚类、抽样 第四节 数据归约 4. 数值归约 回归和对数线性模型 直方图 聚类 抽样 第四节 数据归约 4. 数值归约 回归和对数线性模型 回归和对数线性模型可以用来近似给定数据。在线性回归中,对数据建模,使之适合一条直线。对数线性模型近似离散的多维概率分布。基于较小的方体形成数据立方体的格,该方法可以用于估计具有离散属性集的基本方体中每个单元的概率 第四节 数据归约 4. 数值归约 回归和对数线性模型 回归和对数线性模型可以用于稀疏数据,但应用可能是受限制的。在用于倾斜数据时,回归效果更好。当用于高维数据时,对数线性模型表现出很好的伸缩性,可以扩展到10维左右 第四节 数据归约 4. 数值归约 直方图 直方图使用分箱近似分布,是一种流行的数据归约形式。属性A的直方图(histogram)将A的数据分布划分为不相交的子集,或桶。桶安放在水平轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。如果每个桶只代表单个属性值/频率对,则该桶为单桶。通常,桶表示给定属性的一个连续区间 第四节 数据归约 4. 数值归约 直方图 第四节 数据归约 4. 数值归约 直方图 等宽 等深 V-最优 MaxDiff 第四节 数据归约 4. 数值归约 聚类 聚类技术将数据元组视为对象。它将对象划分为群或聚类,使得在一个聚类中的对象“类似”,但与其他聚类中的对象“不类似”。通常,类似性基于距离,用对象在空间中的“接近”程度定义。聚类的“质量”可以用“直径”表示,直径是一个聚类中两个任意对象的最大距离 第四节 数据归约 用聚类数据表示实际数据 4. 数值归约 聚类 第四节 数据归约 4. 数值归约 聚类 质心距离是聚类质量的另一种度量,它定义为聚类质心到每个聚类对象的平均距离 在数据归约时,用数据的聚类表示替换实际数据 在数据库系统中,多维索引树主要用于提供对数据的快速访问;也可用于分层数据归约,提供数据的多维聚类;也可用于提供查询的近似回答 第四节 数据归约 4. 数值归约 抽样 抽样是用数据的较小随机样本(子集)表示大的数据集,它可以作为一种数据归约技术使用 第四节 数据归约 4. 数值归约 抽样 假定大的数据集D包含N个元组,则对D的抽样有: 简单选择n个样本,不回放 简单选择n个样本,回放 聚类抽样 分层抽样 4. 数值归约 抽样 不放回简单随机抽样 放回简单随机抽样 第四节 数据归约 聚类抽样 分层抽样 4. 数值归约 抽样 第四节 数据归约 第四节 数据归约 4. 数值归约 抽样 采用抽样进行数据归约的优点:可以得到样本的花费正比例于样本的大小n,而不是数据的大小N。因此抽样的复杂性子线性于数据的大小 用于数据归约时,抽样最常用来回答聚集查询。在指定的误差范围内,可以用中心极限定理确定估计一个给定的函数的指定误差范围内所需的样本大小 第五节 离散化和概念分层生成 通过将属性域划分为区间,离散化技术可以用来减少给定的连续属性值的个数。区间的标号可以替代实际的数据值 许多离散化技术都可以递归使用,以便提供属性值的分层或多分解划分,即概念分层 第五节 离散化和概念分层生
您可能关注的文档
最近下载
- 油藏开发基础.ppt VIP
- 2025-2026部编人教版4四年级上册《道德与法治》全册教案设计.pdf VIP
- 农田水利泵站、塘坝、防渗渠工程施工组织设计.doc
- 基于BIMGIS的EPC工程总承包管理平台及其应用.ppt VIP
- 在学习领会西藏自治区成立60周年庆祝大会精神专题研讨会上的发言材料+庆祝西藏自治区成立60周年主题宣讲大会上的党课.docx VIP
- 油藏开发地质学.ppt VIP
- 关于绑架的小故事-绑架关起来的故事.docx VIP
- 食品安全管理与质量控制课件 .ppt VIP
- 飞机构造基础第章飞机电子系统.ppt VIP
- 深静脉血栓形成的诊断和治疗指南(第三版)解读PPT课件.pptx VIP
文档评论(0)