- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘期末考试重点
1·元数据:是关于数据仓库中数据的数据。2·数据仓库中的元数据可以分为四类关于数据源的元数据:对不同平台上的数据源的物理结构和含义的描述;关于数据模型的元数据:描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础;关于数据仓库映射的元数据:反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换,变换和加载过程;关于数据仓库使用的元数据:数据仓库中信息的使用情况描述,这类元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。3·数据仓库和数据集市的区别数据仓库收集了关于整个组织的主题(如顾客、商品、销售、资产和人员)信息,因此是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模。数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。4·数据集市主要有两种结构:从属数据集市(数据直接来自于中央数据仓库)独立数据集市(数据直接来源于各生产系统)5·数据库与数据仓库的联系与区别?联系:数据仓库的出现,并不是要取代数据库。可以说,数据库、数据仓库相辅相成、各有千秋。区别:出发点不同(面向事物/面向主题)、存储的数据不同(实时数据/历史数据)、设计规则不同(范式/反范式)、提供的功能不同(捕获数据/分析数据)、基本元素不同(事实表/维表)、容量不同(GB/TB)、服务对象不同(业务处理人员/高层决策人员)。6·粒度的作用:粒度越小,数据的综合程度越低,存储的数据越详细,需要的索引项越多,存储的数据量越大;回答查询的种类越多。粒度越高,数据综合程度越高,需要的索引项越少,存储的数据量越小,查询的效率也越高7·数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。8·数据集市的两种架构:(1)、从属数据集市:它的数据直接来自于中央数据仓库。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。(2)独立数据集市:它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。9·星型模型与雪花模型的比较:本质相同,都由事实表、维表构成大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。雪花模型将维表按层次进行了规范化,可以节省空间,使结构清晰,但在查询时涉及更多的连接操作。10·星型模型的优点:星型模型存取数据速度快,主要是由于它针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等;另外,星型模型比较直观,便于用户理解。11·星型模型的缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。并且,星型模型的数据冗余量很大。12·雪花模型的优点:在一定程度上减少了数据存储量,规范化的结构更容易更新和维护。13·雪花模型的缺点:它比较复杂,用户不易理解;浏览内容相对困难;额外的连接降低了查询的性能。在数据仓库中,通常不推荐使用雪花模型,因为数据仓库对查询性能的要求更高。14·ETL:*定义:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程。*ETL工具:Informatica公司的Power Center 、IBM 公司的Data Stage 、Oracle 公司的Warehouse Builder 以及Microsoft 公司的SQL Server IS 等。*主要功能:数据抽取(从数据库中导入与决策相关的数据);数据转换(对数据粒度以及不一致的数据进行转换);数据清洗(校验数据源的数据质量,尽量减少差错);数据装载(把数据装载到数据仓库中.)15·数据挖掘*定义:在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以萃取出有用的信息,找出有意义且用户有兴趣的模式,提供企业管理阶层在进行决策时的参考依据。*功能:(1)分类:按照分析对象的属性分门别类加以定义建立类组class;(2)估计:根据既有连续性数值的相关属性数据,以获知某一属性未知值;(3)预测:
文档评论(0)