- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
四川理工学院-计科系-数据仓库复习题四川理工学院-计科系-数据仓库复习题
第一章 概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。5.数据挖掘与数据仓库的关系(联系和区别)?区别:数据仓库——是一种存储技术,它包含大量的历史 数据、当前的详细数据以及综合数据,它能为不同用户 不同决策需要提供所需的数据和信息。数据挖掘——是从人工智能机器学习中发展起来的, 他研究各种方法和技术,从大量的数据中挖掘出有用的信 息和知识。联系:数据仓库为数据挖掘提供了更好的、更广泛的数据源;数据仓库为数据挖掘提供了新的支持平台;数据仓库为更好地使用数据挖掘工具提供了方便;数据挖掘为数据仓库提供了更好的决策支持;数据挖掘对数据仓库的数据组织提出了更高的要求;数据挖掘为数据仓库提供了广泛的技术支持。第二章 数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。5.在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。第三章 联机分析处理技术1.联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。2.OLAP的主要特征快速性、可分析性、多维性、信息性。3.钻取Drill/Roll up,Drill down改变维的层次,变换分析的粒度。分向上钻取和向下钻取。向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。向下钻取:从汇总数据深入到细节数据进行观察或增加新维。4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。5.OLAP根据其数据存储格式可分为三类:关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)。6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。7.OLAP的衡量标准(1)透明性准则:——OLAP在体系结构中的位置和数据源对用户是透明的。(2)动态的稀疏矩阵处理准则:——对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。(3)维的等同性准则:——每一数据维在数据结构和操作能力上都是等同的。第四章 数据预处理1.数据预处理的方法——数据清洗、数据集成、数据变换、数据规约等。2.分箱方法——统一权重、统一区间、最小熵、用户自定义区间。3.数据平滑处理方法——按平均值、按边界值、按中值4.数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如[0,1],称为规范化/标准化。(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。5.数据规约从大数据集中得到其规约表示——小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。6. 下面是一个超市某种商品连续24个月的销售数据(百元): 21,16,19,24,27,23,
您可能关注的文档
- 关于胜任力的学习与应用分享关于胜任力的学习与应用分享.docx
- 关于雅思阅读解题技巧:标题对应题关于雅思阅读解题技巧:标题对应题.docx
- 关爱老人ppt准备材料....关爱老人ppt准备材料.....docx
- 兴安托福听力提分技巧兴安托福听力提分技巧.docx
- 内江托福听力提分策略内江托福听力提分策略.docx
- 再没时间 创业时也要读下这十本经典书再没时间 创业时也要读下这十本经典书.docx
- 再谈细节决定成败 网站排名因素之细节研究再谈细节决定成败 网站排名因素之细节研究.ppt
- 再送Excelr中的技巧给大家再送Excelr中的技巧给大家.docx
- 写给至亲的那些话写给至亲的那些话.ppt
- 农业物联网在智慧农业实验室的建设解决方案农业物联网在智慧农业实验室的建设解决方案.docx
- 嘉峪关托福听力提升技巧嘉峪关托福听力提升技巧.docx
- 四川省凉山州2014年中考英语试题(word版,含精细答案)四川省凉山州2014年中考英语试题(word版,含精细答案).docx
- 四川省教育考试院高考命题暨高中新课程实施情况调研会四川省教育考试院高考命题暨高中新课程实施情况调研会.docx
- 四年级 语文 第一单元导学案四年级 语文 第一单元导学案.docx
- 四平托福听力提高方法四平托福听力提高方法.docx
- 回合制手游2017必玩推荐回合制手游2017必玩推荐.docx
- 团队游戏某些种类团队游戏某些种类.docx
- 固原托福听力提分技巧固原托福听力提分技巧.docx
- 国内充换电设备生产企业大揭秘国内充换电设备生产企业大揭秘.docx
- 国内垃圾填埋场国内垃圾填埋场.docx
文档评论(0)