- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章数据仓库的基本原理
;数据仓库系统的功能和构成;数据挖掘分析系统/数据展现系统;数据提取 业务数据库中并不是所有的数据都是决策支持所必需的。所以要把必需的那部分提取出来。 例子:某超市确定以分析客户的购买行为为主题建立数据仓库。 需要提取的数据:与客户购买行为相关的 关于员工的数据没有必要提取。;数据清洗 数据不完整性 数据中的错误 数据的不同步 ;例子: 客户基本信息表 客户咨询信息表 客户号:100 客户号:100 姓名:张山 姓名:张三 年龄:23 咨询问题:… 两个表中,客户姓名不同。这是常见的错误 ;客户基本信息表 客户业务变更信息表 客户号:100 客户号:100 姓名:张山 姓名:张山 年龄:23 业务变更:停机 手机服务状态:正常 由于不同数据库之间的数据刷新不是实时的,所以数据不同步。;数据转化 不同的数据库厂商,提供的数据类型可能不同。 例子: 不同的时间表达方式 2000-2-3 2/3/2000 2000/2/3 不同的坐标系统 WGS84 西安80’3 度带 北京54’3度带 ;提取仓库 正是因为业务数据库系统中的数据和数据格式存在不一致的问题。将数据放进数据仓库前要先放进提取仓库,等待清洗和转换。 ;提取日志 记录了仓库中数据的来源,数据的转化过程。便于保证和验证数据的质量;数据管理员 不同于数据库管理员或系统管理员。 在数据导入时负责管理数据质量的专业人员。 查阅提取日志,发现数据提取中出现的错误 有时还要检测源于业务系统的错误。 ;外部数据源 从系统外部获取的,与分析主题相关的数据。 例子:超市采购部门确定采购货单 既要了解超市内部产品的销售情况,还要了解市场上的信息,后者即为外部数据源。 外部数据源越来越多地采用服务的技术;ArcGis rest 服务 /ArcGIS/rest/services OGC WMS OGC WFS;数据仓库存储 多维数据库 关系型数据库 两者的结合 ; 数据 数据仓库中的原始数据是由业务系统提取的或外部数据源导入,经过清洗、转化而来。 为了完成OLAP分析和数据挖掘,必需在原始数据基础上增加冗余信息与预运算。 ; 元数据 数据仓库的元数据是主要包含两类数据: 为了从操作型环境向数据仓库环境转换而建立的元数据,包含所有源数据项的名称、属性及其转化。 用来在多维商业模型和前端工具之间建立映射的,叫做决策支持系统元数据。具体包括数据仓库中信息的种类、存储位置、存储格式;信息之间的关系、信息和业务的关系、数据使用的业务规则;数据模型;数据模型和数据仓库的关系。 ; 元数据 ;数据集市 数据仓库中的信息按照不同的主题来组织。 举例:市场发展趋势的分析主题,由市场部门的人使用。 为避免在全部的巨量数组中检索,把某主题的数据逻辑上或物理上分离出来,可称为数据集市。 数据集市面向某个部门。;数据集市;数据的安全性 本地数据的安全性:数据加密、访问权限设置。 网络访问数据库:网络安全机制、网络传输中的数据加密和鉴权、防止监听和口令泄漏。;数据处理的并发性 加锁解锁实现同步与互斥 多线程,多进程技术,磁盘的存储优化,合适的索引提高并发访问的效率。 事务处理的可靠性 原子操作不能分开执行,如果某步骤失败,系统必须返回并更改操作。;数据的一致性和完整性 数据库设计、应用的开发、系统的维护方面共同努力。;操作型数据的特点 分析型数据的特点 细节的 综合的、经过提炼的 在存取的瞬间是准确的 代表过去的数据 可更新 不更新 操作需求通常事先可知 分析需求通常不知道 生命周期符合SDLC 生命周期不同于SDLC 对性能(如操作时延)要求高 对性能要
您可能关注的文档
最近下载
- 地理实验与实地考察试题及答案.docx
- 染料化学课件.pptx VIP
- 汽车销售大客户合同协议.docx VIP
- 毛新述《财务会计理论与实务》第14章 股份支付.pptx VIP
- 毛新述《财务会计理论与实务》第13章 金融资产转移.pptx VIP
- 花城版一年级音乐上册全册教学课件.pptx
- 毛新述《财务会计理论与实务》第12章 套期会计.pptx VIP
- 统编版道德与法治五年级上册2 学会沟通交流 课件.pptx VIP
- 广东省深圳市福田区职业能力测试真题汇总【二零一二年至二零二二年网友回忆版】.pdf VIP
- 毛新述人大版《财务会计理论与实务》PPT第11章 衍生工具与权益工具.pptx VIP
文档评论(0)