- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商业银行数据仓库建设
商业银行数据仓库建设
摘 要:目前国内几大商业银行的数据大集中基本完成,为企业级数据仓库的建设创造了先决条件。同时,银行管理层也希望从既有的海量数据库中获取信息,可以在精准营销、绩效考核、风险管理等方面发挥作用,这也成为建设企业级数据仓库的主要动力。结合作者的工作背景,对银行数据仓库建设过程中的几个方面进行了阐述,以期望能对读者有所启发。
关键词:数据仓库;数据模型;数据标准;元数据管理;灵活查询
中图分类号:tp311.131 文献标识码:a 文章编号:1672-7800(2012)002-0149-003
作者简介: 黄兆斌(1983-),男,上海人,中国人民大学财政金融学院硕士研究生,中国工商银行软件开发中心经理,研究方向为金融信息化。
0 引言
数据挖掘是20世纪90年代中后期提出的概念,它是以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法。以人工智能技术作为挖掘知识和发现规律的科学途径的一种解决问题的方案。而数据仓库的建设,可以看作数据挖掘的一个重要预处理步骤。在数据仓库的建设过程中,可以将支持企业日常运作的各个独立系统中的数据进行清理、集成和统一,并且可以将数据加载入不同于日常交易系统结构的易于查询分析的数据模型中,为后续数据挖掘高效地获取准确明晰的数据扫清障碍。
1 数据仓库
根据数据仓库之父w.h.inmon的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主要特征。4个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。
数据仓库领域的领导厂商,美国teradata公司给企业级数据仓库下过一个定义,“一个企业级数据仓库是一个由集成的、明细的、可扩展的数据组成的,集中的,保留历史的数据机,可以支持多个部门的各种决策分析,是整个企业分析型数据的唯一来源”。这里有5个关键字:集成的、明细的、可扩展的、集中的、保留历史的。
从以上两个定义来看,时变的包含了保留历史的意思,而面向主题的结构保证了其结构和设计是可扩展的。因此,从笔者的观点来看,数据仓库的关键字应该是:面向主题的、集成的、时变的、明细的、集中的和非易失的。
为了进一步理解数据仓库的概念,我们可以将数据仓库系统和操作型数据库系统进行一下比较,概括在表1中。
2 商业银行数据仓库
所谓商业银行数据仓库,是将数据仓库技术运用到商业银行的经营分析中,从而为商业银行的精准营销、绩效考核、风险管理等提供强有力的数据支持。
从技术角度来看,商业银行的数据仓库与其他企业的数据仓库差别不大,具有数据仓库本身具有的一切技术特性。但是其数据模型的设计,必须与商业银行的业务逻辑相切合,这样才能发挥其应有的作用。
商业银行数据仓库采集包括银行核心系统在内的交易系统数据,经过加载整理,按照银行业务主题(当事人、内部机构、资产、地址、产品、协议、事件、渠道、总账、营销等)进行组织和存储,形成商业银行数据仓库的基础模型区,特点为以数据驱动,保留基础、细节、历史、整合的数据。
3 数据仓库模型
3.1 维度模型
该模型将数据看作数据立方体(data cube)形式,立方体由维和事实定义。
维是关于一个组织想要记录的透视或实体。每一个维都有一个表与之相联,该表称为维表,它进一步描述维。
维度数据模型围绕中心主题组织。该主题用事实表表示。事实是数值度量的。把它们看作数量,是因为我们想根据他们分析维之间的关系。事实表包括事实名称和度量,以及每个相关维表的关键字。
比如,银行想记录客户所持有的账户的相关信息,那么就要建一张账户的事实表来表示账户这个主题。在账户表中有账户的余额、开户日期、开户机构、账户持有人等信息。其中,账户余额就是账户表的度量字段。而开户日期、开户机构等字段则是与其他日期、机构等维表关联的关键字。
3.2 星型模型
是维度模型的一种,包括一个大的包含大批数据和不含冗余的中心表(事实表),一组小的附属表(维表),每维一个。这种模型很像星星爆发,维表围绕中心表显示在射线上。
3.3 雪花模型
雪花模型是星型模型的变种,其中某些维表是范式化的,因而把数据进一步分解到附加的表中。结果模式图形成类似于雪花的形状。
雪花模型和星型模型的主要不同在于,雪花模型的维度可能是范式化形式,以便减少冗余。这种表易于维护,并节省存储空间,因为当维结构作为列包含在内时,大维表可能非常大。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花结构可能降低浏览的性能。这样,系统的性能可能相对受到影响
您可能关注的文档
最近下载
- 不锈钢管道安装施工与方案.doc VIP
- 喜茶运营管理手册和员工操作管理手册.doc VIP
- 施工总包合同.docx VIP
- 土木专业英国规范NA to BS EN 1991-1-4_2005+A1_2010.pdf VIP
- 软件风险管理计划.docx VIP
- 2024年秋季人教版7年级上册数学全册教学课件(新教材).pptx
- 中山市八年级下期末考试数学试题(有答案)-精品 .pdf VIP
- Module10 Unit 2 Don’t shout please!(教案)外研版(三起)英语五年级上册1.docx VIP
- 顶格筹码峰与平均成本双线合一选股公式.docx VIP
- Module 10 Unit 2 Don’t shout, please! (教案)外研版(三起)英语五年级上册1.docx VIP
文档评论(0)