V03-数据建模文档-V01教程.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
V03-数据建模文档-V01教程

数据建模相关数据建模的相关知识2数据仓库建模原则2建模模型选型2第三范式3数据模型内容3标识各个主要主题领域3数据模式转变为数据仓库的主要工作4表的设计5维度表5度量值5事实表5粒度5建模注意事项6数据建模的十条戒律6Erwin的设计71.安装72.新建模型73.给模型命名84.导出数据字典115.导出建表语句12数据建模的相关知识传统的关系数据库一般采用二维数表的形式来表示数据,一个维是行,另一个维是列,行和列的交叉处就是数据元素。关系数据的基础是关系数据库模型,通过标准的SQL语言来加以实现。数据仓库是多维数据库,它扩展了关系数据库模型,以星形架构为主要结构方式的,并在它的基础上,扩展出理论雪花形架构和数据星座等方式,但不管是哪一种架构,维度表、事实表和事实表中的量度都是必不可少的组成要素。数据仓库建模原则满足不同的用户需求兼顾效率与数据粒度的需要支持需求的变化避免对业务运营系统造成影响考虑未来的可扩展性建模模型选型星型模型星形模型是最常用的数据仓库设计结构的实现模式,它使数据仓库形成了一个集成系统,为最终用户提供报表服务,为用户提供分析服务对象。星形模式通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来支持各种决策查询。星形模型可以采用关系型数据库结构,模型的核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。维度表中的对象通过事实表与另一维度表中的对象相关联这样就能建立各个维度表对象之间的联系。每一个维度表通过一个主键与事实表进行连接。雪花模型雪花模型是对星形模型的扩展,每一个维度都可以向外连接多个详细类别表。在这种模式中,维度表除了具有星形模型中维度表的功能外,还连接对事实表进行详细描述的详细类别表,详细类别表通过对事实表在有关维上的详细描述达到了缩小事实表和提高查询效率的目的。雪花模型对星形模型的维度表进一步标准化,对星形模型中的维度表进行了规范化处理。雪花模型的维度表中存储了正规化的数据,这种结构通过把多个较小的标准化表(而不是星形模型中的大的非标准化表)联合在一起来改善查询性能。由于采取了标准化及维的低粒度,雪花模型提高了数据仓库应用的灵活性。这些连接需要花费相当多的时间。一般来说,一个雪花形图表要比一个星形图表效率低。星座模式一个复杂的商业智能应用往往会在数据仓库中存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这就是事实星座,也称为星系模式(galaxy schema)。数据仓库中存放了企业的整体信息,而数据集市只存放了某个主题需要的信息,其目的是减少数据处理量,使信息的利用更加快捷和灵活。数据仓库由于是企业范围的,能对多个相关的主题建模,所以在设计其数据构成时,目前较常用的两种建模方法所谓的第三范式(3NF,即Third Normal Form)和星型模式(Star-Schema), 第三范式范式是数据库逻辑模型设计的基本理论一个符合第三范式的关系必须具有以下三个条件: 每个属性的值唯一,不具有多义性; 每个非主属性必须完全依赖于整个主键,而非主键的一部分; 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。数据模型内容标识各个主要主题领域1)各个主要主题之间的各种关系2)清晰地定义模型的边界3)把原始数据和导出数据分离4)每个主题领域需要标识键码属性属性分组之间的关系多重出现的数据数据的类型数据模式转变为数据仓库的主要工作1)如果原先没有时间元素的话,时间元素必须加入到键码结构中2)必须清除所有的纯操作型数据3)需要将参照完整性关系转换成““人工关系””4)将经常需要用到的到处数据假如到设计中5)对数据的结构进行调整 增加数据阵列 增加数据冗余 在合适的情况下进一步分离数据 在合适的时候合并数据表6)需要做数据的稳定性分析表的设计维度表是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别分别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。度量值在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据(如销售、毛利、成本)。所选择的度量值取决于最终用户所请求的信息类型。一些常见的度量值有sales、cost、expenditures和production count等事实表是数据聚合后依据某个维度生成的结果表事实表主要包含了描述特定商业事件的数据,即某些特定商业事件的度量值。一般情况下,事实表中的数据不允许修改,新的数据只是简单地添加进事实表中,维度表主要包含了存储在事实表中数据的特征数据。每

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档