分布式数据库发展趋势.pptVIP

下载本文档

10
0
约6.19千字
约 31页
2018-02-24 发布于河南
举报
版权申诉

分布式数据库发展趋势.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式数据库发展趋势

第十四章分布式数据库发展趋势概述 DDBS环境网络中每个站点是即运行应用程序又运行DDBMS的通用计算机 WAN与LAN RDBMS 新需求高性能工作站(专用工作站) 并行计算机 CAD/CAM, OIS, AI 数据库服务器(1) 70年代的数据库机, 现代的数据服务器数据管理功能从主机的CPU任务中剥离数据服务器的优势功能专一专用OS, DBMS与OS紧耦合, 提高DBMS的总体性能适于现实世界的分布环境充分利用先进的硬件体系结构缺点额外的通信开销因此要求服务器提供较高层次的接口, 关系模型操作是面向集合的操作, 所以成为服务器模型的首选数据库服务器(2) 集中式服务器结构明确分工, 减少工作站与服务器之间的通信工作站对语言预处理(完整性检查, 安全控制) 工作站能访问数据目录服务器管理和更新目录, 工作站只读目录优化DBMS和OS, 或者使用多处理机解决服务器瓶颈问题分布式服务器结构并行数据服务器(1) 冯.诺依曼型计算机结构的局限应用中存在的内在的可并行处理特性关系操作本身的可并行性, JOIN中的多个子查询, 单个查询中的多步操作数据库管理性能受到I/O瓶颈的影响内存速度比硬盘速度快1000倍增加带宽提高磁盘存取的并行性使用并行可存取的多个小磁盘并行数据服务器(2) 多处理机结构通过高速通信介质连接多个可独立处理的单元通过分配查询, 操作和子操作到不同的处理单元, 以并行执行方式完成互连查询, 内部查询, 及各种内部操作类型完全共享资源结构完全不共享资源结构并行数据服务器(3) 并行数据服务器数据定位类似于分布式数据库中的数据片段定位分簇(Declustering) 数据的水平分片提高响应速度和内存查询并行度聚簇(Clustering) 聚集关系的片段综合查询或减少系统总体运行代价程序应在数据存储的站点上运行 DDBS中DBA根据对片段的使用情况检测, 进行调整, 包括移动片段和重组并行数据服务器(4) 并行数据服务与DDBS的不同应用目标不同并行中用户不专门使用某个站点, 所以不要求最大化本地性处理实现方式不同站点间高速网互连, 传输代价小, 可以调节站点间工作负载各站点地位不同不存在全局应用和局部应用各站点完全不独立, 处理时只能发挥协同作用, 无局部应用并行数据服务器(5) 数据定位方法全分簇片段分布到系统中所有有磁盘的站点散列算法分片查询时, 与选择属性精确匹配的子查询得以在一个站点上处理, 所有其它子查询在其他站点处理, 适于大范围多用户工作负载复杂查询(多个连接)时, 聚簇方法较好可变分簇依据“分簇度”对关系分片, 分簇度是关系数据分片的站点数量, 是关系大小和存取频率的函数并行数据服务器(6) 关联查询传统关联存取是由查询处理器在编译时利用数据目录完成并行系统中, 采用“全局索引”复制到每一个站点全局索引主聚簇关于关系名次聚簇关于关系中的某些属性基于散列法或B树实现并行数据服务器(7) 例: 工程数据库 E(ENO, ENAME, DEPT, TITLE) S(TITLE, SAL) J(JNO, JNAME, BUDGET) G(ENO, JNO, RESP, DUR) 全局索引(查询ENO=‘E5’) 第一级关于关系名索引映射到E关系的ENO属性索引第二级索引进一步映射值E5到站点j 并行数据服务器(8) 本地索引(次簇索引) 类似于全局索引第一级关于关系名第二级关于属性索引(映射簇值E5到91磁盘块) 实验结果短事务负载下, 分簇数量增加, 事务吞吐量增加多连接复杂事务负载下, 太细分簇降低吞吐量并行数据服务器(9) 并行操作处理关系代数操作的并行化是通过建立必要的并行查询处理子模块实现 Select 与 Join 的并行算法分簇数据分布 Select 同分片的分布DB 精确匹配谓词在单一站点执行复杂谓词, 在关系分簇所在的所有站点上执行范围查询, 只在存储相关数据的站点上执行并行数据服务器(10) Join操作高速网络环境的分布Join算法并行嵌套循环(PNL)算法并行关联(PAI)算法并行散列连接(PHJ)算法三个主要构造 send receive do-in-parallel For I from 1 to n do in parallel action A 并行数据服务器(11) 并行算法的代价 Cost(Alg) = Ccom(Alg) + Cpro(Alg)