网站大量收购独家精品文档,联系QQ:2885784924

深度解析分布式数据流系统的论文.docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度解析分布式数据流系统的论文.doc

  深度解析分布式数据流系统的论文 摘要:分析了基于结构化覆盖网的分布式查询处理模型,支持大量数据流的分布式存储,连续查询间、查询内的并行处理操作,能够在很大程度上消除资源约束问题(主要是内存),提高了查询性能、服务质量,并且该查询模型具有很好的扩展性。 关键词:分布式数据流,分布式数据流系统   近年来,数据流查询处理是数据库研究领域的一个热点方向。数据流的特征可概括为无限性、瞬时性、流速不定性、语义不定性(数据模式随时可能改变)等。针对数据流的以上特征,不考虑将数据流存储在传统的关系数据库中,数据流上的查询是近似查询、连续查询(continuousquery)。目前,数据流管理系统中所采用的近似查询的方法主要有以下几种:随机抽样(randomsampling)、数据写生(sketching)、直方图(histograms)、小波变换([1]系统、布朗大学的aurora[2,3]系统等;有分布???数据流处理系统,如mit的medusa[4,5]项目,brandeis、broit的合作项目borealis[6,7]等。.cOm这些项目在数据流处理的查询语言、近似查询算法、保证服务质量的策略,以及系统的负载均衡等方面做了大量的工作,但同时也揭示出在分布式数据流处理系统中更多值得研究的问题。本文将对基于structuredoverlaye)。为了了解系统中数据流模式的定义、系统中的数据流、数据流的到达(存放)位置、系统中哪一部分查询执行,就要考虑在catalog中存放必要的数据。其中catalog信息是通过在dht下分布式存储的,前面已经分析了catalog信息的存储问题。   系统中对每一个数据流、每一个查询、查询中的算子、算子大纲、节点间输出队列均有惟一的命名。查询处理器位于dht之上。同查询相关的数据粒度限定为数据流、输入数据源(记录集)、节点间传输数据队列、算子大纲,而不是针对单个记录而言。对于这些粒度的数据可以通过在dht中通过put(namespace,object)、get(namespace)、multicast(namespace)消息得到。   对于操作符(算子)在节点间迁移的情况,可以提供远程算子定义接口。当节点a上查询执行的下一步join操作要求节点b的查询执行器完成时,节点b接收到远程调用请求,初始化join算子,将节点a上发出调用请求算子的状态信息(大纲,synopsis)作为参数传递给b,然后就可以在节点b上进行join算子运算。查询内并行就是有若干这样的节点间的算子迁移,使一个查询计划得以在多节点的算子之间并行执行。   对于基于滑动窗口的数据流处理的join操作,如果有两个数据流,查询处理基于时间的窗口,进行join操作的两个数据流时间范围较长,那么要求在一个节点上维护操作符的状态信息将会变得非常困难,join算子状态信息存储要求的内存空间可能非常大,则会进行操作符分割操作。在该节点的近邻节点上同时进行join操作,最终将各个节点上的状态信息进行合并操作即可。   算子迁移、算子合并、算子分割等操作在基于dht的系统上实现具有良好的扩展性。dht层为数据流处理系统在荷载大的情况下进行负载脱落、查询计划间并行、查询计划内并行提供了可以随意扩展的基础平台。      3结束语      本文给出了基于structuredoverlayodelsandissuesindatastreamsystems[c]//procofthe21stacmsymposiumonprinciplesofdatabasesystems,2002.  [2]balakrishnanh,balazinskam,carneyd,etal.retrospectiveonaurora[j].vldbjournal,2004,13(4):370-383.   [3]abadid,carneyd,stonebrakerm,etal.aurora:aneodelandarchitecturefordatastreammanagement[j].vldbjournal,2003,12(2):120-139.   [4]zdoniks,stonebrakerm,cherniackm,etal.theauroraandmedusaprojects[j].ieeedataengineeringbulletin,2003,26(1):3-10.   [5]cherniackm,balakrishnanh,balazinskam,etal.scalabledistributedstreamprocessing[c]//procofthe1stbiennialconferenceo

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档