基于直方图的数据流降载策略.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于直方图的数据流降载策略

基于直方图的数据流降载策略   数据流模型中数据高速流过,现有的存储设备可能无法存储全部海量数据,这就须要对延迟数据采取一定的技术手段来保证系统重新正常运转.使用降载算法,舍弃部分数据,用近似数据源替代精确数据源,可以减缓系统的处理压力,从而为数据流系统的查询操作提供一定保证.为此文献提出在数据流管理系统中进行查询操作时动态地插入和删除降载操作符来解决数据过载的问题.选择降载数据时主要采取两种方法:以随机的方式丢掉一部分数据;根据数据流内容的重要性丢弃一部分相对不太重要的数据.文献提出对于多数据源的数据流要采用分类的方法.使用马尔科夫模型来预测数据流中特征值数据的位置,用贝叶斯决策理论来评判部分数据被删除后的误差.文献提出使用贪心算法来选择要删除的数据,利用矩阵实现对数据精度的控制.   用户在进行数据流查询时,用户关注的是数据的变化、分布和多样性.当数据流中数据过载时,必须删除部分数据来换取系统的正常运转.在数据流中,很多数据数值近似或完全相同.这些大量重复出现的数据代表了数据的冗余.使用直方图可以精简数据流中的冗余数据,减少过量数据对系统资源的压力.这里主要研究了利用直方图技术。实现数据流的降载.为了克服现有方法不足,本文提出了基于距离的直方图降载算法.   1问题描述   数据流中的降载问题是:如何让一个容量有限的缓存尽可能多地容纳实时到达的数据,如何在暂存数据趋向于饱和并且系统处理能力无法无限升级的情况下,在尽可能保留数据特征的同时,删除部分数据,要求这种操作对数据流查询结果的错误率的影响尽量小.由此可见如何选择这部分被舍弃的数据成为函待解决的问题.   基于直方图的数据流降载方法的系统架构如图1所示,具体操作如下:   a.对数据流进行监控,若发现有缓存饱和的趋势或者被延迟处理的数据越来越多,则判断是否发生了过载,若发生了过载,则执行降载操作来保证系统继续运行;   b.求取新到达的数据与邻近桶中代表数据之间的距离,若距离不大,则将新来的数据加入到该桶中,若距离超过阈值,则用新来的数据创建一个新的桶,桶与桶之间的数据不相交;   c.用每个桶的代表数据组成新的数据流参与数据流查询.   2实验评估   使用的数据流为某网站的服务器流量.该网站主要从事电子商务,顾客会为服务器带来流量.平时流量不太大,当网站为商品做促销活动时,流量会突然增大很多倍,甚至超出服务器的承受能力.本实验从流量突然增大前开始采集数据.   实验采用的计算机配置为CPU Intel i5 3470,内存8GB,操作系统Windows XP.   数据流查询操作结果的准确性很大部分取决于数据源.采用降载算法得到的是被压缩后的近似数据流,这些近似数据保留了数据流的多样性.过载发生时数据流中的数据流速,系统压力程度的不同都会导致降载算法对最终的查询结果产生影响.   进行实验时,首先对没有使用降载算法的数据流进行查询,得到精确的查询结构.以1s为时间间隔,对数据流进行了6个查询,计算出每个查询的错误率,计算这6个错误率的平均值并与使用降载算法后的6个查询错误率的平均值进行比较.若系统的负载压力系数p(pge;0)不同,则在使用不同降载算法后,得到的查询结果精确度也完全不同.若p=3,则表示系统承受的负载是系统容量的3倍.即使系统的负载远大于系统的容量,使用HLS算法后平均错误率也不是很高,远低于随机降载(random laod shedding, RLS)算法.   随着时间的变化,系统数据流流速的快慢也会对算法产生影响.测试数据流最初以较慢的速率流入,每个时间间隔流入的数据量远小于系统的处理能力,这样就不会产生拥塞,查询结果错误率较小.过了一段时间,数据流流入的速率开始加快,逐渐有数据发生延迟处理pLtS,错误率开始提高,这时启动数据流过载算法,当数据流的流速进一步加速时,查询结果的错误率却没有提高.很明显,使用HLS算法产生的查询精度错误率要小于RLS算法.

文档评论(0)

专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!

1亿VIP精品文档

相关文档