分布式爬虫的动态负载均衡方法研究-计算机科学与技术专业论文.docxVIP

下载本文档

61
0
约5.3万字
约 60页
2018-12-06 发布于上海
举报
版权申诉

分布式爬虫的动态负载均衡方法研究-计算机科学与技术专业论文.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分布式爬虫的动态负载均衡方法研究-计算机科学与技术专业论文

Classified Index: TP399 U.D.C: 621.3 Dissertation for the Master Degree in Engineering RESEARCH ON DYNAMIC LOAD BALANCING METHOD OF DISTRIBUTED CRAWLER SYSTEM Candidate： Zhihui Fu Supervisor： Prof. Xiaofei Xu Academic Degree Applied for： Master of Engineering Speciality： Computer Science Technology Affiliation： Shenzhen Graduate School Date of Defence： Dec，2014 Degree-Conferring-Institution： Harbin Institute of Technology 摘要摘要 - - I - 摘要随着互联网的高速发展，有哪些信誉好的足球投注网站引擎成为互联网用户查找信息的第一入口，作为有哪些信誉好的足球投注网站引擎核心组件的网络爬虫用于在互联网上采集数据。现在网络信息正以指数级的速度不断膨胀，网页采集的完整性和实时性的难度越来越大，这给爬虫系统带来了巨大的挑战。如何充分地利用计算机的硬件资源和网络带宽高效地采集页面,同时减少由 URL 判重所带来的大量通信开销，是分布式爬虫系统研究的核心问题。针对这个问题，本文以提高分布式爬虫系统的性能为核心，进行了以下研究：深入研究了分布式系统优缺点、分布式系统的任务调度、网络爬虫工作原理和爬行策略的基础上，结合网络爬虫自身特点、互联网结构特点和站点页面间的相似性，提出了基于在线反馈的站点规模动态预测算法。站点规模动态预测算法首先对站点规模进行分类，然后根据互联网结构的疏密性和爬虫的爬行原理，提出了站点增长比的概念，在爬虫爬行的过程中，在线采集计算增长比的信息，通过计算出的增长比的反馈，对站点规模进行逐步预测，并基于采集的数据进行了算法模型的训练和验证；将基于在线反馈的站点规模动态预测算法融入到分布式爬虫系统中，可根据预测出的站点规模，减少 URL 判重所带来的大量通信开销。针对站点规模计算出爬行器所承载的任务负荷量，通过监视器定时收集爬行器自身负荷当量，基于以上两点计算爬行器间的负载系数，并以此为依据进行任务调度，以达到负载均衡的效果；结合以上理论基础和研究成果，本文设计并开发了基于站点规模的动态任务分割算法的分布式爬虫系统，该分布式爬虫系统能很好地处理新增爬行器时的负载均衡情况和爬行器出现故障时的任务快速恢复情况，具有很好的动态负载均衡效果、鲁棒性和扩展性。关键词：分布式爬虫；动态负载均衡；站点规模预测；减少通信开销；任务调度 Ab Abstract - - II - Abstract With the rapid development of Internet, search engine has become the first entrance to find information for Internet users. Web crawler, as a core component of search engine, used to collect information on the Internet. Now the network information is expanding constantly in exponential speed. The comprehensiveness and the real-time performance of the web page collection have become more and more difficult, which brings a huge challenge for the crawler system. The core issues of the crawler system research are how to make full use of the computer hardware resources and network bandwidth to collect web page efficiently and reduce the communication caused by determining whether url is repeating or not. Aiming at this target, this paper mainly focuses on h