- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式爬虫的动态负载均衡方法研究-计算机科学与技术专业论文
Classified Index: TP399 U.D.C: 621.3 Dissertation for the Master Degree in Engineering RESEARCH ON DYNAMIC LOAD BALANCING METHOD OF DISTRIBUTED CRAWLER SYSTEM Candidate: Zhihui Fu Supervisor: Prof. Xiaofei Xu Academic Degree Applied for: Master of Engineering Speciality: Computer Science Technology Affiliation: Shenzhen Graduate School Date of Defence: Dec,2014 Degree-Conferring-Institution: Harbin Institute of Technology 摘要 摘要 - - I - 摘 要 随着互联网的高速发展,有哪些信誉好的足球投注网站引擎成为互联网用户查找信息的第一入口, 作为有哪些信誉好的足球投注网站引擎核心组件的网络爬虫用于在互联网上采集数据。现在网络信息正 以指数级的速度不断膨胀,网页采集的完整性和实时性的难度越来越大,这给 爬虫系统带来了巨大的挑战。 如何充分地利用计算机的硬件资源和网络带宽高效 地采集页面,同时减少 由 URL 判重所带来的大量通信开销,是分布式爬虫系统研究的核心问题。针对 这个问题,本文以提高分布式爬虫系统的性能为核心,进行了以下研究: 深入研究了分布式系统优缺点、分布式系统的任务调度、网络爬虫工作原 理和爬行策略的基础上,结合网络爬虫自身特点、互联网结构特点和站点页面 间的相似性,提出了基于在线反馈的站点规模动态预测算法。站点规模动态预 测算法首先对站点规模进行分类,然后根据互联网结构的疏密性和爬虫的爬行 原理,提出了站点增长比的概念,在爬虫爬行的过程中,在线采集计算增长比 的信息,通过计算出的增长比的反馈,对站点规模进行逐步预测,并基于采集 的数据进行了算法模型的训练和验证; 将基于在线反馈的站点规模动态预测算法融入到分布式爬虫系统中,可根 据预测出的站点规模,减少 URL 判重所带来的大量通信开销。针对站点规模计 算出爬行器所承载的任务负荷量,通过监视器定时收集爬行器自身负荷当量, 基于以上两点计算爬行器间的负载系数,并以此为依据进行任务调度,以达到 负载均衡的效果; 结合以上理论基础和研究成果,本文设计并开发了基于站点规模的动态任 务分割算法的分布式爬虫系统,该分布式爬虫系统能很好地处理新增爬行器时 的负载均衡情况和爬行器出现故障时的任务快速恢复情况,具有很好的动态负 载均衡效果、鲁棒性和扩展性。 关键词:分布式爬虫;动态负载均衡;站点规模预测;减少通信开销;任务调 度 Ab Abstract - - II - Abstract With the rapid development of Internet, search engine has become the first entrance to find information for Internet users. Web crawler, as a core component of search engine, used to collect information on the Internet. Now the network information is expanding constantly in exponential speed. The comprehensiveness and the real-time performance of the web page collection have become more and more difficult, which brings a huge challenge for the crawler system. The core issues of the crawler system research are how to make full use of the computer hardware resources and network bandwidth to collect web page efficiently and reduce the communication caused by determining whether url is repeating or not. Aiming at this target, this paper mainly focuses on h
您可能关注的文档
- 典型场效应器件电荷控制模型研究-凝聚态物理专业论文.docx
- 典型垃圾渗滤液物化预处理技术的适用性评价研究-环境工程专业论文.docx
- 典型城市污水处理厂提标改造分析-建筑与土木工程专业论文.docx
- 典型城市生活垃圾处置的温室气体协同减排研究-环境工程(环境科学)专业论文.docx
- 典型城市轨道交通网络性能评价及改善-交通运输规划与管理专业论文.docx
- 典型城市近地面O3浓度演化的自组织动力机制-生态学专业论文.docx
- 典型复杂网络的最短路径统计特性分析-计算机应用技术专业论文.docx
- 典型多环芳烃污染土壤生物修复-环境科学专业论文.docx
- 典型室内场景下无线多跳网络阴影衰落相关性建模-信息与通信工程专业论文.docx
- 典型大气条件下架空输电导线磨损特性研究-机械制造及其自动化专业论文.docx
- 2025年智能电网柔性直流输电技术在我国西部地区应用前景.docx
- 7.2 弹力-人教版八年级物理下册.pptx
- 2025年智能电网柔性直流输电技术在智能变电站中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化存储中的应用.docx
- 2025年智能电网柔性直流输电技术在新能源并网中的应用研究.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化控制中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化预测中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化服务中的应用.docx
- 2025年智能电网柔性直流输电技术在智能电网智能化运维中的应用.docx
- 2025年智能电网柔性直流输电技术智能化保护系统研究.docx
有哪些信誉好的足球投注网站
文档评论(0)